新しく発表された「SAKURA-II」プラットフォームをご存知ですか?
本ブログでは、当社の新製品である革新的な「SAKURA-II」エッジAIプラットフォームの主な利点をご紹介します。このプラットフォームが、エッジAI市場において、複雑なモデル処理やシームレスなソフトウェア統合、効率的な処理、最小限の消費電力のベストなバランスをどのように提供するかをご説明します。エッジでの生成系AIに最適化されたSAKURA-II AIアクセラレータ、特許取得済みののDNA(Dynamic Neural Accelerator)アーキテクチャ、ヘテロジニアスなMERAコンパイラ、モジュールとカードのセレクションなど、SAKURA-II AIアクセラレータの完全なプラットフォームにより、お客様が今後の設計にAI機能を簡単に統合できる方法をお伝えします。
市場に出回っている多くのAIアクセラレータは、畳み込みワークロードしか処理できません。今日、ほとんどの新しいアプリケーションは、言語や視覚などの非常に複雑な大規模モデルを処理する必要があるため、Transformerワークロードを処理する能力は非常に重要です。SAKURA-IIは、リソースに制約のあるエッジにおいて極めて重要なエネルギー効率を維持しながら、こうした生成系AIワークロードを容易に処理することができます。
GPUは、Llama 2、Stable Diffusion、DETR、ViTのような数十億のパラメータモデルを扱うことに長けています。しかし、GPUは効率が40%程度と低いため、こうした大規模なAIモデルを処理する際には大量の電力を消費します。
逆に、多くのAIアクセラレータは、このような複雑なモデルを処理できません。SAKURA-IIは、このような複雑なモデルを最大90%の効率で処理する能力を兼ね備えており、標準的な消費電力は10Wです。この効率的な処理と低消費電力の組み合わせにより、SAKURA-IIはエッジでの生成系AIに最適と言えます。
エッジにAI処理を導入することを決定する際、設計者が最初に直面する課題のひとつが、「どのソフトウェア・プラットフォームであれば、必要なことすべてをサポートできるか」ということです。多くの場合、設計者はすでに選択したCPUを持っているため、AI機能を提供しながら一般的なCPUをサポートできるプラットフォームが最も重要となってきます。EdgeCortixのMERAコンパイラ・フレームワークはこのニーズに応え、Intel、AMD、Arm、RISC-VなどのCPUをサポートし、SAKURA-II AIアクセラレータを簡単に統合できます。事前に定義・最適化されたモデルは、Hugging Faceまたは当社のモデルライブラリから直接入手することができ、その後キャリブレーションと量子化が行われます。MERAはApache TVMとMLIRの機能を活用しており、そのフロントエンドはオープンソースです。
エッジでのAI処理において見過ごされがちな制約は、多くのAIアクセラレータがメモリリソースを効率的に管理できないということです。 大規模言語モデル(LLM)や大規模視覚モデル(LVM)のような生成系AIアプリケーションでは、メモリアクセスは、これらの複雑なモデルを処理するのに必要なレベルの性能を達成するために不可欠です。メモリ帯域幅が制限されると、モデルを処理してタイムリーな結果を提供するために必要なデータを転送するアクセラレータの能力が制限されます。当社のSAKURA-II AIアクセラレータは、他のアクセラレータの最大4倍、最大68GB/秒のDRAM帯域幅を提供し、これらの複雑なLLMやLVMに対して優れた性能を実現します。
エッジでAI処理を実装するアプリケーションの多くは、時間が極めて重要となります。交通管理や顔認識、物体認識、セキュリティ制御などのアプリケーションは、入力を即座に分析し、対応することができないと、人命を脅かすほどの悲惨な結果を招く可能性がある多くの事例の一部です。リアルタイムで応答できないAIアクセラレータやGPUは、このような種類のアプリケーションでは役に立ちません。当社のSAKURA-II AIアクセラレータは、リアルタイム条件下での超低遅延動作に最適化されており、すべての人の安全を確保するために即時に応答が必要とされる設計での使用に最適です。
多くのAIアクセラレータは、固定小数点精度(通常INT8)しかサポートしていないため、畳み込みアプリケーションにしか対応できません。進化を続けるAI市場において、浮動小数点演算のサポートは、AIアプリケーションの精度と効率の向上をもたらします。 効率的なAI処理は、固定小数点精度と浮動小数点精度の両方を使用し、提供されたデータセットとモデルに基づいて最適な演算を行う必要があります。当社のMERAコンパイラフレームワークと連動して動作するSAKURA-II AIアクセラレータは、FP32に近い精度の完全な混合精度をサポートし、エッジで最も効率的なAI処理を保証するために最適な精度タイプを提供します。
複雑な現象をモデル化する実世界のAIアプリケーションにおいては、データセットに多くのゼロ要素が含まれていることが多いです。 効率的なメモリ処理を行わないと、アクセラレータやGPU、CPUが不要なデータへのアクセスに多くの時間を費やすため、これらのデータセットの全体的なパフォーマンスが低下する可能性があります。このメモリを並列化し、コンパクト化することで、大幅な性能向上を実現します。SAKURA-II AIアクセラレータは、DNA(Dynamic Neural Accelerator)アーキテクチャにより、ゼロ要素を効率的に処理し、データセットのサイズを縮小します。その結果、メモリフットプリントが大幅に削減され、また、メモリ帯域幅が最適化されるため、AI処理がより効率的になり最大60TOPSまで向上します。
分類関数の主な課題のひとつは、データセットが容易に区別できない場合に起こります。複雑なデータセットの場合、様々な活性化関数が必要になります。SAKURA-II AIアクセラレータは、一般的な活性化関数をサポートしています。SAKURA-IIの主な利点は、他のソリューションではサポートされていない、チップの再設計なしに任意の活性化関数をエミュレートできる追加機能が備わっていることです。その結果、組み込みの活性化関数では対応できないようなデータセットの変化にも、エンドシステムは完全に対応できるようになります。
最先端の複雑な変換モデルを必要とする生成系AIアプリケーションの大幅な増加に伴い、効率的なディープニューラルネットワークは、計算演算子に入力される前に、リシェイパーそしてトランスポーズを使用してテンソル要素の順序を調整することができます。この機能がないと、ホストの介入が必要となり、ホストCPUとの通信が増えるため、待ち時間が長くなり、実行が遅れることになります。 SAKURA-IIでは、EdgeCortixが専用の「Reshaper」ハードウェアブロックを実装し、ホストCPUの介入なしに、オンボードのDDRメモリを使用してテンソル上でこれらのデータシャッフル処理を実行します。この追加機能の利点は、ネットワーク全体をSAKURA-IIデバイスのみで処理できるため、PCIe帯域幅が解放され、ホストCPUの負荷が軽減されることです。これは、エッジでの高度な生成系AIアプリケーションにとって重要な、低遅延の実現と全体的なネットワーク効率の改善につながります。
エッジでのAI処理では、成功する製品を作るために特定の電力要件を満たすことが重要です。システムがバッテリー・ベースであれ、AC電源であれ、全体的な消費電力は日々の運用コスト、長期的な信頼性、交換・修理コストなどに影響します。 GPUやアクセラレーターがAI処理の要件を満たしていても、デバイスの消費電力が高ければ、エッジ・アプリケーションには対応できません。SAKURA-IIプラットフォームは、わずか10Wの電力エンベロープで動作し、ほとんどのエッジアプリケーションに最適です。さらに、SAKURA-IIは、消費電力を最小限に抑えるために内蔵の自動オンチップパワーゲーティングを使用し、システムの電力を最適化するためにDNAエンジンの一部をシャットダウンする機能をユーザーに提供します。
SAKURA-IIは、以下の4つの開発オプションの予約注文を受け付けています。
これらのモジュールとカードのアーキテクチャと仕様については、モジュールとカードのページで詳しく説明しています。
このブログでは、SAKURA-IIプラットフォームがエッジでのAI設計を最適化し、強化する様々な方法についてご紹介してきました。SAKURA-IIプラットフォームが、エッジAI市場において、複雑なモデル処理、シームレスなソフトウェア統合、効率的な処理、最小限の消費電力のベストバランスを提供することをお伝えしました。また、次のAI設計にこのエキサイティングな新技術を導入するための準備として、予約注文可能なオプションもご覧いただきました。
SAKURA-IIプラットフォームについても、ぜひ詳細をご覧ください。
SAKURA-IIプラットフォームを構成するコンポーネントの詳細:製品概要のページ
SAKURA-IIデバイスの詳細:SAKURA-IIのページ
MERAコンパイラとソフトウェアフレームワークの詳細:MERAのページ
当社のランタイムで再構成可能なDynamic Neural Acceleratorの詳細:DNAのページ
製品概要はこちらからダウンロードできます