しかし、Von Neumannプロセッサをベースとした従来のホモジニアス・アーキテクチャは、大規模な並列処理、大量のデータ、複雑な計算を伴うことが多いAIワークロードの要件を満たす上で課題に直面しています。ヘテロジニアス・コンピューティング・アーキテクチャは、専門的な能力と機能を持つ多種多様なプロセッシング・ユニットを統合したもので、AIアプリケーションの有望なソリューションとして浮上しています。我々の見解では、AIはソフトウェア定義のヘテロジニアス・コンピューティングの次の時代を牽引し、複雑な問題に対するより良いソリューションを可能にします。
コンピューティング・アーキテクチャにおけるヘテロジニアス(異種性)とは、汎用プロセッサ、再構成可能なデバイス、アクセラレータ、センサーなど、異なるタイプのコンピューティング・デバイスが、さまざまな方法で統合・相互接続され、複雑なシステムを形成している状況を指します。これらのシステムは、シングルチップからデータセンター、分散処理ネットワークまで、複数の粒度レベルにまたがることができます。異種性には、異なる命令セット、メモリモデル、プログラミングモデル、通信プロトコルが含まれることもあります。
異種性の主な目的は、性能、消費電力、コスト、柔軟性のトレードオフを最適化することです。リアルタイムのビデオ解析や音声認識のようなAIアプリケーションは、高い計算強度と低レイテンシを必要とする場合があります。このような場合、ワットあたりに高い性能を発揮する特定のハードウェア・アクセラレータの利点を生かすことができます。一方、自然言語処理やレコメンデーション・システムなど、AIタスクの中には多様で動的なデータソースやモデルを含むものもあります。これらのタスクは、急速に進化するAIのワークロードやデータの特性に合わせて、再構成可能なプロセッサ・アーキテクチャから恩恵を受けることができます。
しかし、ヘテロジニアス・コンピューティング・アーキテクチャは、ソフトウェア開発と最適化に対して大きな課題をもたらします。
これらの課題には以下のようなものが挙げられます。
基礎となるハードウェアの複雑さと異種性を抽象化し、高レベルのプログラミング・モデルとインターフェイスを提供できるソフトウェア・ツールとフレームワークは、これらの課題に対応するために不可欠です。このようなソフトウェア・ツールやフレームワークにおけるAI技術は、特にリソースに制約のあるエッジ・デバイスの性能とエネルギー消費を最適化するために開発されつつあります。例えば、機械学習はさまざまな処理ユニットの動作や特性をモデル化し、最適なシステム構成を予測することができます。AIプランニングは、パラメータ空間を探索し、効率的な実行計画を生成することができます。強化学習はフィードバックを受け取り、ダイナミックな環境や変化する作業負荷に適応することができます。
EdgeCortixでは、特にエッジAIソリューション用に、ヘテロジニアス・コンピューティング環境向けに設計された機械学習強化ランタイム・アクセラレーション・ソフトウェアとコンパイラフレームワークとしてMERAを開発しました。MERAは、統一されたプログラミング・インターフェイス、プロセッサの組み合わせをターゲットに最適化されたコードを生成できるスマートコンパイラで、異種システムの実行と適応を動的に管理できるランタイムを提供することで、異種システムのソフトウェア開発プロセスを簡素化し、自動化することを目指しています。MERAは、アプリケーションの要求に合わせて、ソフトウェアと基礎となるハードウェアを構成することで、ソフトウェア定義の異種混在コンピューティング・ソリューションを可能にします。
MERAのプログラミング・インターフェースを活用することで、機械学習の開発者は、各ターゲット・プロセッサやデバイスの詳細を気にすることなく、PythonやC++などの高位言語でアプリケーション・コードを書くことができます。その後、MERAコンパイラはコードを解析し、追加デバイスにまたがり、または、追加デバイスと組み合わせて実行できるように、異なるセグメントに自動的に分割します。コンパイラは、ループのアンローリング、ベクトル化、タスクの並列化、メモリ管理、データレイアウトの変換など、さまざまな最適化技術を適用して、各デバイスに対して効率的なコードを生成します。
MERAのコンパイラとランタイムは、混合されたヘテロジニアス(異種)・プロセッサに実行ファイルを展開し、実行する役割を担い、CPU、ネットワーク・プロセッサ・ユニット(NPU)、あるいはプログラマブル・ロジックなど、各アプリケーションに最適なデバイスの組み合わせを選択します。コンパイラはまた、モデルタイプ、INT8やFP16などのモデル精度、データサイズや解像度、消費電力などのワークロードや環境条件を監視し、それに応じて異種システム間の構成や動作を動的に調整することができます。例えば、コンパイラとランタイムは、モデルの精度や性能基準に基づいて、異なるデバイスやコードセグメントを切り替え、ディープニューラルネットワークモデルや複数のモデルを、利用可能な異種プロセッサに分散するための最適な演算グループに分割することができます。
MERAはまた、あらかじめ最適化されたカーネルのライブラリと、標準的なAI操作(畳み込み、プーリング、活性化、マスクまたはマルチヘッドアテンションなど)から認識したパターンのセットを提供し、異種プロセッサに対応するコンピューティングエンジンで最適に実行できます。MERAライブラリは、さまざまなスケジューリングとメモリ割り当てのテクニックを利用し、コンパイル時に、与えられたコンフィギュレーションにおけるレイテンシや計算利用率など、ターゲット・メトリックを繰り返し最適化することができます。
MERAソフトウェアとコンパイラ・フレームワークは、幅広いソフトウェア定義のヘテロジニアス・コンピュート・エンジンをサポートしています。その一例として、EdgeCortix SAKURA-Iエッジ推論プロセッサは、推論実行時にランタイムで再構成可能な専用NPU(EdgeCortix Dynamic Neural Accelerator技術に基づく)を備えており、汎用ホストプロセッサ(Arm、x86、またはRISC-Vコア)や、追加のディスクリートFPGAアクセラレータ等と組み合わせることができます。MERAは、機械学習ベースのエンド・アプリケーションを、パフォーマンスを最大化しながら、低消費電力条件下で、この混合処理エンジン全体で高速化することを可能にします。
EdgeCortix MERAソフトウェアを使用して開発する設計者は、低レベルのコードを書いたりハードウェアパラメータを手動で調整したりすることなく、EdgeCortix SAKURA-IエッジAIプロセッサ上で高性能かつ省電力のAI推論を実現できます。さらに、サポートされているインターフェイスを持つ新しいタイプのプロセッサやその他のサードパーティ製のデバイスを追加する場合、既存のMERAライブラリは新しい命令セットアーキテクチャをサポートするように簡単に拡張が可能です。
ムーアの法則が崩壊するにつれ、トランジスタの微細化による性能向上は減少しており、ホモジニアス・マルチコア・ソリューションは、特に効率性が決定基準となる場合、すべてのコンピューティング問題を解決するわけではありません。半導体エンジニアはアーキテクチャの改善にますます注力し、複数のプロセッサ(CPU、GPU、ASIC、FPGA、NPU)が連携して性能を向上させるヘテロジニアス・コンピューティングへと移行しています。
AIのパフォーマンスを加速するためには、新しいタイプのソフトウェアとコンパイラが不可欠です。 このような背景から、リアルタイムかつ高性能なエッジAIソリューションを展開するために開発されたEdgeCortixのMERAソフトウェアとコンパイラフレームワークを紹介しました。 ソフトウェアで定義されたヘテロジニアス・コンピューティングの新時代において、このようなソフトウェアは、AIアプリケーションを大規模に開発・展開するために必要かつ柔軟なツールとなるでしょう。
サキャシンガ・ダスグプタ博士は、EdgeCortixの創設者兼CEOです。人工知能(AI)および機械学習の技術者、起業家、エンジニアであり、さまざまな業界において、最先端のAI研究をアイデア段階からスケーラブルな製品へと発展させた10年以上の経験を持っています。マイクロソフトやIBMリサーチ/日本IBMなどのグローバル企業や、理化学研究所、ドイツのマックスプランク研究所などの国立研究所でチームを率い、EdgeCortixを設立する直近では、日本とシンガポールの半導体テクノロジー、ロボティクス&自律走行車、Fintech分野のリーン・スタートアップで技術部門の設立と指導に携わってきました。 Brain-inspired コンピューティング、ロボット工学、コンピュータビジョン、半導体上のAIアクセラレーション、ウェアラブルデバイス、IoT、金融やヘルスケアにおける機械学習など、さまざまな分野の研究開発に10年以上携わった後、サキャはエネルギー効率の高いエッジ・インテリジェンスの実現に焦点を当てたファブレス半導体設計企業として、2019年にEdgeCortixを設立しました。東京にEdgeCortixの研究開発本部と半導体設計チームの拠点を置き、「ハードウェアとソフトウェアの協調探索」と呼ばれる特許技術を駆使してAIに特化した再構成可能なプロセッサを一から設計しながら、ソフトウェアファーストのアプローチを取るという斬新的なアイデアに取り組んできました。FPGAやカスタムASIC設計のような既存のプロセッサ上でソフトウェアIPを使用し、高度なコンピュータビジョンアプリケーションを第一にターゲットとするEdgeCortixは、防衛、セキュリティ、航空宇宙、スマートシティ、インダストリー4.0、自律走行車、ロボット工学など、急速に成長するAI半導体分野に積極的に携わっています。 ドイツのマックス・プランク研究所で複雑系物理学の博士号を取得し、英国エジンバラ大学で人工知能の修士号を取得。これまでに、世界中で20件以上の特許を取得しており、その研究の引用回数は1000件以上にものぼります。