大規模言語モデル(LLM)のモバイルデバイスへの展開の需要が高まっています。これは、プライバシーの保護、レイテンシーの低減、効率的な帯域幅の使用が求められているためです。しかし、LLMの膨大なメモリと計算リソースの要件は、これを困難にしています。ここで登場するのが、LinguaLinkedです。これは、カリフォルニア大学アーバイン校の研究者チームが開発した新しいシステムで、複数のモバイルデバイスの集合的な能力を活用して、複雑なタスクを効率的に実行できる分散型LLM推論を可能にします。
課題
GPT-3やBLOOMのようなLLMをモバイルデバイスに展開することは以下の理由で困難です:
- メモリの制約: LLMは非常に大きなメモリを必要とし、しばしば個々のモバイルデバイスの容量を超えることがあります。
- 計算能力の制約: モバイルデバイスは通常、限られた処理能力しか持たず、大規模なモデルを実行するのが難しいです。
- プライバシーの 懸念: データを中央サーバーに送信して処理することは、プライバシーの問題を引き起こします。
LinguaLinkedのソリューション
LinguaLinkedは、次の3つの主要な戦略を用いてこれらの課題に対処します:
- 最適化されたモデル割り当て:
- システムはLLMを小さなサブグラフに分割し、各デバイスの能力に合った部分を割り当てます。
- これにより、リソースの効率的な利用が確保され、デバイス間のデータ伝送が最小限に抑えられます。
- ランタイム負荷分散:
- LinguaLinkedはデバイスのパフォーマンスをリアルタイムで監視し、タスクを再分配してボトルネックを防ぎます。
- この動的なアプローチにより、利用可能なすべてのリソースが効率的に使用され、システム全体の応答性が向上します。
- 最適化された通信:
- 効率的なデータ伝送マップが、デバイス間の情報の流れをガイドし、モデルの構造的整合性を維持します。
- この方法により、レイテンシーが減少し、モバイルデバイスのネットワーク全体でのデータ処理が迅速に行われます。
大規模な言語モデル(LLM)を異なる部分(またはセグメント)に分割し、複数のモバイルデバイスに分散させます。このアプローチにより、各デバイスは全体の計算およびストレージ要件の一部のみを処理することになり、限られたリソースを持つデバイスでも複雑なモデルを実行することが可能になります。以下は、この仕組みの概要です:
モデルの分割と分配
- モデルの分割:
- 大規模な言語モデルを計算グラフに変換し、ネットワーク内の各操作をノードとして表現します。
- このグラフは、独立して機能することができる小さなサブグラフに分割されます。
- 最適化されたモデル割り当て:
- 線形最適化を使用して、これらのサブグラフ(またはモデルセグメント)を異なるモバイルデバイスに割り当てます。
- 割り当ては、各デバイスの計算能力とメモリ能力を考慮し、リソースの効率的な利用とデバイス間のデータ伝送オーバーヘッドの最小化を図ります。
- 協調的推論実行:
- 各モバイルデバイスは、割り当てられたモデルのセグメントを処理します。
- デバイス間で中間結果を交換して、全体の推論タスクが正確に実行されるようにします。
- 最適化された通信戦略を使用して、元のモデル構造の整合性を維持し、データの効率的な流れを確保します。
例
GPT-3のような大規模言語モデルがいくつかの部分に分割されるとします。1つのモバイルデバイスは、初期のトークン埋め込みやモデルの最初のいくつかの層を処理し、別のデバイスは中間層を処理し、3つ目のデバイスは最終層を完了し、出力を生成します。このプロセス全体で、デバイスは中間出力を共有し、モデル全体の推論がシームレスに実行されるようにします。
パフォーマンスと結果
LinguaLinkedの効果は、様々なAndroidデバイス(高性能から低性能まで)での徹底的なテストを通じて実証されました。主な結果は次のとおりです:
- 推論速度: ベースラインと比較して、LinguaLinkedはシングルスレッド設定で1.11倍から1.61倍、マルチスレッド設定で1.73倍から2.65倍の推論パフォーマンスを向上させました。
- 負荷分散: システムのランタイム負荷分散により、パフォーマンスがさらに向上し、全体で1.29倍から1.32倍の加速が見られました。
- スケーラビリティ: より大きなモデルは、LinguaLinkedの最適化されたモデル割り当てから大きな恩恵を受け、複雑なタスクの処理においてそのスケーラビリティと有効性が示されました。