iPhone 17 Proで400Bパラメータ級LLMが動作——オンデバイスAIの限界を更新

Apple製デバイス向けLLM推論プロジェクト「ANEMLL(Apple Neural Engine Machine Learning)」が、iPhone 17 Proで4000億(400B)パラメータ規模の大規模言語モデル(LLM)を動作させるデモ映像を公開し、開発者コミュニティで大きな反響を呼んでいる。Hacker Newsでは370ポイント以上を獲得し、200件超のコメントが集まった。

400Bとはどれほど巨大か

400Bパラメータというのは、現時点で公開されている最大クラスのオープンモデルと肩を並べる規模だ。たとえばMeta社のLlama 3.1の最大モデルが405Bであり、数年前まで「クラウド専用」の代名詞だった規模感である。これをデータセンターのGPUクラスタではなく、ポケットに入るスマートフォン1台で動かすという試みは、エッジAIの文脈において革命的な意味を持つ。

ANEMLLが活用するApple Neural Engine

ANEMLLは、iPhoneおよびiPad・Mac搭載のApple Siliconに内蔵される「Apple Neural Engine(ANE)」を最大限活用するためのLLM推論フレームワークだ。ANEはCPU・GPUとは独立した専用演算ユニットであり、行列演算を高効率・低電力で処理できる。通常のLLMフレームワークがCPUやGPUを主に使うのに対し、ANEMLLはANEに最適化したモデル変換と推論パイプラインを独自に構築している。

今回のデモでは、4ビット量子化(INT4)などのモデル圧縮技術と、Apple Siliconの統合メモリアーキテクチャを組み合わせることで、超大規模モデルをオンデバイス推論可能にしていると考えられる。iPhone 17 Proは前世代から大幅に増強されたメモリ容量と改良されたANEを搭載しており、こうした試みを可能にするハードウェア基盤が整ってきた形だ。

プライバシーとレイテンシの観点から

オンデバイスでLLMが動作することの意義は、単なる技術的な面白さにとどまらない。クラウドにテキストを送信せずに処理できることはプライバシー保護に直結し、ネットワーク遅延も排除できる。医療・法律・金融といった機密性の高い業務や、オフライン環境でのAI活用にも道が開ける。

日本国内でも個人情報保護法や各種業界ガイドラインの観点から「クラウドに社内データを送りたくない」というニーズは強い。大規模モデルのオンデバイス化が実用レベルに達すれば、エンタープライズ向けモバイルAIの設計思想そのものが変わりうる。

現時点での課題

Hacker Newsのコメント欄では「推論速度はどの程度か」「トークン生成レートが実用域に達しているか」を問う声が多く上がっている。400Bモデルを数ビット量子化しても必要なメモリ帯域幅は膨大であり、現状では応答速度に制約があることが予想される。デモがどの程度の実用性を示しているかは、続報を待つ必要がある。

とはいえ、わずか数年前には「スマートフォンでGPT-2クラスすら動かない」とされていた時代から、今や400B規模のデモが登場するまでに至った進化の速度は驚異的だ。ANEMLLの取り組みは、オンデバイスAIの可能性を再定義する一石として記憶されることになりそうだ。


元記事: iPhone 17 Pro Demonstrated Running a 400B LLM