最終的には適合できる最大のローカル LLM を実行することになり、2B モデルで必要なものの 90% を処理できました。

通常のコンシューマ GPU をお持ちで、LLM をローカルで実行することに興味がある場合は、それが機能しないと想定していたか、試してみて苦労した可能性があります。ほとんどの大きなオープンウェイトモデルは適合しません。また、適合するモデルは非常にかさばるため、快適ではない傾向があります。その後、Queue 3.5 9B のようなモデルが登場し始め、「そこそこのハードウェアで使用できるネイティブ AI」のハードルは実際に少し下がりました。 8GBのVRAMで数か月間実行してきました。

ただし、9B には注意点もあります。多くの場合、GPU のすべてを使用するため、同時に実行されている他のすべてが縮小され、別の場所でトレードオフを行わない限り、コンテキストウィンドウは小さいままになります。私の状況も同様でした。そして、あることに気づきました。限られたハードウェア向けに特別に構築された小型モデルのほうが、実際にはより良く動作するのです。

AI の最新情報を常に知りたいですか? XDA AI Insider ニュースレターには、サイトの他の場所では見られない詳細な情報、ツールの推奨事項、実用的な報道が毎週提供されます。ニュースレターの設定を変更して購読してください。

VRAM を最大化するのをやめたのはなぜですか?

ハードウェアが適合する最大のモデルが常に実行に最適であるとは限りません

最終的には適合できる最大のローカル LLM を実行することになり、2B モデルで必要なものの 90% を処理できました。

モデル名の「b」は単なるパラメータ数、つまりトレーニング中にモデルが調整する何十億ものノブです。技術的には、ノブが多いほどニュアンスを表現できる能力が高くなりますが、これは実際にモデルに微妙な操作を要求している場合に限ります。私はほとんどの場合、コンセプトの説明、物事の要約、スクリーンショットによる会話、一般的なやり取りにネイティブ AI を使用しています。私はネイティブ AI をアシスタントというよりもチャットボットのように扱っています。そして重要なのは、9B パラメータが必要になる前であってもその目標に到達できるということです。

大規模なモデルが実際に普及するのは、高密度コーディング、複数ステップのエージェントワークフロー、長形式の構造化出力、およびこれらに沿ったものです。したがって、それを行わない場合、基本的には使用していない容量に対して料金を支払うことになります。お金を払うというのは比喩的な意味です。それは、1 秒あたりのトークンの速度の遅さ、ディスクの使用量の多さ、量子化の妥協などに現れ、多くの場合、フル品質で動作する小さなモデルよりも大きなモデルのパフォーマンスが低下します。したがって、私のハードウェアのように控えめなハードウェアの場合、Q3 の 9B が Q8 の 2B よりも実際には悪い場合があります。

体重を超えてパンチを繰り出す小柄なモデルたちを紹介

通常のハードウェア用に構築されています

Gemma 4 E2B は、2026 年 3 月下旬に廃止された Google の Gemma 4 ファミリーの一部です。レイヤーごとの埋め込み (PLE) を使用すると、各デコーダー層にトークンごとに独自の小さな埋め込みを持たせることができ、完全な計算ではなく検索として使用されます。したがって、モデルがさらに多くのパラメータを設定したとしても、有効なパラメータ数は低いままです。ビジョン、テキスト、オーディオ入力を備えたネイティブのマルチモーダルです。 128K のコンテキストウィンドウ、140 以上の言語、ツール呼び出し、構成可能な思考モード。 GoogleはどうやらEdge（携帯電話、ラップトップ、Android、AI Edge Gallery）向けにE2BとE4Bを維持しているようだ。

Qwen 3.5 2B は、0.8B、4B、9B とともにアリババの Qwen チームによる小規模シリーズの一部として、数週間前の 2026 年 3 月に発表されました。これは、ゲート付き DeltaNet ハイブリッドアーキテクチャを使用する高密度の 2B ビジョン言語モデルです。これは、9B が長いコンテキストで KV キャッシュを小さく保つために使用するのと同じトリックです。ワイルドな部分は 262K のネイティブコンテキストウィンドウで、1M トークンを超えるまで拡張可能です。 2Bで。思考モードと非思考モードの両方をサポートしており (小規模なバージョンではデフォルトで非思考)、Alibaba はツール呼び出しを強みの 1 つとして挙げています。

接続済み

Qwen3.5-9B は現在、すべての AI ベンチマークでトップに立っていますが、このようなモデルを選択すべきではありません

モデルには単なるベンチマーク以上のものがあります。

彼らは本当にどうやって持ちこたえるのか

2B クラスが勝てる場所と勝てない場所

Gemma4e2b は、モバイルでの私のお気に入りのローカルチャットボットです。奇妙なことに、私の Chromebook でも動作します (少し遅いですが、動作します)。私が気に入っているのはその個性です。インタラクティブかつ詳細で、クラウドチャットボットのように説明します (説明せずに絵文字も省略します)。しかし、私にとって最大のセールスポイントはビジョンです。新しいアプリをセットアップしたり、視覚的に何かを学習したりするときに、私は常にスクリーンショットを送信します。そして、UI要素やデザインリファレンスからチャートや手書きのメモに至るまで、その内容を正確に読み取ります。それだけでも携帯電話に入れておく価値があります。

Quen 3.5 2B は私のローテーションには初めてで、感触が異なります。フレンドリーで、チャットボットよりも温かくなく、より地に足が着いて、より集中したもので役に立ちます。これは、テキストの分類や密集した情報の分解などの構造化されたタスクに関しては守護者です。私は自分用に週末の Python 101 コースを作成するためにこれを入手しました。ここでも Vision が機能しますが、画像を扱うにはやはり Gemma の方が好きです。

上の兄弟と比べて、2B は難しいことにおいて遅れをとる傾向があります。複数ステップの推論と長い形式の構造化出力に関しては、Queue 3.5 9b と Gemma 4 e4b が先頭に立っています。 Gemma 4 12b もこれを行う必要がありますが、実際にはハードウェアがもう少し拡張されるため、使用中にあまり実行できません。もう 1 つの違いは 1 秒あたりのトークン数です。PC 上の大きなモデルは、私の携帯電話で実行している 2B よりも速く生成されますが、これは公平な比較ではなく、とにかくチャットではあまり重要ではありません。

接続済み

ローカル LLM は今では本当に優れていますが、それを理解するのに数か月を無駄にしました

私は彼らについて間違っていた、そしてあなたもそうかもしれない

2B は私のニーズのほとんどをカバーします

2B はモデル 9B の縮小版ではありません。 Gemma 4 E2B と QUEN 3.5 2B はエッジデバイス向けにゼロから設計されており、アーキテクチャの一部として効率性オプションを備え、アテンションとパラメータの読み込みを処理する方法を備えています。したがって、これらを「Lite」バージョンと呼ぶと、それが何であるかを忘れてしまいます。これらは、ワークステーションモデルを実行しようとしていないハードウェア向けに構築されています。ただし、作業負荷が高いため、私は依然として大きいものを保持しています。