ローカル AI · RTX 4070 Ti Super · 初回実行

AI を借りる vs 所有する:RTX 4070 Ti Super で動かした初めてのローカル LLM

数週間、私の AI は「レンタル」だった——プロンプトは海の向こう、他人のデータセンターへ。今週、それを自宅に持ち帰った。

なぜ本当のボトルネックは VRAM なのか、26B のモデルが 16GB にどう収まるのか、そしてシリコンが自分のものになると何が変わるのか。

ログイン · プロンプト送信 · 海を待つ——あるいは待たない

ここ数週間、私と人工知能の関係は「レンタル」だった。Claude にログインし、遠いデータセンターのサーバーにプロンプトを送り、答えが海を渡って戻るのを待つ。便利だが、根本的な何かが欠けている:自律性だ。

だから今週、借りるのをやめて所有することにした——本物のモデルを、自分のマシンで、自分のシリコンで、自分の電気で、クラウドを介さずに走らせる。

00手順 · なぜ

レンタルか、所有か

決断 · 便利さより自律性

知能を借りるのは簡単だ。タブを開き、打ち込めば、答えが魔法のように現れる。だがどの言葉も、決して見ることのないハードウェアへ届き、自分が定めたわけではない上限と規約に支配される。便利さは本物だ——そして依存もまた本物だ。

所有するとは、モデルが自分のディスクに住み、自分の部屋で答えること。海を越える往復もなく、アカウントもなく、裏で回り続けるメーターもない。客から主人へのこの転換こそ、この実験の全目的だった。

01手順 · ハードウェア

スペック · ボトルネックは VRAM

AI をローカルで動かすと決めたとき、最大のボトルネックは CPU でも RAM でもない——VRAM(ビデオ RAM)だ。大規模言語モデルは巨大な数学的構造で、人が読める速度で答えさせるには、GPU のメモリの中に住まわせる必要がある。

最先端のゲームが好きなおかげで、私は幸運にも NVIDIA RTX 4070 Ti Super を使っている。エンタープライズ級の A100 ではないが、私にとってすべてを変えた決定的な特徴がある:16GB の VRAM だ。

02手順 · モデル

実行 · 16GB に Gemma-26B(a4b)

旅が私にとって「本物」になった瞬間は、Gemma-26B(a4b バリアント)を 4070 Ti Super に無事読み込んだときだった。この規模のモデル——260 億パラメータのモデル——をコンシューマー機で動かすのは、魔法のように感じる。

モデルが量子化(圧縮)されている仕組みのおかげで、16GB の VRAM 上限にぴたりと収まる。テキストが画面を流れていくのを、まったく自分の電気と自分のシリコンだけで動かしながら眺めたことは、視点の深い転換だった。

第三者に送られるデータはない。利用上限もない。サブスクの階層もない。あるのは私と、私の GPU と、モデルだけ。

03手順 · 見返り

保持 · データは自分のディスクに

ローカルでホストすることには、ある種の安心がついてくる。次の世代を訓練するために第三者企業へ送られるデータは一切ない。「利用上限」も「サブスクの階層」もない。あるのは私と、私の GPU と、モデルだけだ。

道具との関係が違う——サービスを借りるというより、楽器を所有するのに近い。重みが一度ディスクに載れば、インターネットは任意になる。

04手順 · これから

学ぶ · 量子化、コンテキスト、VRAM

この分野では、私はまだ大いに学びの途中だ。量子化(モデルをどう縮めるか)、コンテキストウィンドウ(モデルがどれだけ覚えていられるか)、そして大きな重みを限られた VRAM に収める繊細なバランスを学んでいる。

目的は、机の上に格好いい技術デモを置くことではない;本当に自分が所有する、私的で知的なアシスタントを作ることだ。

まともな VRAM の GPU があるなら、助言は単純だ:LM Studio をダウンロードし、モデルを見つけ、遊び始めること。クラウドは素晴らしい——だが本当の自由はエッジにある。