YZ’yi Kiralamak yerine Sahiplenmek: RTX 4070 Ti Super’da İlk Yerel LLM’im
Haftalarca YZ’m “kiralıktı” — bir istem, okyanus ötesinde başkasının veri merkezine gidiyordu. Bu hafta onu eve getirdim.
Son birkaç haftadır Yapay Zekâ ile ilişkim “kiralık” oldu. Claude’a giriş yapıyorum, uzaktaki bir veri merkezindeki sunucuya bir istem gönderiyorum ve cevabın okyanusu aşıp geri gelmesini bekliyorum. Pratik, ama temel bir şeyden yoksun: özerklik.
Bu yüzden bu hafta kiralamayı bırakıp sahiplenmeye karar verdim — gerçek bir modeli kendi makinemde, kendi silikonumda, kendi elektriğimde, bulut işin içinde olmadan çalıştırmaya.
Kiralık mı, sahip mi
Karar · pratiklik yerine özerklikZekâ kiralamak kolaydır. Bir sekme açar, yazar, cevap sihir gibi belirir. Ama her kelime, asla göremeyeceğin bir donanıma gider; senin koymadığın limitler ve şartlarla yönetilir. Pratiklik gerçektir — bağımlılık da öyle.
Sahiplenmek, modelin senin diskinde yaşaması ve senin odanda cevap vermesi demek. Okyanusu aşan gidiş-dönüş yok, hesap yok, arka planda işleyen sayaç yok. Misafirlikten ev sahipliğine geçiş, bu denemenin tüm amacıydı.
Gizli silahım
Özellik · darboğaz VRAM’dirYZ’yi yerelde çalıştırmaya karar verdiğinde en büyük darboğazın CPU’n ya da RAM’in değil — VRAM’in (Video RAM) olur. Büyük Dil Modelleri devasa matematiksel yapılardır ve insan okuyabilirliğinde bir hızla cevap vermeleri için GPU’nun belleğinde yaşamaları gerekir.
Cutting-edge oyunları sevdiğim için şanslıyım ki bir NVIDIA RTX 4070 Ti Super ile çalışıyorum. Kurumsal sınıf bir A100 olmasa da, benim için her şeyi değiştiren kritik bir özelliği var: 16GB VRAM.
“İşte bu!” anı: Gemma’yı çalıştırmak
Çalıştır · 16GB’ta Gemma-26B (a4b)Yolculuğun benim için “gerçek” olduğu an, Gemma-26B’yi (a4b varyantı) 4070 Ti Super’ıma başarıyla yüklediğim andı. Bu ölçekte bir modeli — 26 milyar parametreli bir modeli — tüketici donanımında çalıştırmak sihir gibi geliyor.

Modelin nicelenme (sıkıştırılma) biçimi sayesinde, 16GB VRAM sınırıma tam oturuyor. Metnin ekranda akışını, tamamen kendi elektriğim ve kendi silikonumla beslenirken izlemek, bakış açımda derin bir kayma oldu.
Üçüncü bir tarafa gönderilen veri yok. Kullanım limiti yok. Abonelik katmanı yok. Sadece ben, GPU’m ve model.
Belli bir iç huzuru
Sakla · verin kendi diskindeYerel barındırmayla gelen belli bir iç huzuru var. Bir sonraki sürümlerini eğitmeleri için üçüncü taraf bir şirkete gönderilen hiçbir veri yok. “Kullanım limitleri” ya da “abonelik katmanları” yok. Sadece ben, GPU’m ve model var.
Araçla farklı bir ilişki bu — bir hizmeti kiralamaktan çok bir enstrümana sahip olmaya yakın. Ağırlıklar bir kez diske indi mi, internet artık isteğe bağlı.
Hâlâ bir öğrenci
Öğren · niceleme, bağlam, VRAMBu alanda hâlâ çok büyük ölçüde bir öğrenciyim. Niceleme (modelleri nasıl küçülttüğümüz), Bağlam Pencereleri (bir modelin ne kadarını hatırlayabildiği) ve büyük ağırlıkları sınırlı VRAM’e sığdırmanın hassas dengesi üzerine öğreniyorum.

Amaç sadece masaüstümde havalı bir teknoloji demosu olması değil; gerçekten sahip olduğum, özel ve akıllı bir asistan kurmak.
Düzgün VRAM’i olan bir GPU’n varsa, tavsiyem basit: LM Studio’yu indir, bir model bul ve oynamaya başla. Bulut harika — ama gerçek özgürlük kıyıdadır.