Microsoft, yapay zeka alanında devrim niteliğinde bir yenilik daha sunarak BitNet b1.58 2B4T adlı yeni dil modelini tanıttı. Bu model, geleneksel yapay zeka sistemlerine göre daha verimli bir yapıya sahip olup, düşük bellek ve enerji tüketimi ile yüksek performans sunuyor. BitNet, sahip olduğu üçlü ağırlık yapısı ve özel optimizasyonları sayesinde, büyük ölçekli yapay zeka uygulamalarının standart donanımlar üzerinde bile verimli bir şekilde çalışmasını sağlıyor.
ÜÇ DEĞERLİ AĞIRLIK YAPISI
BitNet b1.58, geleneksel 16 veya 32 bitlik ağırlıklar yerine yalnızca -1, 0 ve +1 değerlerini kullanıyor. "Üçlü niceleme" adı verilen bu yöntemle her ağırlık 1,58 bitte depolanabiliyor. Bu, bellek kullanımını büyük ölçüde azaltıyor ve büyük ölçekli yapay zeka uygulamalarının, yüksek maliyetli GPU'lar yerine standart donanımlarda çalışmasını mümkün kılıyor.
PERFORMANSI GÖZ DOLDURUYOR
BitNet, 33 milyon kitap içeren dört trilyon tokenlık devasa bir veri kümesiyle eğitildi. Sonuç olarak, Meta’nın Llama 3.2 1B ve Google’ın Gemma 3 1B gibi diğer benzer modellerle karşılaştırıldığında eşit veya daha iyi performans sergiliyor. Yapılan testlerde ilkokul matematik problemleri ve sağduyu gerektiren sorularda başarılı sonuçlar alındı.
DÜŞÜK BELLEK İHTİYACI
BitNet b1.58, yalnızca 400 MB bellek gerektiriyor, bu da onu geleneksel modellerin üçte biri kadar hafif yapıyor. Bu sayede, Apple M2 çipi gibi standart CPU'larda bile verimli bir şekilde çalışabiliyor. Modelin performansı, özel olarak optimize edilmiş ‘bitnet.cpp’ yazılım çerçevesiyle mümkün kılınıyor. Bu çerçeve, günlük bilgisayar cihazlarında hızlı ve hafif performans sağlıyor.
ENERJİ VERİMLİLİĞİ YÜKSEK
Modelin düşük hassasiyetli ağırlıkları, daha az enerji tüketilmesine yol açıyor. Microsoft araştırmacıları, BitNet’in tam hassasiyetli modellere göre yüzde 85 ila 96 daha az enerji kullandığını belirtiyor. Bu durum, yapay zekanın kişisel cihazlarda çalıştırılmasını mümkün kılarken, çevresel etkiyi de azaltıyor.
SINIRLAMALAR VE GELECEK GELİŞMELER
BitNet şu anda yalnızca belirli donanımlar ve özel yazılım çerçevesiyle çalışabiliyor. Ayrıca, bağlam penceresi daha küçük. Araştırmalar devam ediyor ve gelecekte modelin dil desteği ve uzun metin işleme kapasitesi artırılacak.