İlk Türkçe Büyük Dil Modeli Tanıtıldı: Kumru LLM
Tamamen Türkçe için sıfırdan eğitilen ilk büyük dil modeli “Kumru LLM”, resmen tanıtıldı. 7,4 milyar parametreye sahip model, yalnızca Türkçe verilerle eğitilmesiyle dikkat çekiyor. Üstelik, 16 GB VRAM’e sahip tüketici sınıfı GPU’larda dahi çalışabiliyor.
Türkçe İçin Sıfırdan Eğitildi
Yazılım şirketi VNGRS tarafından geliştirilen Kumru LLM, Türkçe’yi merkezine alan ilk yerli büyük dil modeli olma özelliğini taşıyor.
Model; belge işleme, özetleme ve kurumsal soru-cevap sistemleri gibi alanlarda kullanılmak üzere geliştirildi.
VNGRS, gelen talebe göre farklı sektörlere özel versiyonlar da üretmeyi planlıyor.
Kumru, “sıfırdan eğitilmiş, hafif ve kurum içi konuşlandırılabilir bir yapay zeka modeli” olarak tanımlanıyor. Her ne kadar Türkçe temelli olsa da, model İngilizce ve kodlama dillerini de anlayabiliyor.
45 Günde Eğitildi, 500 GB Veriyle Donatıldı
Modelin eğitim süreci 45 gün sürdü. Eğitim, H100 ve H200 GPU’ları üzerinde, 500 GB’lık temizlenmiş ve yinelenmemiş veriyle gerçekleştirildi.
Ayrıca, 1 milyon örnekten oluşan veri karışımıyla ince ayar (fine-tuning) yapıldı.
Kumru’nun bilgi kesim tarihi Mart 2024 olarak belirtilirken, modelin mimarisi açık kaynak Mistral-v0.3 tabanına dayanıyor.
Ayrıca, LLaMA-3 teknik belgelerinden faydalanılarak optimize edilmiş.
Model, 8.192 token bağlam uzunluğuna sahip; bu da yaklaşık 20 A4 sayfası uzunluğundaki bir metni tek seferde işleyebildiği anlamına geliyor.
Tüketici GPU’larında Uygun Fiyatlı Çözüm
Verimlilik odaklı tasarımı sayesinde RTX 3090 veya RTX A4000 gibi 16 GB VRAM’li GPU’larda sorunsuz şekilde çalışabiliyor.
VNGRS’ye göre Kumru’nun kurum içi cihazlara kurulumu yaklaşık
2.000 dolar maliyetle yapılabiliyor.
Bu rakam, benzer kapasitedeki yabancı modellerden Gemma-3–27B için
gereken 30.000 dolarlık H100 GPU maliyetine göre büyük avantaj
sağlıyor.
Açık Kaynak Küçük Sürüm: Kumru-2B
Kumru’nun 2 milyar parametreli, hafif sürümü Kumru-2B de
duyuruldu.
Bu versiyon sadece 4.8 GB VRAM gerektiriyor ve mobil cihazlarda
dahi çalışabiliyor.
Açık kaynaklı model, Hugging Face üzerinden erişime açılmış
durumda.
Türkçe Performansında Zirvede
Yapılan testlerde Kumru LLM, dev rakipleri LLaMA-3.3–70B, Gemma-3–27B, Qwen-2–72B ve Aya-32B modellerini Türkçe görevlerde geride bıraktı.
Özellikle dilbilgisi düzeltme ve özetleme performanslarında açık ara öne çıktı.
Modelin Türkçe’ye özgü tokenizasyon sistemi de dikkat çekiyor.
Yeni RegEx tabanlı ön işlemci sayesinde noktalama işaretleri ve
sayılar ayrı token’lar olarak işleniyor.
Bu sayede model, metinleri %38 ila %98 daha az token kullanarak
temsil ediyor — bu da daha uzun metinleri daha hızlı ve düşük
maliyetle işleyebilmesini sağlıyor.
Denemek İsteyenlere: kumru.ai
Kumru LLM’in herkese açık demo sürümü, kumru.ai adresi üzerinden
erişime açıldı.
Modelin ilerleyen dönemde kurumsal sürümlerinin de piyasaya
sunulması bekleniyor.