DeepSeek’in güncellenmiş R1 muhakeme AI modeli dikkat çekiyor. Bununla birlikte Çin AI laboratuvarı DeepSeek’in belirli ölçütlerde karşılaştırılabilir büyüklükteki modelleri geçtiğini iddia ettiği yeni R1’inin daha küçük, “damıtılmış” bir versiyonu olan DeepSeek-R1-0528-Qwen3-8B’yi de yayınladı.
DeepSeek R1 AI modeli
Alibaba’nın Mayıs ayında piyasaya sürdüğü Qwen3-8B modeli temel alınarak oluşturulan daha küçük ve güncellenmiş R1, zorlu matematik sorularından oluşan AIME 2025’te Google’ın Gemini 2.5 Flash’ından daha iyi performans gösteriyor. DeepSeek-R1-0528-Qwen3-8B, Microsoft’un yakın zamanda yayınladığı Phi 4 muhakeme artı modeliyle, başka bir matematik beceri testi olan HMMT’de de neredeyse uyuşuyor.
DeepSeek-R1-0528-Qwen3-8B gibi sözde damıtılmış modeller genellikle tam boyutlu muadillerinden daha az yeteneklidir. Olumlu tarafı, çok daha az hesaplama gerektirirler. Bulut platformu NodeShift’e göre , Qwen3-8B’nin çalışması için 40GB-80GB RAM’li bir GPU gerekir. Örneğin, bir Nvidia H100). Tam boyutlu yeni R1’in yaklaşık bir düzine 80GB GPU’ya ihtiyacı varç
DeepSeek, güncellenen R1 tarafından oluşturulan metni alıp Qwen3-8B’yi ince ayarlamak için kullanarak DeepSeek-R1-0528-Qwen3-8B’yi eğitti. AI dev platformu Hugging Face’teki model için ayrılmış bir web sayfasında DeepSeek, DeepSeek-R1-0528-Qwen3-8B’yi “hem akıl yürütme modelleri üzerine akademik araştırma hem de küçük ölçekli modellere odaklanan endüstriyel geliştirme için” olarak tanımlıyor.
DeepSeek-R1-0528-Qwen3-8B, izin verici bir MIT lisansı altında mevcuttur, yani kısıtlama olmaksızın ticari olarak kullanılabilir. LM Studio dahil olmak üzere birkaç ana bilgisayar, modeli bir API aracılığıyla zaten sunmaktadır.