Site icon TechInside

Yapay zeka kodlama yarışması beklentiyi karşılamadı

Yapay zeka kodlama yarışması

Laude Enstitüsü, Databricks ve Perplexity’nin kurucu ortağı Andy Konwinski tarafından başlatılan çok turlu bir yapay zeka kodlama yarışması olan K Ödülü’nün ilk kazananını açıkladı. Kazanan, 50.000 dolar ödül alacak olan Brezilyalı bir proje mühendisi olan Eduardo Rocha de Andrade oldu. Ancak zaferden daha şaşırtıcı olan, final puanıydı: Sınavdaki soruların sadece %7,5’ini doğru cevaplayarak kazandı.

Yapay zeka kodlama yarışması beklenen etkiyi gösteremedi

Konwinski: “Büyük laboratuvarlar en büyük modelleriyle katılsaydı puanlar farklı olurdu. Ama asıl mesele de bu zaten. K Prize, sınırlı işlem gücüyle çevrimdışı çalışıyor, bu yüzden daha küçük ve açık modelleri tercih ediyor. Eşit şartlar sağlıyor” dedi.

Konwinski, testte %90’ın üzerinde puan alabilen ilk açık kaynaklı modele 1 milyon dolar bağışta bulundu. Bilinen SWE-Bench sistemine benzer şekilde, K Ödülü de modelleri GitHub’dan işaretlenen sorunlara karşı test ederek gerçek dünya programlama problemleriyle ne kadar iyi başa çıkabildiklerini ölçüyor. Ancak SWE-Bench, modellerin eğitilebileceği sabit bir problem kümesine dayanırken, K Ödülü, herhangi bir kıyaslama ölçütüne özgü eğitime karşı koruma sağlamak için zamanlı bir giriş sistemi kullanarak “SWE-Bench’in bulaşma içermeyen bir versiyonu” olarak tasarlandı.

Birinci tur için modeller 12 Mart’a kadar teslim edilmeliydi. K Ödülü organizatörleri daha sonra testi yalnızca bu tarihten sonra işaretlenen GitHub problemlerini kullanarak oluşturdu. %7,5’lik en yüksek puan, şu anda daha kolay olan “Doğrulanmış” testinde %75, daha zor olan “Tam” testinde ise %34’lük bir en yüksek puan gösteren SWE-Bench ile belirgin bir tezat oluşturuyor. Konwinski, bu farklılığın SWE-Bench’teki kirlilikten mi yoksa GitHub’dan yeni sayılar toplamanın zorluğundan mı kaynaklandığından halen emin değil, ancak K Prize projesinin yakında bu soruyu yanıtlamasını bekliyor.

Exit mobile version