Yapay zeka kodlama yarışması beklentiyi karşılamadı

Burak Kesayak

8 ay önce

Laude Enstitüsü, Databricks ve Perplexity’nin kurucu ortağı Andy Konwinski tarafından başlatılan çok turlu bir yapay zeka kodlama yarışması olan K Ödülü’nün ilk kazananını açıkladı. Kazanan, 50.000 dolar ödül alacak olan Brezilyalı bir proje mühendisi olan Eduardo Rocha de Andrade oldu. Ancak zaferden daha şaşırtıcı olan, final puanıydı: Sınavdaki soruların sadece %7,5’ini doğru cevaplayarak kazandı.

Yapay zeka kodlama yarışması beklenen etkiyi gösteremedi

Konwinski: “Büyük laboratuvarlar en büyük modelleriyle katılsaydı puanlar farklı olurdu. Ama asıl mesele de bu zaten. K Prize, sınırlı işlem gücüyle çevrimdışı çalışıyor, bu yüzden daha küçük ve açık modelleri tercih ediyor. Eşit şartlar sağlıyor” dedi.

Kendi pilini değiştiren robot: Walker S2

Çinli UBTech şirketi, kendi pillerini otonom olarak değiştirebilen dünyanın ilk insansı robotunu tanıttı. Walker S2...

Konwinski, testte %90’ın üzerinde puan alabilen ilk açık kaynaklı modele 1 milyon dolar bağışta bulundu. Bilinen SWE-Bench sistemine benzer şekilde, K Ödülü de modelleri GitHub’dan işaretlenen sorunlara karşı test ederek gerçek dünya programlama problemleriyle ne kadar iyi başa çıkabildiklerini ölçüyor. Ancak SWE-Bench, modellerin eğitilebileceği sabit bir problem kümesine dayanırken, K Ödülü, herhangi bir kıyaslama ölçütüne özgü eğitime karşı koruma sağlamak için zamanlı bir giriş sistemi kullanarak “SWE-Bench’in bulaşma içermeyen bir versiyonu” olarak tasarlandı.

Birinci tur için modeller 12 Mart’a kadar teslim edilmeliydi. K Ödülü organizatörleri daha sonra testi yalnızca bu tarihten sonra işaretlenen GitHub problemlerini kullanarak oluşturdu. %7,5’lik en yüksek puan, şu anda daha kolay olan “Doğrulanmış” testinde %75, daha zor olan “Tam” testinde ise %34’lük bir en yüksek puan gösteren SWE-Bench ile belirgin bir tezat oluşturuyor. Konwinski, bu farklılığın SWE-Bench’teki kirlilikten mi yoksa GitHub’dan yeni sayılar toplamanın zorluğundan mı kaynaklandığından halen emin değil, ancak K Prize projesinin yakında bu soruyu yanıtlamasını bekliyor.