Site icon TechInside

Yapay zeka ligi ChatGPT liderliği ile devam ediyor

Yapay zeka ligi

ChatGPT’nin yaratıcıları tarafından geliştirilen bir yapay zeka (YZ) modeli olan o3, bir kıyaslama platformuna göre, birçok alandaki bilimsel soruları yanıtlamak için en iyi YZ aracı olarak derecelendirildi.

Seattle, Washington’daki Allen Yapay Zeka Enstitüsü (Ai2) tarafından geliştirilen SciArena , 23 büyük dil modelini (LLM) bilimsel sorulara verdikleri yanıtlara göre sıraladı. Yanıtların kalitesi 102 araştırmacı tarafından oylandı. San Francisco, Kaliforniya’daki OpenAI tarafından geliştirilen o3, 13.000’den fazla oylama sonucunda doğa bilimleri, sağlık hizmetleri, mühendislik ve beşeri bilimler ve sosyal bilimler alanlarındaki soruları yanıtlamada en iyi dereceyi aldı.

Yapay zeka ligi rekabetle daha da kızışıyor

Çin’in Hangzhou kentinde DeepSeek tarafından geliştirilen DeepSeek-R1, doğa bilimleri sorularında ikinci, mühendislik sorularında ise dördüncü sırada yer aldı. Google’ın Gemini-2.5-Pro’su ise doğa bilimleri sorularında üçüncü, mühendislik ve sağlık hizmetlerinde ise beşinci sırada yer aldı.vAi2’de araştırma bilimcisi olan Arman Cohan, kullanıcıların o3’e olan tercihinin, modelin atıfta bulunduğu literatür hakkında çok fazla ayrıntı verme ve teknik açıdan incelikli yanıtlar üretme eğiliminden kaynaklanabileceğini söylüyor. Ancak modellerin performansının neden değiştiğini açıklamak zor. Çünkü çoğu tescilli. Cohan, eğitim verilerindeki farklılıklar ve modelin optimize edildiği konular gibi diğer faktörlerin de bunu kısmen açıklayabileceğini söylüyor.

SciArena, yapay zeka modellerinin belirli görevlerdeki performansını değerlendirmek için geliştirilen en yeni platformdur ve kitle kaynaklı geri bildirim kullanarak bilimsel görevlerdeki performansı sıralayan ilk platformlardan biri. Canberra’daki Avustralya Ulusal Üniversitesi’nde robotik ve yapay zekâ araştırmacısı olan Rahul Shome,: “SciArena, LLM destekli edebiyat görevlerinin dikkatli bir şekilde değerlendirilmesini teşvik eden olumlu bir çabadır” diyor.

SciArena, 23 LLM programını sıralamak için araştırmacılardan bilimsel sorular göndermelerini istedi. Rastgele seçilen iki modelden yanıtlar aldılar ve bu yanıtlar, yine Ai2 tarafından geliştirilen bir yapay zeka araştırma aracı olan Semantic Scholar’dan alınan referanslarla desteklendi. Kullanıcılar daha sonra, bir modelin en iyi yanıtı verip vermediğine, iki modelin karşılaştırılabilir olup olmadığına veya her ikisinin de kötü performans gösterip göstermediğine oy verdi.

Platform artık herkese açık ve kullanıcıların ücretsiz olarak araştırma soruları sormasına olanak tanıyor. Tüm kullanıcılar iki modelden yanıt alıyor ve performansları hakkında oy kullanabiliyor. Ancak, şirketin sık sık güncelleneceğini belirttiği liderlik tablosuna yalnızca şartları kabul eden doğrulanmış kullanıcıların oyları ekleniyor.

Exit mobile version