ChatGPT-4 Turbo rekabette üstünlük kuruyor

- Advertisement -

Chatbot Arena, 45 yapay zeka modeli için kitle kaynak derecelendirmesi yapıyor. 130.000’den fazla kör derecelendirme, ChatGPT-4 Turbo’nun rekabette üstünlük sağladığını gösteriyor.

Yapay zeka ortamı düzinelerce farklı büyük dil modelini (LLM) kapsayacak şekilde genişledikçe, herhangi bir soruya hangi modelin “en iyi” yanıtları sağlıyor. Dolayısıyla buna dair tartışmalar da çoğaldı artıyor. Çeşitli modelleri karşılaştırmanın daha titiz bir yolunu arayanlar için Büyük Model Sistemler Organizasyonu’ndaki (LMSys) kişiler, kitle kaynaklı bir kör test web sitesine dayalı olarak LLM’ler için Elo tarzı sıralamalar oluşturmaya yönelik bir platform olan Chatbot Arena’yı kurdu.

ChatGPT-4 Turbo rekabette öne çıkıyor

Chatbot Arena kullanıcıları, rastgele seçilen iki modelden gelen yanıtları yan yana görmek için akıllarına gelen herhangi bir istemi sitenin formuna girebiliyor. Her modelin kimliği başlangıçta gizlidir ve model, yanıtın kendisinde kimliğini ortaya çıkarırsa sonuçlar geçersiz kılınıyor. Kullanıcı daha sonra “berabere” veya “her ikisi de kötü” gibi ek seçeneklerle birlikte “daha iyi” sonuç olarak değerlendirdiği modeli seçiyor. Kullanıcı ancak ikili bir sıralama sağladıktan sonra hangi modelleri değerlendirdiğini görebiliyor. Ancak sitenin ayrı bir “yan yana” bölümü kullanıcıların karşılaştırma için iki belirli modeli seçmesine olanak tanıyor.

ABD ve Çin, Nvidia için uzlaşabilir!

Reuters'e verdiği bir röportajda Ticaret Bakanı Gina Raimondo, Nvidia'nın GPU'ları Çin'de satabileceğini ve satması gerektiğini, çünkü bunları kullanan...

LMSys, Mayıs ayındaki halka açık lansmanından bu yana, 45 farklı modelde (Aralık başı itibarıyla) 130.000’den fazla kör çift derecelendirme topladığını açıkladı. OpenAI’den Andrej Karpathy’nin yakın zamanda LMSys’in sunucuları için “süper stres testi” olarak tanımladığı duruma yol açan olumlu incelemesinin ardından bu sayıların hızla artacağı görülüyor.

Chatbot Arena’nın binlerce ikili derecelendirmesi , hangi modelin diğerine karşı doğrudan rekabette kazanma olasılığının en yüksek olduğunu tahmin eden Elo tarzı bir derecelendirme oluşturmak için rastgele örnekleme kullanan bir Bradley-Terry modeli aracılığıyla hesaplanıyor. İlgilenen taraflar ayrıca kendileri için on binlerce insan istemi/yanıt derecelendirmesinin ham verilerini inceleyebiliyor. Ayrıca modeller arasındaki doğrudan ikili kazanma oranları ve bu Elo tahminleri için güven aralığı aralıkları gibi daha ayrıntılı istatistikleri inceleyebiliyor.

ChatGPT-4 Turbo rekabette üstünlük kuruyor

ChatGPT-4 Turbo rekabette öne çıkıyor

ABD ve Çin, Nvidia için uzlaşabilir!

HABERLER

SON VİDEO

CEVAP VER İptal

SDN NETWORK

CEVAP VER