Site icon TechInside

Yapay zeka kurumsal şirketlerde bütçeleri riske atıyor

Yapay zeka kurumsal

Yeni bir akademik inceleme, yapay zeka kıyaslamalarının hatalı olduğunu ve işletmelerin “yanıltıcı” verilerle yüksek riskli kararlar almasına yol açabileceğini öne sürüyor. Kurumsal liderler, üretken yapay zeka programlarına sekiz veya dokuz haneli bütçeler ayırıyor. Bu tedarik ve geliştirme kararları, model yeteneklerini karşılaştırmak için genellikle herkese açık liderlik tablolarına ve kıyaslama ölçütlerine dayanıyor.

Yapay zeka kurumsal tarafta risk oluşturuyor

“Measuring what Matters: Construct Validity in Large Language Model Benchmarks” başlıklı geniş kapsamlı bir çalışma, önde gelen yapay zeka konferanslarından 445 ayrı LLM ölçütünü analiz etti. 29 uzman değerlendiriciden oluşan bir ekip, “neredeyse tüm makalelerin en az bir alanda zayıf noktalara sahip olduğunu” ve model performansı hakkındaki iddialarını çürüttüğünü tespit etti.

CTO’lar ve Veri Sorumluları için bu, yapay zeka yönetişiminin ve yatırım stratejisinin özüne dokunuyor. ‘Güvenlik’ veya ‘sağlamlık’ ölçtüğünü iddia eden bir ölçüt, bu nitelikleri gerçekten yansıtmıyorsa, bir kuruluş kendisini ciddi finansal ve itibar risklerine maruz bırakan bir model kullanabilir.

[bkz url= https://www.techinside.com/bmw-alexa-entegrasyonu-icin-duyuru-yapti/]

İncelemede, kıyaslama ölçütlerinin nasıl tasarlandığından sonuçlarının nasıl raporlandığına kadar genel anlamda sistemsel eksiklikler tespit edildi.

Belirsiz veya tartışmalı tanımlar: Tanımlayamadığınız bir şeyi ölçemezsiniz. Çalışma, bir olgu için tanımlar verildiğinde bile, tanımların %47,8’inin “tartışmalı” olduğunu ve “birçok olası tanımı olan veya hiç net tanımı olmayan” kavramları ele aldığını ortaya koydu.

İstatistiksel titizliğin eksikliği: Veri odaklı kuruluşlar için belki de en endişe verici nokta, incelemede 445 kıyaslama ölçütünün yalnızca yüzde 16’sının model sonuçlarını karşılaştırmak için belirsizlik tahminleri veya istatistiksel testler kullandığının bulunmasıydı.

Veri kirliliği ve ezberleme: Özellikle muhakeme için kullanılan birçok kıyaslama ölçütü (örneğin yaygın olarak kullanılan GSM8K), soruları ve cevapları modelin ön eğitim verilerinde göründüğünde zayıflar.

Temsili Olmayan Veri Kümeleri: Çalışma, kıyaslama ölçütlerinin %27’sinin mevcut kıyaslama ölçütlerinden veya insan muayenelerinden elde edilen verileri yeniden kullanmak gibi “kolaylık örneklemesi” kullandığını ortaya koydu. Bu veriler genellikle gerçek dünyadaki olguları temsil etmiyor.

Exit mobile version