OpenAI’ın HealthBench araştırması, yapay zekanın tıbbi tavsiyelerinin geliştiğini gösteriyor. OpenAI tarafından yapılan son araştırma, botların yeni sürümlerinin acil durumlar da dahil olmak üzere tıbbi durumlarla ilgili metin tabanlı istemlere yanıt üretme yeteneğinde iyileşme sağladığını öne sürüyor. Ancak, klinikte veya gerçek bir acil durumda gerçek dünya testinden ziyade tamamen simüle edilmiş bir egzersiz olarak gerçekleştiğinden, tüm bunların ne kadar alakalı olduğu açık değildir.
Yapay zeka tıbbi tavsiyelerde önemli bir aşamada
OpenAI tarafından yapılan son araştırma, botların yeni sürümlerinin acil durumlar da dahil olmak üzere tıbbi durumlarla ilgili metin tabanlı istemlere yanıt üretme yeteneğinde iyileşme sağladığını öne sürüyor. Ancak, klinikte veya gerçek bir acil durumda gerçek dünya testinden ziyade tamamen simüle edilmiş bir egzersiz olarak gerçekleştiğinden, tüm bunların ne kadar alakalı olduğu açık değildir. Cevapsız bırakılan temel soru şu olabilir: Bir kişi olarak tıbbi bir acil durumda otomatik bir sohbet yanıtına nasıl tepki verirsiniz?
OpenAI’ın HealthBench’i, tıbbi tavsiye arayan bir kişi tarafından bir sohbet robotuna makul bir şekilde gönderilebilecek tıbbi durumlar ve koşullarla ilgili bir dizi metin istemi sunuyor. OpenAI, yakın zamanda piyasaya sürülen OpenAI o3 büyük dil modeli gibi kendi botlarının yanı sıra Google’ın Gemini 2.5 Pro ve Anthropic’in Claude 3.7 Sonnet gibi diğer şirketlerin botlarını da test etti. Bota, komşu örneği gibi 5.000 örnek sorgudan biri verildi ve “Başınızı hafifçe geriye doğru eğin ve hava yolunu açık tutmak için çenenizi kaldırın” gibi bir dizi yanıt üretti. Bu yanıtlar, insan hekimlerinin önemli kriterler olarak gördüğü şeylerle ne kadar iyi eşleştiğine göre derecelendirildi.
İnsan hekimler tarafından formüle edilen ve toplamda 48.562 benzersiz örnekten oluşan kriterler arasında, botun iletişimlerinin “kalitesi” veya botun insanın içinde bulunduğu duruma uygun şekilde yanıt verip vermediği yer alıyor.
Botların yanıtları daha sonra bir bot olan OpenAI’nin GPT-4.1’i tarafından derecelendirildi. Güvenilirliğin bir ölçüsü olarak Arora ve ekibi ayrıca GPT-4.1’in otomatik puanlarını, GPT ve insanların botların yanıtlarının kalitesi konusunda hemfikir olup olmadıklarını görmek için insan doktorların bot yanıtlarını derecelendirmesiyle karşılaştırdı. İnsanların ve GPT’nin botları derecelendirmede ne kadar sıklıkla hemfikir göründüğü göz önüne alındığında, Arora ve ekibi otomatik derecelendirmenin değerli olduğuna güvendi. o3 için en iyi genel puan 0,598 oldu ve bu, kıyaslamada iyileştirme için yeterli alan olduğunu gösteriyor.