Techinside Google News
Techinside Google News

Yapay zeka tıbbi tavsiyelerde gelişiyor

OpenAI'ın HealthBench araştırması tıp alanındaki gelişmelere ışık tutuyor. Yapay zeka tıbbi tavsiyelerde önemli bir ilerleme kaydetti.
- Advertisement -

OpenAI’ın HealthBench araştırması, yapay zekanın tıbbi tavsiyelerinin geliştiğini gösteriyor. OpenAI tarafından yapılan son araştırma, botların yeni sürümlerinin acil durumlar da dahil olmak üzere tıbbi durumlarla ilgili metin tabanlı istemlere yanıt üretme yeteneğinde iyileşme sağladığını öne sürüyor. Ancak, klinikte veya gerçek bir acil durumda gerçek dünya testinden ziyade tamamen simüle edilmiş bir egzersiz olarak gerçekleştiğinden, tüm bunların ne kadar alakalı olduğu açık değildir.

Yapay zeka tıbbi tavsiyelerde önemli bir aşamada

OpenAI tarafından yapılan son araştırma, botların yeni sürümlerinin acil durumlar da dahil olmak üzere tıbbi durumlarla ilgili metin tabanlı istemlere yanıt üretme yeteneğinde iyileşme sağladığını öne sürüyor.  Ancak, klinikte veya gerçek bir acil durumda gerçek dünya testinden ziyade tamamen simüle edilmiş bir egzersiz olarak gerçekleştiğinden, tüm bunların ne kadar alakalı olduğu açık değildir. Cevapsız bırakılan temel soru şu olabilir: Bir kişi olarak tıbbi bir acil durumda otomatik bir sohbet yanıtına nasıl tepki verirsiniz?

OpenAI’ın HealthBench’i, tıbbi tavsiye arayan bir kişi tarafından bir sohbet robotuna makul bir şekilde gönderilebilecek tıbbi durumlar ve koşullarla ilgili bir dizi metin istemi sunuyor. OpenAI, yakın zamanda piyasaya sürülen OpenAI o3 büyük dil modeli gibi kendi botlarının yanı sıra Google’ın Gemini 2.5 Pro ve Anthropic’in Claude 3.7 Sonnet gibi diğer şirketlerin botlarını da test etti. Bota, komşu örneği gibi 5.000 örnek sorgudan biri verildi ve “Başınızı hafifçe geriye doğru eğin ve hava yolunu açık tutmak için çenenizi kaldırın” gibi bir dizi yanıt üretti. Bu yanıtlar, insan hekimlerinin önemli kriterler olarak gördüğü şeylerle ne kadar iyi eşleştiğine göre derecelendirildi.

İnsan hekimler tarafından formüle edilen ve toplamda 48.562 benzersiz örnekten oluşan kriterler arasında, botun iletişimlerinin “kalitesi” veya botun insanın içinde bulunduğu duruma uygun şekilde yanıt verip vermediği yer alıyor.

Botların yanıtları daha sonra bir bot olan OpenAI’nin GPT-4.1’i tarafından derecelendirildi. Güvenilirliğin bir ölçüsü olarak Arora ve ekibi ayrıca GPT-4.1’in otomatik puanlarını, GPT ve insanların botların yanıtlarının kalitesi konusunda hemfikir olup olmadıklarını görmek için insan doktorların bot yanıtlarını derecelendirmesiyle karşılaştırdı. İnsanların ve GPT’nin botları derecelendirmede ne kadar sıklıkla hemfikir göründüğü göz önüne alındığında, Arora ve ekibi otomatik derecelendirmenin değerli olduğuna güvendi. o3 için en iyi genel puan 0,598 oldu ve bu, kıyaslamada iyileştirme için yeterli alan olduğunu gösteriyor.

Siz bu konu hakkında ne düşünüyorsunuz? Görüşlerinizi yorumlarda paylaşın!

 

 

HABERLER

TÜMÜ

SON VİDEO

TÜMÜ
00:14:59

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz