Harvard araştırmasında AI, iki insan doktordan daha doğru acil servis teşhisleri sundu
Yeni bir çalışma, büyük dil modellerinin, gerçek acil servis vakaları da dahil olmak üzere çeşitli tıbbi bağlamlarda nasıl performans gösterdiğini inceliyor; burada en az bir model, insan doktorlardan daha doğru görünüyor.
Çalışma bu hafta Science dergisinde yayınlandı ve Harvard Tıp Fakültesi ve Beth Israel Deaconess Tıp Merkezi'ndeki doktorlar ve bilgisayar bilimcileri tarafından yönetilen bir araştırma ekibinden geldi. Araştırmacılar, OpenAI modellerinin insan doktorlarla karşılaştırıldığında nasıl olduğunu ölçmek için çeşitli deneyler yaptıklarını söyledi.
Bir deneyde araştırmacılar, Beth Israel acil servisine gelen 76 hastaya odaklandı ve dahiliye uzmanı iki doktorun sunduğu teşhisleri OpenAI'nin o1 ve 4o modelleriyle oluşturulan teşhislerle karşılaştırdı. Bu teşhisler, hangilerinin insanlardan, hangilerinin AI'den geldiğini bilmeyen diğer iki uzman doktor tarafından değerlendirildi.
Çalışmada, "Her tanısal temas noktasında, o1 ya nominal olarak daha iyi performans gösterdi ya da ilgili iki doktorla ve 40'la eşit performans gösterdi" dedi ve "farklılıkların özellikle hasta hakkında en az bilginin mevcut olduğu ve doğru kararı vermenin en acil olduğu ilk tanısal temas noktasında (ilk ER triyajı) belirgin olduğunu" ekledi.
Harvard Tıp Fakültesi'nin çalışmayla ilgili basın açıklamasında araştırmacılar, "verileri hiçbir şekilde önceden işlemediklerini" vurguladılar; AI modellerine, her teşhis sırasında elektronik tıbbi kayıtlarda bulunan bilgilerin aynısı sunuldu.
Bu bilgiyle o1 modeli, triyaj vakalarının %67'sinde "kesin veya çok yakın tanı" sunmayı başardı; bir doktor %55 oranında kesin veya yakın tanı koyarken diğer hekim %50 oranında isabetli sonuç verdi.
Harvard Tıp Fakültesi'nde AI laboratuvarını yöneten ve çalışmanın baş yazarlarından biri olan Arjun Manrai, basın bülteninde "AI modelini hemen hemen her kıyaslamada test ettik ve hem önceki modellerimizi hem de doktor referanslarımızı gölgede bıraktı" dedi.
Açık olmak gerekirse, çalışma AI'in acil serviste gerçek ölüm kalım kararlarını vermeye hazır olduğunu iddia etmiyor. Bunun yerine, bulguların "bu teknolojileri gerçek dünyadaki hasta bakımı ortamlarında değerlendirmek için ileriye dönük denemelere acil ihtiyaç olduğunu" gösterdiği belirtildi.
Araştırmacılar ayrıca, modellerin yalnızca metin tabanlı bilgiler sağlandığında nasıl performans gösterdiğini incelediklerini ve "mevcut çalışmaların, mevcut temel modellerin metin dışı girdiler üzerinde akıl yürütme konusunda daha sınırlı olduğunu öne sürdüğünü" belirtti.
Aynı zamanda çalışmanın baş yazarlarından biri olan Beth Israel doktoru Adam Rodman, Guardian'ı, AI teşhisleri konusunda "şu anda sorumluluk için resmi bir çerçeve bulunmadığı" ve hastaların hâlâ "insanların ölüm kalım kararları konusunda onlara rehberlik etmesini [ve] zorlu tedavi kararlarında rehberlik etmesini istediklerini" konusunda uyardı.
Acil servis doktoru Kristen Panthagani, çalışmayla ilgili bir gönderide bunun "çok abartılı manşetlere yol açan ilginç bir AI çalışması" olduğunu, özellikle de AI teşhislerini acil servis doktorlarının değil dahiliye doktorlarının teşhisleriyle karşılaştırdığını söyledi.
Panthagani, "AI araçlarını doktorların klinik yetenekleriyle karşılaştıracaksak, o uzmanlığı gerçekten uygulayan doktorlarla karşılaştırarak başlamalıyız" dedi. "Bir LLM sinir cerrahisi kurulu sınavında bir dermatoloğu yenebilirse şaşırmam, [ama] bunu bilmek özellikle yararlı bir şey değil."
Ayrıca şunları da savundu: "Bir hastayı ilk kez gören bir acil servis doktoru olarak öncelikli amacım, nihai tanınızı tahmin etmek değil. Öncelikli amacım, sizi öldürebilecek bir rahatsızlığınız olup olmadığını belirlemek."
Bu yazı ve başlık, çalışmadaki teşhislerin dahiliye alanında uzman doktorlardan geldiği gerçeğini yansıtacak ve Kristen Panthagani'nin yorumunu içerecek şekilde güncellendi.