Kanıta Dayalı Alt Uzmanlık Akıl Yürütmesi: 2025 Endokrinoloji Kurulu Tarzı Sınavında Seçilmiş Klinik Zeka Katmanının Değerlendirilmesi

January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıraktı January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıra...

January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıraktı

January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıraktı

January Mirror, 2025 Endokrinoloji kurul sınavında GPT-5.2, GPT-5 ve Gemini-3-Pro gibi önde gelen LLM’leri geride bırakmayı başardı.

Önemli Noktalar

  • January Mirror, 120 soruluk endokrinoloji sınavında %87,5 doğruluk oranına ulaştı.
  • GPT-5.2, GPT-5 ve Gemini-3-Pro’nun doğruluk oranları ise sırasıyla %74,6, %74,0 ve %69,8 oldu.
  • Mirror’ın yanıtlarının %74,2’si en az bir kılavuz düzeyinde kaynak içeriyor ve %100 doğrulukla atıf yapıldı.

Çalışmanın Arka Planı

Büyük dil modelleri genel tıp sınavlarında yüksek performans gösterse de, alt uzmanlık alanlarındaki klinik muhakeme hâlâ zorluklar barındırıyor. Bunun başlıca nedeni, hızla değişen tıbbi kılavuzlar ve karmaşık kanıt hiyerarşileri olarak öne çıkıyor.

Teknik Detaylar

Araştırmada, January Mirror adlı, kanıta dayalı klinik muhakeme sistemi; GPT-5, GPT-5.2 ve Gemini-3-Pro gibi en güncel büyük dil modelleriyle karşılaştırıldı. 2025 Endokrinoloji kurul sınavı tarzında hazırlanan 120 soruluk testte, Mirror yalnızca önceden derlenmiş endokrinoloji ve kardiyometabolik kanıtlar ile çalıştı ve harici veri erişimi olmadan yanıt verdi. Karşılaştırılan LLM’ler ise gerçek zamanlı olarak web üzerinden kılavuz ve birincil literatüre erişebildi.

Sonuçlar

January Mirror, sınavda %87,5 doğruluk oranı (105/120; %95 güven aralığı: 80,4-92,3) ile insan referans ortalaması olan %62,3’ün ve GPT-5.2 (%74,6), GPT-5 (%74,0) ve Gemini-3-Pro (%69,8) modellerinin üzerinde performans gösterdi. En zor 30 soruda (insan doğruluğu %50’nin altında), Mirror %76,7 doğruluk sağladı. Top-2 doğruluk oranında ise Mirror %92,5 ile GPT-5.2’nin (%85,25) önüne geçti.

Kanıta Dayalı Sonuçlar ve Atıf Doğruluğu

Mirror’ın verdiği yanıtların %74,2’si en az bir kılavuz düzeyinde kaynağa dayandırıldı ve manuel doğrulamada %100 atıf doğruluğu sağlandı. Bu sonuçlar, titizlikle seçilmiş ve kaynağı açık kanıtların, serbest web araması yapan büyük dil modellerine göre alt uzmanlık klinik muhakemesinde daha başarılı olabileceğini ve denetlenebilirliği desteklediğini gösteriyor.

Gelecek Perspektifi

Araştırmacılar, bu tür kanıta dayalı sistemlerin 2026 yılı içinde klinik uygulamalarda daha yaygın kullanılmasını bekliyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top