January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıraktı
January Mirror, Endokrinoloji Sınavında GPT-5 ve Gemini-3-Pro’yu Geride Bıraktı
January Mirror, 2025 Endokrinoloji kurul sınavında GPT-5.2, GPT-5 ve Gemini-3-Pro gibi önde gelen LLM’leri geride bırakmayı başardı.
Önemli Noktalar
- January Mirror, 120 soruluk endokrinoloji sınavında %87,5 doğruluk oranına ulaştı.
- GPT-5.2, GPT-5 ve Gemini-3-Pro’nun doğruluk oranları ise sırasıyla %74,6, %74,0 ve %69,8 oldu.
- Mirror’ın yanıtlarının %74,2’si en az bir kılavuz düzeyinde kaynak içeriyor ve %100 doğrulukla atıf yapıldı.
Çalışmanın Arka Planı
Büyük dil modelleri genel tıp sınavlarında yüksek performans gösterse de, alt uzmanlık alanlarındaki klinik muhakeme hâlâ zorluklar barındırıyor. Bunun başlıca nedeni, hızla değişen tıbbi kılavuzlar ve karmaşık kanıt hiyerarşileri olarak öne çıkıyor.
Teknik Detaylar
Araştırmada, January Mirror adlı, kanıta dayalı klinik muhakeme sistemi; GPT-5, GPT-5.2 ve Gemini-3-Pro gibi en güncel büyük dil modelleriyle karşılaştırıldı. 2025 Endokrinoloji kurul sınavı tarzında hazırlanan 120 soruluk testte, Mirror yalnızca önceden derlenmiş endokrinoloji ve kardiyometabolik kanıtlar ile çalıştı ve harici veri erişimi olmadan yanıt verdi. Karşılaştırılan LLM’ler ise gerçek zamanlı olarak web üzerinden kılavuz ve birincil literatüre erişebildi.
Sonuçlar
January Mirror, sınavda %87,5 doğruluk oranı (105/120; %95 güven aralığı: 80,4-92,3) ile insan referans ortalaması olan %62,3’ün ve GPT-5.2 (%74,6), GPT-5 (%74,0) ve Gemini-3-Pro (%69,8) modellerinin üzerinde performans gösterdi. En zor 30 soruda (insan doğruluğu %50’nin altında), Mirror %76,7 doğruluk sağladı. Top-2 doğruluk oranında ise Mirror %92,5 ile GPT-5.2’nin (%85,25) önüne geçti.
Kanıta Dayalı Sonuçlar ve Atıf Doğruluğu
Mirror’ın verdiği yanıtların %74,2’si en az bir kılavuz düzeyinde kaynağa dayandırıldı ve manuel doğrulamada %100 atıf doğruluğu sağlandı. Bu sonuçlar, titizlikle seçilmiş ve kaynağı açık kanıtların, serbest web araması yapan büyük dil modellerine göre alt uzmanlık klinik muhakemesinde daha başarılı olabileceğini ve denetlenebilirliği desteklediğini gösteriyor.
Gelecek Perspektifi
Araştırmacılar, bu tür kanıta dayalı sistemlerin 2026 yılı içinde klinik uygulamalarda daha yaygın kullanılmasını bekliyor.
Kaynak: arxiv.org