LLM’lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı
LLM’lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı
Yeni bir araştırma, büyük dil modellerinin (LLM) nedensel akıl yürütme performansını insanlar ile aynı görevlerde karşılaştırarak detaylı analizler sunuyor.
Önemli Noktalar
- 20’den fazla LLM, 11 farklı nedensel akıl yürütme göreviyle test edildi.
- LLM ve insan akıl yürütmesi arasındaki benzerlikler ve farklılıklar analiz edildi.
- Çalışma, LLM’lerin nedensel düşüncede insanlarla ne kadar uyumlu olduğunu ortaya koyuyor.
Araştırmanın Amacı ve Soruları
İnsan ve makine zekâsının doğası uzun süredir tartışılan bir konu. Nedensel akıl yürütme yeteneği, zekânın önemli bir unsuru olarak kabul ediliyor. Bu çalışma, büyük dil modellerinin (LLM) ve insanların aynı nedensel akıl yürütme görevlerinde nasıl performans gösterdiğini inceleyerek aşağıdaki üç önemli soruya odaklanıyor:
- LLM’lerin nedensel akıl yürütmesi, aynı görevlerde insanlarla ne kadar uyumlu?
- LLM’ler ve insanlar, görev bazında tutarlı şekilde mi akıl yürütüyor?
- Her iki grubun kendine özgü akıl yürütme özellikleri var mı?
Teknik Detaylar
Araştırmada 20’den fazla büyük dil modeli, anlamlı nedensel ilişkiler içeren 11 farklı görev üzerinde değerlendirildi. Görevler, bir çarpışan grafik modeli (C₁ → E ← C₂) çerçevesinde tasarlandı ve iki farklı yanıt biçimiyle test edildi:
- Doğrudan Yanıt: Katılımcılardan olasılık tahmini yapmaları istendi.
- Düşünce Zinciri (Chain of Thought – CoT): Katılımcıların önce düşünmelerini, sonra yanıt vermelerini gerektiren bir yöntem kullanıldı.
Alınan yanıtlar, sızıntılı noisy-OR nedensel Bayes ağlarıyla (CBN) modellendi. Model parametreleri arasında ortak öncül olasılık (p(C)) ve nedensel güçler (m₁, m₂) yer aldı. Araştırmacılar, simetrik (3 parametreli) ve asimetrik (4 parametreli) modelleri karşılaştırarak en uygun modeli AIC kriteriyle belirledi.
Çalışmanın Bulguları
Sonuçlar, LLM’lerin bazı nedensel görevlerde insanlarla benzer şekilde akıl yürütse de, belirli görevlerde farklı imza ve stratejiler geliştirdiğini gösteriyor. Bu bulgular, hem yapay zekâ sistemlerinin hem de insan akıl yürütmesinin güçlü ve zayıf yönlerinin daha iyi anlaşılmasına katkı sağlıyor.
Kaynak
“Causal Strengths and Leaky Beliefs: Interpreting LLM Reasoning via Noisy-OR Causal Bayes Nets”, arXiv:2512.11909v1
Kaynak: arxiv.org