Nedensel Güçler ve Sızan İnançlar: LLM Akıl Yürütmesini Noisy-OR Nedensel Bayes Ağlarıyla Yorumlamak

LLM'lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı LLM'lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı Yeni bir araş...

LLM’lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı

LLM’lerin Nedensel Akıl Yürütme Yetileri İnsanlarla Karşılaştırıldı

Yeni bir araştırma, büyük dil modellerinin (LLM) nedensel akıl yürütme performansını insanlar ile aynı görevlerde karşılaştırarak detaylı analizler sunuyor.

Önemli Noktalar

  • 20’den fazla LLM, 11 farklı nedensel akıl yürütme göreviyle test edildi.
  • LLM ve insan akıl yürütmesi arasındaki benzerlikler ve farklılıklar analiz edildi.
  • Çalışma, LLM’lerin nedensel düşüncede insanlarla ne kadar uyumlu olduğunu ortaya koyuyor.

Araştırmanın Amacı ve Soruları

İnsan ve makine zekâsının doğası uzun süredir tartışılan bir konu. Nedensel akıl yürütme yeteneği, zekânın önemli bir unsuru olarak kabul ediliyor. Bu çalışma, büyük dil modellerinin (LLM) ve insanların aynı nedensel akıl yürütme görevlerinde nasıl performans gösterdiğini inceleyerek aşağıdaki üç önemli soruya odaklanıyor:

  1. LLM’lerin nedensel akıl yürütmesi, aynı görevlerde insanlarla ne kadar uyumlu?
  2. LLM’ler ve insanlar, görev bazında tutarlı şekilde mi akıl yürütüyor?
  3. Her iki grubun kendine özgü akıl yürütme özellikleri var mı?

Teknik Detaylar

Araştırmada 20’den fazla büyük dil modeli, anlamlı nedensel ilişkiler içeren 11 farklı görev üzerinde değerlendirildi. Görevler, bir çarpışan grafik modeli (C₁ → E ← C₂) çerçevesinde tasarlandı ve iki farklı yanıt biçimiyle test edildi:

  • Doğrudan Yanıt: Katılımcılardan olasılık tahmini yapmaları istendi.
  • Düşünce Zinciri (Chain of Thought – CoT): Katılımcıların önce düşünmelerini, sonra yanıt vermelerini gerektiren bir yöntem kullanıldı.

Alınan yanıtlar, sızıntılı noisy-OR nedensel Bayes ağlarıyla (CBN) modellendi. Model parametreleri arasında ortak öncül olasılık (p(C)) ve nedensel güçler (m₁, m₂) yer aldı. Araştırmacılar, simetrik (3 parametreli) ve asimetrik (4 parametreli) modelleri karşılaştırarak en uygun modeli AIC kriteriyle belirledi.

Çalışmanın Bulguları

Sonuçlar, LLM’lerin bazı nedensel görevlerde insanlarla benzer şekilde akıl yürütse de, belirli görevlerde farklı imza ve stratejiler geliştirdiğini gösteriyor. Bu bulgular, hem yapay zekâ sistemlerinin hem de insan akıl yürütmesinin güçlü ve zayıf yönlerinin daha iyi anlaşılmasına katkı sağlıyor.

Kaynak

“Causal Strengths and Leaky Beliefs: Interpreting LLM Reasoning via Noisy-OR Causal Bayes Nets”, arXiv:2512.11909v1

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top