Büyük Dil Modellerinin İşlemsel Akıl Yürütme Sınırları FSM Testiyle Ortaya Kondu
Büyük Dil Modellerinin İşlemsel Akıl Yürütme Sınırları FSM Testiyle Ortaya Kondu
Yeni bir çalışma, büyük dil modellerinin çok adımlı ve kurallara dayalı işlemleri ne kadar doğru yürüttüğünü Finite-State Machine (FSM) testiyle inceledi.
Önemli Noktalar
- FSM tabanlı yeni bir değerlendirme yöntemiyle LLM’lerin işlemsel akıl yürütme kapasitesi ölçüldü.
- Görev karmaşıklığı ve dallanma arttıkça modellerin doğruluğu belirgin şekilde düştü.
- Büyük modellerde lokal doğruluk artsa da, çok adımlı süreçlerde kırılganlık devam ediyor.
Araştırmanın Temel Bulguları
Büyük dil modelleri (LLM’ler), akıl yürütme tabanlı görevlerde dikkat çekici sonuçlar elde etse de, çok adımlı ve kurallara dayalı işlemleri ne kadar sağlıklı yürütebildikleri uzun süredir tartışma konusuydu. Son yayımlanan bir arXiv makalesinde, araştırmacılar Finite-State Machine (FSM) Yürütme testini geliştirerek LLM’lerin işlemsel akıl yürütme kapasitesini ölçmek için tamamen yorumlanabilir ve kontrollü bir çerçeve sundu.
FSM Testinin Yöntemi ve Değeri
FSM testi kapsamında, modele açıkça tanımlanmış bir sonlu durum makinesi (FSM) veriliyor ve modelden, verilen girdilere göre adım adım ilerleyerek durumu tutarlı biçimde güncellemesi bekleniyor. Bu görev, herhangi bir dünya bilgisinin ötesinde, yalnızca deterministik geçiş kurallarının doğru uygulanmasını gerektiriyor. Böylece, modelin içsel işlemsel doğruluğu doğrudan ölçülebiliyor.
Teknik Detaylar ve Sonuçlar
Araştırmada hem anlık hesaplama doğruluğu (Turn Accuracy) hem de birikimli durum tutarlılığı (Task Accuracy) ayrı ayrı değerlendirildi. Sonuçlar, görev süresi uzadıkça veya FSM’in dallanma faktörü yükseldikçe modellerin performansında sistematik bir düşüş olduğunu ortaya koydu. Özellikle yüksek dallanma gerektiren kural uygulamalarında, modellerin doğruluğu belirgin şekilde azaldı.
Daha büyük dil modelleri, yerel (adım bazlı) doğrulukta iyileşme gösterse de, çok adımlı işlemler sırasında ara adımları açıkça dışsallaştırmaları istenmediği sürece kırılganlıklarını korudu. FSM tabanlı bu yaklaşım, işlemsel başarısızlıkları şeffaf şekilde gözlemleme ve uzun vadeli algoritmik güvenilirliği artıracak yeni önyargıların tasarımı için temel oluşturmayı amaçlıyor.
Çalışmanın Önemi
Bu çalışma, yüzeysel doğruluk yerine ölçülebilir yürütme sadakatini merkeze alarak, büyük dil modellerinin algoritmik güvenilirliğini anlamak ve geliştirmek için sağlam bir deneysel temel sunuyor.
Kaynak: arXiv:2511.14777v1
Kaynak: arxiv.org