Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi
Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi
Yeni bir çalışma, satrançta büyük dil modellerinin doğruluk ve geometrik kararlılık arasında önemli farklar olduğunu ortaya koyuyor.
Önemli Noktalar
- GPT-5.1 gibi modeller, standart pozisyonlarda yüksek doğruluk gösterirken dönüşümlerde hata oranı %600’den fazla artıyor.
- Claude Sonnet 4.5 ve Kimi K2 Turbo, tüm geometrik dönüşümlerde tutarlılık ve dayanıklılık sergiliyor.
- Gemini 2.5 Flash, yasadışı hamleleri reddetmede %96.0 ile en güvenli model olarak öne çıkıyor.
Çalışmanın Arka Planı
Büyük Dil Modelleri (LLM), karmaşık akıl yürütme gerektiren alanlarda genellikle doğruluk oranları ile değerlendirilir. Satrançta bu, modellerin güçlü motorlar (örneğin Stockfish) ile uyumuna bakılarak ölçülür. Ancak, yüksek doğruluk tek başına modelin satranç tahtasında soyut mantık yürütme yeteneğine işaret etmeyebilir.
Geometrik Kararlılık Çerçevesi
Araştırmada, mevcut doğruluk ölçütlerinin yeterli olmadığını savunan bilim insanları, Geometrik Kararlılık Çerçevesi adını verdikleri yeni bir değerlendirme yöntemi öneriyor. Bu yöntem; tahta rotasyonu, ayna simetrisi, renk terslemesi ve format dönüşümü gibi sabit geometrik değişimlere karşı model tutarlılığını test ediyor.
Teknik Detaylar
Çalışmada, GPT-5.1, Claude Sonnet 4.5, Kimi K2 Turbo ve diğer üç güncel LLM toplamda yaklaşık 3.000 satranç pozisyonuyla test edildi. GPT-5.1, standart pozisyonlarda neredeyse kusursuz doğruluk sergilerken, tahta rotasyonu gibi geometrik değişimlerde hata oranı %600’ün üzerinde arttı. Bu, modelin kalıpları ezberlediğini ancak soyut mekansal mantıkta zayıf kaldığını gösteriyor.
Öte yandan, Claude Sonnet 4.5 ve Kimi K2 Turbo, tüm dönüşümlerde yüksek tutarlılık ve kararlılık sağladı. Ayrıca, Gemini 2.5 Flash modeli, yasadışı pozisyonları reddetmede %96.0 oranıyla güvenlikte lider oldu.
Sonuç ve Değerlendirme
Araştırmacılar, geometrik kararlılığın büyük dil modellerinin akıl yürütme yeteneklerini ve veri kirliliği ile aşırı öğrenmeyi ayırt etmek için temel bir ölçüt olduğunu savunuyor. Bu yaklaşım, doğruluk dışındaki kriterlerin de yapay zekâ değerlendirmesinde önemini vurguluyor.
Haberin kaynağı: arXiv:2512.15033v1
Kaynak: arxiv.org