Doğruluğun Ötesinde: Büyük Dil Modellerinin Satranç Değerlendirmesinde Geometrik Kararlılık Analizi

Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi Yeni bir ça...

Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi

Büyük Dil Modellerinin Satranç Analizinde Geometrik Kararlılık Testi

Yeni bir çalışma, satrançta büyük dil modellerinin doğruluk ve geometrik kararlılık arasında önemli farklar olduğunu ortaya koyuyor.

Önemli Noktalar

  • GPT-5.1 gibi modeller, standart pozisyonlarda yüksek doğruluk gösterirken dönüşümlerde hata oranı %600’den fazla artıyor.
  • Claude Sonnet 4.5 ve Kimi K2 Turbo, tüm geometrik dönüşümlerde tutarlılık ve dayanıklılık sergiliyor.
  • Gemini 2.5 Flash, yasadışı hamleleri reddetmede %96.0 ile en güvenli model olarak öne çıkıyor.

Çalışmanın Arka Planı

Büyük Dil Modelleri (LLM), karmaşık akıl yürütme gerektiren alanlarda genellikle doğruluk oranları ile değerlendirilir. Satrançta bu, modellerin güçlü motorlar (örneğin Stockfish) ile uyumuna bakılarak ölçülür. Ancak, yüksek doğruluk tek başına modelin satranç tahtasında soyut mantık yürütme yeteneğine işaret etmeyebilir.

Geometrik Kararlılık Çerçevesi

Araştırmada, mevcut doğruluk ölçütlerinin yeterli olmadığını savunan bilim insanları, Geometrik Kararlılık Çerçevesi adını verdikleri yeni bir değerlendirme yöntemi öneriyor. Bu yöntem; tahta rotasyonu, ayna simetrisi, renk terslemesi ve format dönüşümü gibi sabit geometrik değişimlere karşı model tutarlılığını test ediyor.

Teknik Detaylar

Çalışmada, GPT-5.1, Claude Sonnet 4.5, Kimi K2 Turbo ve diğer üç güncel LLM toplamda yaklaşık 3.000 satranç pozisyonuyla test edildi. GPT-5.1, standart pozisyonlarda neredeyse kusursuz doğruluk sergilerken, tahta rotasyonu gibi geometrik değişimlerde hata oranı %600’ün üzerinde arttı. Bu, modelin kalıpları ezberlediğini ancak soyut mekansal mantıkta zayıf kaldığını gösteriyor.

Öte yandan, Claude Sonnet 4.5 ve Kimi K2 Turbo, tüm dönüşümlerde yüksek tutarlılık ve kararlılık sağladı. Ayrıca, Gemini 2.5 Flash modeli, yasadışı pozisyonları reddetmede %96.0 oranıyla güvenlikte lider oldu.

Sonuç ve Değerlendirme

Araştırmacılar, geometrik kararlılığın büyük dil modellerinin akıl yürütme yeteneklerini ve veri kirliliği ile aşırı öğrenmeyi ayırt etmek için temel bir ölçüt olduğunu savunuyor. Bu yaklaşım, doğruluk dışındaki kriterlerin de yapay zekâ değerlendirmesinde önemini vurguluyor.

Haberin kaynağı: arXiv:2512.15033v1

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top