GamiBench: MLLM’lerin Uzamsal Akıl Yürütme Becerileri Origami Görevleriyle Sınanıyor
GamiBench ile MLLM’lerin Uzamsal Akıl Yürütme Yeteneği Origami Katlama Görevleriyle Test Ediliyor
GamiBench, çok modlu büyük dil modellerinin uzamsal akıl yürütme ve 2D’den 3D’ye planlama yeteneklerini origami katlama görevleriyle analiz ediyor.
Önemli Noktalar
- GamiBench, MLLM’lerin (çok modlu büyük dil modelleri) uzamsal akıl yürütme becerilerini origami esinli görevlerle ölçüyor.
- Yeni metrikler ve çoklu bakış açılarıyla, modellerin katlama süreçlerindeki tutarlılığı ve fiziksel uygulanabilirliği değerlendiriliyor.
- GPT-5 ve Gemini-2.5-Pro gibi önde gelen modeller, tek adımlı uzamsal anlayışta dahi zorluk yaşıyor.
GamiBench Nedir?
GamiBench, çok modlu büyük dil modellerinin (MLLM) uzamsal akıl yürütme ve 2D’den 3D’ye planlama yeteneklerini değerlendirmek için geliştirilen yeni bir benchmark setidir. Origami’den ilham alan katlama görevleriyle, modellerin nesneleri farklı açılardan ve zaman içinde zihinsel olarak takip etme becerileri derinlemesine test ediliyor.
Teknik Detaylar
GamiBench, toplamda 186 normal ve 186 imkansız 2D katlama desenini, bunlara karşılık gelen 3D katlanmış şekillerle birlikte sunuyor. Her desen, altı farklı bakış açısından ve üç görsel soru-cevap (VQA) görevinde değerlendiriliyor:
- 3D katlama yapılarını tahmin etme,
- Geçerli bakış açılarını ayırt etme,
- İmkansız desenleri tespit etme.
GamiBench, yalnızca son tahminleri değil, tüm akıl yürütme sürecini dikkate alıyor. Modellerin bakış açısı tutarlılığı (VC) ve imkansız katlama seçme oranı (IFSR) gibi yeni metriklerle, farklı karmaşıklıktaki katlamaları nasıl işledikleri ölçülüyor.
Sonuçlar ve Bulgular
Yapılan deneyler, GPT-5 ve Gemini-2.5-Pro gibi ileri seviye modellerin bile tek adımlı uzamsal anlamada ve katlama süreçlerinde beklenen başarıyı gösteremediğini ortaya koyuyor. Bu sonuçlar, mevcut MLLM’lerin geometrik kavrayış ve uzamsal akıl yürütme alanında gelişime açık olduğunu gösteriyor.
Standartlaştırılmış Değerlendirme Çerçevesi
GamiBench, MLLM’lerin uzamsal akıl yürütme kabiliyetini daha bütüncül şekilde değerlendirmek için standart bir çerçeve sunuyor. Farklı bakış açılarından, ara katlama adımlarına kadar sürecin tamamı analiz ediliyor. Veri seti ve kodlara buradan ulaşmak mümkün.
Kaynak: arxiv.org