GamiBench: MLLM'lerin Mekansal Akıl Yürütme ve 2D'den 3D'ye Planlama Yeteneklerinin Origami Katlama Görevleriyle Değerlendirilmesi

GamiBench: MLLM’lerin Uzamsal Akıl Yürütme Becerileri Origami Görevleriyle Sınanıyor

GamiBench ile MLLM’lerin Uzamsal Akıl Yürütme Yeteneği Origami Katlama Görevleriyle Test Ediliyor

GamiBench, çok modlu büyük dil modellerinin uzamsal akıl yürütme ve 2D’den 3D’ye planlama yeteneklerini origami katlama görevleriyle analiz ediyor.

Önemli Noktalar

GamiBench, MLLM’lerin (çok modlu büyük dil modelleri) uzamsal akıl yürütme becerilerini origami esinli görevlerle ölçüyor.
Yeni metrikler ve çoklu bakış açılarıyla, modellerin katlama süreçlerindeki tutarlılığı ve fiziksel uygulanabilirliği değerlendiriliyor.
GPT-5 ve Gemini-2.5-Pro gibi önde gelen modeller, tek adımlı uzamsal anlayışta dahi zorluk yaşıyor.

GamiBench Nedir?

GamiBench, çok modlu büyük dil modellerinin (MLLM) uzamsal akıl yürütme ve 2D’den 3D’ye planlama yeteneklerini değerlendirmek için geliştirilen yeni bir benchmark setidir. Origami’den ilham alan katlama görevleriyle, modellerin nesneleri farklı açılardan ve zaman içinde zihinsel olarak takip etme becerileri derinlemesine test ediliyor.

Teknik Detaylar

GamiBench, toplamda 186 normal ve 186 imkansız 2D katlama desenini, bunlara karşılık gelen 3D katlanmış şekillerle birlikte sunuyor. Her desen, altı farklı bakış açısından ve üç görsel soru-cevap (VQA) görevinde değerlendiriliyor:

3D katlama yapılarını tahmin etme,
Geçerli bakış açılarını ayırt etme,
İmkansız desenleri tespit etme.

GamiBench, yalnızca son tahminleri değil, tüm akıl yürütme sürecini dikkate alıyor. Modellerin bakış açısı tutarlılığı (VC) ve imkansız katlama seçme oranı (IFSR) gibi yeni metriklerle, farklı karmaşıklıktaki katlamaları nasıl işledikleri ölçülüyor.

Sonuçlar ve Bulgular

Yapılan deneyler, GPT-5 ve Gemini-2.5-Pro gibi ileri seviye modellerin bile tek adımlı uzamsal anlamada ve katlama süreçlerinde beklenen başarıyı gösteremediğini ortaya koyuyor. Bu sonuçlar, mevcut MLLM’lerin geometrik kavrayış ve uzamsal akıl yürütme alanında gelişime açık olduğunu gösteriyor.

Standartlaştırılmış Değerlendirme Çerçevesi

GamiBench, MLLM’lerin uzamsal akıl yürütme kabiliyetini daha bütüncül şekilde değerlendirmek için standart bir çerçeve sunuyor. Farklı bakış açılarından, ara katlama adımlarına kadar sürecin tamamı analiz ediliyor. Veri seti ve kodlara buradan ulaşmak mümkün.

Kaynak: arxiv.org

Post Views: 218

GamiBench: MLLM’lerin Mekansal Akıl Yürütme ve 2D’den 3D’ye Planlama Yeteneklerinin Origami Katlama Görevleriyle Değerlendirilmesi

GamiBench: MLLM’lerin Uzamsal Akıl Yürütme Becerileri Origami Görevleriyle Sınanıyor GamiBench ile MLLM’lerin Uzamsal Akıl Yürütme Yeteneği Origami Katlama...

Önemli Noktalar

GamiBench Nedir?

Teknik Detaylar

Sonuçlar ve Bulgular

Standartlaştırılmış Değerlendirme Çerçevesi

Leave a Reply Cancel reply

Önemli Noktalar

GamiBench Nedir?

Teknik Detaylar

Sonuçlar ve Bulgular

Standartlaştırılmış Değerlendirme Çerçevesi

Related Stories

Çalışmaya göre Grok AI, 11 günde yaklaşık 3 milyon cinselleştirilmiş görsel üretti

WorkflowPerturb: Çoklu Ajan İş Akışı Metriği Değerlendirmesi için Kalibre Edilmiş Stres Testleri

Her Şeye Erişebilen Yapay Zekâ Çağı Başladı

Leave a Reply Cancel reply