Görsel Dil Modellerinde Mekânsal Zekânın Sınırları ve Yeni Yaklaşımlar
Görsel Dil Modellerinde Mekânsal Zekânın Sınırları ve Yeni Yaklaşımlar
Yeni bir araştırma, gelişmiş görsel dil modellerinin mekânsal akıl yürütmede önemli eksiklikleri olduğunu ve bu alanda yeni çözümlere ihtiyaç duyulduğunu ortaya koyuyor.
Önemli Noktalar
- Gelişmiş VLM’ler, mekânsal ilişkiler ve dönüşümler gerektiren görevlerde ciddi zorluklar yaşıyor.
- SpatiaLite adlı yeni bir sentetik benchmark ile mekânsal akıl yürütme doğruluğu ve verimliliği ölçüldü.
- Yeni önerilen Imagery Driven Framework (IDF), içsel mekânsal modellemeyi geliştirmeyi amaçlıyor.
Araştırmanın Arka Planı
DeepSeek R1, OpenAI o3 ve Gemini 2.5 Pro gibi büyük dil ve görsel dil modelleri, mantıksal çıkarım, problem çözme ve karar verme gibi alanlarda dikkate değer başarılar gösterdi. Ancak insanlar için temel bir bilişsel yeti olan mekânsal akıl yürütme, bu gelişmiş modeller için hâlâ büyük bir zorluk teşkil ediyor.
Mekânsal Akıl Yürütmede Karşılaşılan Zorluklar
Araştırmada, modellerin mekânsal ilişkileri anlamada ve üç boyutlu geometri dönüşümleri (örneğin zihinsel döndürme veya projeksiyon tahmini) gerektiren görsel merkezli görevlerde büyük eksiklikler gösterdiği tespit edildi. Gelişmiş VLM’lerin çoğunlukla dilsel temsillere dayandığı ve bu nedenle görsel-mekânsal görevlerde yeterli performans sergileyemediği ortaya kondu.
Verimlilik Sorunu
Çalışmada ayrıca, mevcut VLM’lerin mekânsal akıl yürütme sırasında önemli ölçüde verimsiz olduğu; dönüşüm karmaşıklığı arttıkça kullanılan token sayısının hızla yükseldiği belirlendi.
SpatiaLite ve Yeni Yaklaşımlar
Araştırmacılar, mekânsal akıl yürütme doğruluğu ve verimliliğini ölçmek için tamamen sentetik bir benchmark olan SpatiaLite’ı geliştirdi. Ayrıca, mekânsal ilişkilerin daha iyi modellenebilmesi için Imagery Driven Framework (IDF) adında yeni bir veri sentezi ve eğitim yöntemi önerildi. Bu yaklaşım, VLM’lerin içsel bir mekânsal dünya modeli oluşturmasına yardımcı olmayı hedefliyor.
Sonuç ve Gelecek Perspektifi
Bu çalışma, gelişmiş görsel dil modellerinin mekânsal akıl yürütme sınırlarını ve mevcut eksikliklerini net bir şekilde ortaya koyuyor. SpatiaLite ve IDF gibi yeni araçlar, bu alandaki ilerlemeler için önemli bir temel sunuyor ve gelecekte daha etkili mekânsal zekâya sahip yapay zekâ sistemlerinin geliştirilmesine ışık tutuyor.
Kaynak: arXiv:2511.13782v1
Kaynak: arxiv.org