AIDABench: Yapay Zeka Veri Analitiği Kıyaslaması

AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme Standardı AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme St...

AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme Standardı

AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme Standardı

AIDABench, gerçekçi ve karmaşık veri analitiği görevlerinde yapay zekâ sistemlerinin uçtan uca performansını değerlendiren yeni bir kıyaslama seti olarak tanıtıldı.

Önemli Noktalar

  • AIDABench, 600’den fazla belge analizi göreviyle yapay zekâ modellerini kapsamlı şekilde test ediyor.
  • En iyi model dahi %59,43 başarı oranı ile sınavı geçebildi, gerçek dünya zorlukları devam ediyor.
  • Benchmark, kurumsal alımlar ve model optimizasyonu için referans niteliği taşıyor.

AIDABench Nedir?

AIDABench, yapay zekâ destekli belge anlama ve işleme araçlarının gerçek dünyadaki karmaşık veri analitiği ihtiyaçlarını ne kadar iyi karşıladığını ölçmek için geliştirilen yeni bir değerlendirme platformudur. 600’ü aşkın belge analizi göreviyle, uçtan uca senaryolarda modellerin gerçekçi performansını ortaya koyar.

Teknik Detaylar

AIDABench, üç temel yetenek boyutunda çeşitli görevler içeriyor:

  • Soru-cevaplama
  • Veri görselleştirme
  • Dosya üretimi

Görevler; elektronik tablolar, veri tabanları, finansal raporlar ve operasyonel kayıtlar gibi farklı veri türlerini kapsıyor. Bu sayede, çeşitli sektörlerdeki ve iş fonksiyonlarındaki analitik ihtiyaçlar gerçekçi biçimde simüle ediliyor.

Model Performansları ve Bulgular

AIDABench üzerinde, aralarında Claude Sonnet 4.5, Gemini 3 Pro Preview ve Qwen3-Max-2026-01-23-Thinking gibi hem tescilli hem de açık kaynaklı 11 güncel yapay zekâ modeli test edildi. Sonuçlara göre, en iyi model bile yalnızca %59,43’lük bir başarı oranı ile (pass-at-1) görevleri tamamlayabildi. Bu, karmaşık veri analitiği görevlerinde mevcut yapay zekâ sistemlerinin hâlâ önemli zorluklarla karşılaştığını gösteriyor.

Analizler, her yetenek boyutunda modellerin başarısızlık nedenlerini detaylandırıyor ve ilerideki araştırmalar için çözülmesi gereken temel zorlukları tanımlıyor.

Kullanım Alanları ve Erişim

AIDABench, kurumsal satın alma kararları, araç seçimi ve model optimizasyonu süreçlerinde güvenilir bir referans olarak sunuluyor. Benchmark, kamuya açık olarak GitHub üzerinden erişime açık.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top