AIDABench: Yapay Zeka Veri Analitiği Kıyaslaması

AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme Standardı

AIDABench, gerçekçi ve karmaşık veri analitiği görevlerinde yapay zekâ sistemlerinin uçtan uca performansını değerlendiren yeni bir kıyaslama seti olarak tanıtıldı.

Önemli Noktalar

AIDABench, 600’den fazla belge analizi göreviyle yapay zekâ modellerini kapsamlı şekilde test ediyor.
En iyi model dahi %59,43 başarı oranı ile sınavı geçebildi, gerçek dünya zorlukları devam ediyor.
Benchmark, kurumsal alımlar ve model optimizasyonu için referans niteliği taşıyor.

AIDABench Nedir?

AIDABench, yapay zekâ destekli belge anlama ve işleme araçlarının gerçek dünyadaki karmaşık veri analitiği ihtiyaçlarını ne kadar iyi karşıladığını ölçmek için geliştirilen yeni bir değerlendirme platformudur. 600’ü aşkın belge analizi göreviyle, uçtan uca senaryolarda modellerin gerçekçi performansını ortaya koyar.

Teknik Detaylar

AIDABench, üç temel yetenek boyutunda çeşitli görevler içeriyor:

Soru-cevaplama
Veri görselleştirme
Dosya üretimi

Görevler; elektronik tablolar, veri tabanları, finansal raporlar ve operasyonel kayıtlar gibi farklı veri türlerini kapsıyor. Bu sayede, çeşitli sektörlerdeki ve iş fonksiyonlarındaki analitik ihtiyaçlar gerçekçi biçimde simüle ediliyor.

Model Performansları ve Bulgular

AIDABench üzerinde, aralarında Claude Sonnet 4.5, Gemini 3 Pro Preview ve Qwen3-Max-2026-01-23-Thinking gibi hem tescilli hem de açık kaynaklı 11 güncel yapay zekâ modeli test edildi. Sonuçlara göre, en iyi model bile yalnızca %59,43’lük bir başarı oranı ile (pass-at-1) görevleri tamamlayabildi. Bu, karmaşık veri analitiği görevlerinde mevcut yapay zekâ sistemlerinin hâlâ önemli zorluklarla karşılaştığını gösteriyor.

Analizler, her yetenek boyutunda modellerin başarısızlık nedenlerini detaylandırıyor ve ilerideki araştırmalar için çözülmesi gereken temel zorlukları tanımlıyor.

Kullanım Alanları ve Erişim

AIDABench, kurumsal satın alma kararları, araç seçimi ve model optimizasyonu süreçlerinde güvenilir bir referans olarak sunuluyor. Benchmark, kamuya açık olarak GitHub üzerinden erişime açık.

Kaynak: arxiv.org

Post Views: 128

AIDABench: Yapay Zeka Veri Analitiği Kıyaslaması

AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme Standardı AIDABench: Yapay Zekâ ile Veri Analitiğinde Yeni Kapsamlı Değerlendirme St...

Önemli Noktalar

AIDABench Nedir?

Teknik Detaylar

Model Performansları ve Bulgular

Kullanım Alanları ve Erişim

Leave a Reply Cancel reply

Önemli Noktalar

AIDABench Nedir?

Teknik Detaylar

Model Performansları ve Bulgular

Kullanım Alanları ve Erişim

Related Stories

Muhakeme Modelleri Düşünce Zincirlerini Kontrol Etmekte Zorlanıyor

Claude Code’un Yaratıcısı: Yazılım Mühendisleri İçin Bu, İş Bulabilecekleri Son Yıl Olabilir

Neura, Avrupa’nın En Büyük Fiziksel Yapay Zekâ Eğitim Merkezini Açtı

Leave a Reply Cancel reply