Yapay Zeka Ajanlarının Gerçek Dünya Dinamiklerine Uyumunu Ölçen Yeni Benchmark: ProEvolve
Yapay Zeka Ajanlarının Gerçek Dünya Dinamiklerine Uyumunu Ölçen Yeni Benchmark: ProEvolve
ProEvolve, yapay zeka ajanlarının değişen ortamlara adaptasyonunu değerlendirmek için programlanabilir ve ölçeklenebilir bir benchmark sunuyor.
Önemli Noktalar
- ProEvolve, ortam evrimini grafik tabanlı ve programlanabilir şekilde modelleyerek ajanların adaptasyonunu test ediyor.
- 200 farklı ortam ve 3.000 görev sandığı ile kapsamlı benchmark imkanı sağlanıyor.
- Gerçek dünya dinamiklerine yakın senaryolarla, mevcut statik benchmarkların ötesine geçiliyor.
Programlanabilir Evrim: ProEvolve Nedir?
LLM tabanlı yapay zeka ajanları, kullanıcı isteklerini karşılamak için çok adımlı süreçlerde ortamlarla etkileşime giriyor, veri sorguluyor ve çeşitli araçlar kullanıyor. Ancak, mevcut benchmarkların çoğu, değişmeyen sabit ortamlar ve araç setleri ile sınırlı kalıyor. Bu durum, gerçek dünyadaki sürekli değişen koşulları ve ajanların bu değişime karşı dayanıklılığını ölçmeyi zorlaştırıyor.
ProEvolve, bu sorunu çözmek amacıyla geliştirilmiş grafik tabanlı bir çerçeve sunuyor. Temelinde, ortamı veri, araçlar ve şemalarla birlikte tipli ilişkisel bir grafik olarak temsil ediyor. Böylece ortamın yetenekleri eklenip çıkarılabiliyor veya değiştirilebiliyor; bu değişiklikler grafik dönüşümleriyle tüm sisteme tutarlı şekilde yansıtılıyor.
Teknik Detaylar
ProEvolve’un yaklaşımı iki temel yetenek sunuyor:
- Ortam evrimini grafik dönüşümleriyle otomatik olarak programlamak ve yeni ortamlar oluşturmak.
- Karmaşık görevler için alt grafik örnekleme ve programlama yoluyla görev sandıkları oluşturmak.
Yapılan doğrulama testlerinde, tek bir ortamdan 200 farklı ortam ve 3.000 görev sandığı türetilerek temsili ajanların performansı karşılaştırıldı. Bu sayede, ajanların gerçek dünya benzeri dinamiklere ne kadar hızlı ve etkili uyum sağladığı ölçülebildi.
Gelecekte Ne Bekleniyor?
ProEvolve’un 2026 yılı içinde, yapay zeka araştırmaları ve uygulamalarında daha gerçekçi ve zorlu benchmarklar sunarak ajans tabanlı sistemlerin gelişimine öncülük etmesi bekleniyor.
Kaynak: arxiv.org