Web Ajanlarının Eğitimi Otomatik Veri Üretimiyle Ölçekleniyor
Web Ajanlarının Eğitimi Otomatik Veri Üretimiyle Ölçekleniyor
Otomatik veri üretimi ve hassas değerlendirme yöntemleriyle web ajanlarının eğitiminde ölçeklenebilir bir yaklaşım sunuldu; yeni benchmark ile ticari sistemlere rakip sonuçlar elde edildi.
Önemli Noktalar
- Otomatik olarak yüksek kaliteli eğitim verisi üreten ölçeklenebilir bir sistem tanıtıldı.
- Yeni BookingArena benchmark’ı ile modelin performansı test edildi.
- Önerilen öğrenci model, açık kaynaklı çözümleri geride bırakıp ticari sistemlerle yarıştı.
Teknik Detaylar
Web ajanlarının eğitiminde en zorlu sorunlardan biri, eğitim örneklerinin kalitesinin değerlendirilmesidir. Bu süreçte, bir görevin ne kadarının başarıyla tamamlandığını ölçmek için “trajektori değerlendirmesi” gereklidir. Araştırmacılar, bu soruna çözüm olarak kısıt tabanlı yeni bir değerlendirme çerçevesi geliştirdi. Bu yöntem, görevin tamamlanmasına yönelik ilerlemeyi ayrıntılı biçimde analiz ederek, kısmen başarılı trajektorileri de eğitim verisi olarak kullanmayı mümkün kılıyor.
Geliştirilen sistem, web üzerinde karmaşık rezervasyon işlemlerini içeren BookingArena adlı yeni bir benchmark ile test edildi. BookingArena, 20 popüler web sitesinde çeşitli rezervasyon görevlerinden oluşuyor ve gerçekçi, çeşitlendirilmiş web etkileşimleri sağlıyor. Bu benchmark sayesinde, üretilen eğitim verisinin ve modelin performansı titizlikle değerlendirilebiliyor.
Sonuçlar, önerilen küçük boyutlu öğrenci modelin açık kaynaklı yaklaşımları geride bıraktığını ve ticari sistemlerle eşit veya daha iyi performans gösterdiğini ortaya koydu. Araştırma, web ajanları için çeşitli ve gerçekçi veri setlerinin verimli şekilde oluşturulmasını sağlarken, karmaşık yapılandırılmış web görevlerinin sistematik değerlendirilmesini mümkün kılıyor.
Gelecek Perspektifi
Bu yöntem, 2026 yılı içinde web ajanlarının eğitim süreçlerinde daha fazla ölçeklenebilirlik ve kalite sunmayı vaat ediyor. Otomatik veri üretimi ve hassas değerlendirme teknikleriyle, web tabanlı yapay zeka uygulamalarının gelişimi hızlanacak gibi görünüyor.
Kaynak: arxiv.org