Çoklu Ajan İş Akışlarını Değerlendirmede Yeni Dönem: WorkflowPerturb ile Kalibre Edilmiş Stres Testleri
Çoklu Ajan İş Akışlarını Değerlendirmede Yeni Dönem: WorkflowPerturb ile Kalibre Edilmiş Stres Testleri
WorkflowPerturb, çoklu ajan iş akışlarını değerlendirmek için kalibre edilmiş stres testleri sunuyor. Farklı bozulma seviyelerinde metriklerin hassasiyeti ölçülüyor.
Önemli Noktalar
- WorkflowPerturb, 4.973 altın iş akışı ve 44.757 bozulmuş varyant içeriyor.
- Eksik Adımlar, Sıkıştırılmış Adımlar ve Açıklama Değişiklikleri olmak üzere üç farklı bozulma türü test ediliyor.
- Metrik ailelerinin hassasiyeti ve kalibrasyonu, farklı şiddet seviyelerinde detaylıca analiz ediliyor.
WorkflowPerturb Nedir?
LLM tabanlı sistemler, karmaşık görevler için giderek daha fazla yapılandırılmış iş akışları üretiyor. Ancak bu iş akışlarının otomatik olarak değerlendirilmesi, metrik puanlarının genellikle kalibre edilmemiş olması nedeniyle zorlaşıyor. WorkflowPerturb, iş akışı değerlendirme metriklerini incelemek için kontrollü bir benchmark olarak geliştirildi.
Teknik Detaylar
WorkflowPerturb, 4.973 altın (referans) iş akışına ve 44.757 bozulmuş varyanta sahip kapsamlı bir veri seti sunuyor. Bozulmalar üç ana kategoride uygulanıyor:
- Eksik Adımlar: İş akışındaki bazı adımların çıkarılması.
- Sıkıştırılmış Adımlar: Birden fazla adımın bir araya getirilerek sadeleştirilmesi.
- Açıklama Değişiklikleri: Adım açıklamalarında yapılan değişiklikler.
Her bir bozulma türü, %10, %30 ve %50 şiddet seviyelerinde uygulanıyor. Farklı metrik aileleri, beklenen puan değişimleri ve artıklar üzerinden hassasiyet ve kalibrasyon açısından karşılaştırılıyor. Sonuçlar, metrikler arasındaki sistematik farklılıkları ortaya koyarken, değerlendirme puanlarının şiddet odaklı yorumlanmasını da destekliyor.
Veri Setinin Yayınlanması
WorkflowPerturb veri setinin 2026 yılı içinde erişime açılması bekleniyor. Bu gelişme, çoklu ajanlı sistemlerin değerlendirilmesinde standartlaşmaya katkı sağlayacak.
Gelişmeleri Takip Edin
En güncel teknoloji haberleri ve araştırmalar için @synvalo sosyal medya hesaplarımızı takip etmeyi unutmayın!
Kaynak: arxiv.org