Dijital Varlık Yönetiminde LLM Ajanlarının Performansı Değerlendirildi
Dijital Varlık Yönetiminde LLM Ajanlarının Performansı Değerlendirildi
Yeni bir çalışma, büyük dil modeli (LLM) ajanlarının varlık yönetimi süreçlerinde doğruluk ve verimlilik açısından nasıl performans gösterdiğini araştırıyor.
Önemli Noktalar
- Çalışmada, finans odaklı 12 farklı görev çiftiyle LLM ajanlarının kapasitesi test edildi.
- Agent’ların başarısı, matematiksel akıldan çok uçtan uca iş akışı güvenilirliğiyle sınırlı bulundu.
- Otonomi seviyesi ve doğru model değerlendirmesi, sonuçlar üzerinde önemli etki yarattı.
Çalışmanın Amacı ve Yöntemi
Modern iş yaşamında dijital işbirliği araçları yaygın olarak kullanılsa da, rutin süreçler hâlâ insan hatası ve gecikmelerden olumsuz etkileniyor. Bu eksikliği gidermek amacıyla yapılan bu araştırmada, TheAgentCompany platformu finans odaklı bir ortamla genişletildi ve genel amaçlı bir büyük dil modeli (LLM) ajanının, temsilci varlık yönetimi görevlerini hem doğru hem de ekonomik şekilde tamamlayıp tamamlayamayacağı incelendi.
Teknik Detaylar
Araştırmacılar, sentetik alan verileri oluşturarak ve meslektaş simülasyonlarını geliştirerek otomatik görev üretim hattı prototipi geliştirdiler. Bu sayede, asistan düzeyinde varlık yönetimi işlerinde bir ajanın uygunluğunu anlamlı şekilde ölçebilecek bir değerlendirme seti oluşturuldu.
Toplamda 12 görev çifti içeren bir benchmark hazırlayan ekip, bu görevleri bilgi erişimi, analiz ve sentez/iletişim başlıklarında topladı. Her görevin kabul kriterleri açıkça belirlendi ve deterministik değerlendiriciler kullanıldı. Ayrıca, her görev için yüksek ve düşük otonomi varyantları oluşturuldu.
Sonuçlar ve Değerlendirme
Çalışmanın sonucunda, LLM ajanlarının performansının matematiksel muhakeme yeteneğinden çok, iş akışının baştan sona güvenilirliğiyle sınırlı olduğu tespit edildi. Ayrıca, otonomi seviyesi ve model değerlendirmesindeki eksikliklerin, benchmark sonuçlarını anlamlı şekilde etkilediği görüldü. Bu bulgular, varlık yönetiminde LLM ajanlarının entegrasyonu için güvenilirlik ve değerlendirme yöntemlerinin geliştirilmesinin önemini ortaya koyuyor.
Kaynak: arxiv.org