Yap, Değerlendir, Optimize Et: Çoklu Ajanlı Tüketici Asistanlarının Sürekli Gelişimi İçin Bir Yol Haritası

Çoklu Ajanslı Alışveriş Asistanlarının Sürekli Gelişimi İçin Pratik Bir Yol Haritası Çoklu Ajanslı Alışveriş Asistanlarının Sürekli Gelişimi İçin Pratik Bir...

Çoklu Ajanslı Alışveriş Asistanlarının Sürekli Gelişimi İçin Pratik Bir Yol Haritası

Çoklu Ajanslı Alışveriş Asistanlarının Sürekli Gelişimi İçin Pratik Bir Yol Haritası

Çoklu ajanslı yapay zeka alışveriş asistanlarının değerlendirilmesi ve optimize edilmesi için yeni bir yaklaşım sunuldu. Üretim ölçeğinde uygulama örneği ile detaylar açıklandı.

Önemli Noktalar

  • Çoklu ajanslı yapay zeka alışveriş asistanlarının değerlendirilmesi ve optimizasyonu için yeni bir metodoloji geliştirildi.
  • Grocery alışverişi gibi karmaşık senaryolarda, kullanıcı taleplerinin belirsizliği ve bütçe/inventar kısıtları özel olarak ele alındı.
  • GEPA tabanlı iki farklı prompt optimizasyon stratejisi tanıtıldı: Sub-agent GEPA ve MAMuT GEPA.

Çoklu Ajanslı Alışveriş Asistanlarında Değerlendirme Zorlukları

Çoklu ajanslı yapay zeka tabanlı alışveriş asistanları, prototipten üretim aşamasına geçerken iki temel zorlukla karşılaşıyor: Çoklu dönüşlü etkileşimlerin değerlendirilmesi ve sıkı şekilde bağlı ajansların optimize edilmesi. Özellikle market alışverişinde kullanıcı istekleri çoğu zaman tam olarak belirlenmemiş, tercihlere duyarlı ve bütçe ile stok gibi kısıtlarla sınırlandırılmıştır.

Yapısal Değerlendirme ve LLM Destekli Yargılama

Araştırmada, üretim ölçeğinde bir yapay zeka market asistanı üzerinden pratik bir değerlendirme ve optimizasyon planı sunuluyor. Alışveriş deneyimini yapılandırılmış boyutlara ayıran çok yönlü bir değerlendirme şablonu tanıtıldı. İnsan anotasyonları ile uyumlu, kalibre edilmiş bir LLM-as-judge (Büyük Dil Modeli Hakem) süreci oluşturuldu.

GEPA Tabanlı Prompt Optimizasyonu

Sub-agent GEPA

Sub-agent GEPA yaklaşımı, her bir ajans düğümünü yerel değerlendirme şablonlarına göre optimize ederek performans artışı sağlıyor.

MAMuT GEPA

MAMuT (Multi-Agent Multi-Turn) GEPA ise, çoklu ajanslar arasında promptların ortaklaşa optimize edilmesini sağlıyor. Çoklu dönüşlü simülasyon ve trajektori bazlı puanlama ile sistem seviyesinde iyileştirme sunuyor.

Uygulama ve Kaynaklar

Üretim ortamında kullanılabilen değerlendirme şablonları ve tasarım rehberleri, bu alanda çalışan geliştiriciler için açık şekilde paylaşıldı. Bu sayede, çoklu ajanslı tüketici asistanlarının kalitesini artırmak isteyenler pratik çözümler elde edebiliyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top