Bütçe Kısıtlı Agentik LLM Aramasında Tasarım Kararlarının Doğruluk ve Maliyet Etkisi Ölçülüyor

Bütçe Kısıtlı Agentik LLM Aramalarında Tasarım Kararlarının Doğruluk ve Maliyet Etkisi Ölçüldü Bütçe Kısıtlı Agentik LLM Aramalarında Tasarım Kararlarının D...

Bütçe Kısıtlı Agentik LLM Aramalarında Tasarım Kararlarının Doğruluk ve Maliyet Etkisi Ölçüldü

Bütçe Kısıtlı Agentik LLM Aramalarında Tasarım Kararlarının Doğruluk ve Maliyet Etkisi Ölçüldü

Yeni bir çalışma, bütçe kısıtlı Agentik RAG sistemlerinde arama derinliği, getirme stratejisi ve tamamlanma bütçesinin doğruluk ve maliyete etkisini karşılaştırdı.

Önemli Noktalar

  • Altı farklı LLM ve üç soru-cevap benchmark’ı ile kapsamlı karşılaştırmalar yapıldı.
  • Hibrit getirme stratejileri ve artırılmış tamamlanma bütçeleri doğrulukta belirgin artış sağladı.
  • Bütçe kısıtlı agentik arama için pratik yapılandırma önerileri sunuldu.

Çalışmanın Arka Planı

Agentik Retrieval-Augmented Generation (RAG) sistemleri, planlama istemleri ve getirme altyapılarıyla birlikte iteratif arama süreçleri kullanır. Gerçek dünyada, bu sistemler genellikle araç çağrıları ve tamamlanma tokenları için belirli bir bütçe ile sınırlandırılır.

Çalışmada, Budget-Constrained Agentic Search (BCAS) adlı, modelden bağımsız bir değerlendirme platformu kullanılarak, farklı tasarım kararlarının doğruluk ve maliyet üzerindeki etkisi incelenmiştir. Bu platform, kalan bütçeyi göstererek araç kullanımını sınırlar.

Teknik Detaylar

  • Altı farklı büyük dil modeli (LLM) ve üç soru-cevap benchmark’ı üzerinde testler gerçekleştirildi.
  • Arama derinliği, getirme stratejileri (lexical, dense, hibrit) ve tamamlanma bütçesi gibi değişkenler karşılaştırıldı.
  • Hibrit lexical ve dense getirme ile hafif yeniden sıralama, ortalama doğrulukta en yüksek artışı sağladı.
  • Daha geniş tamamlanma bütçeleri, özellikle HotpotQA benzeri sentez görevlerinde en fazla faydayı sundu.

Sonuç ve Öneriler

Elde edilen bulgular, bütçeli agentik getirme hatlarının nasıl yapılandırılması gerektiğine dair pratik rehberlik sağlıyor. Ayrıca, çalışmada kullanılan istemler ve değerlendirme ayarları da tekrarlanabilir şekilde paylaşıldı.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top