KILAVUZ: Gerçek Zamanlı Web Video Erişimi ve Tak-Çalıştır Anotasyon ile GUI Agent’larda Alan Yanlılığını Giderme

GUI Agentlerinde Alan Yanlılığını GUIDE ile Gerçek Zamanlı Video Analiziyle Düzeltmek GUI Agentlerinde Alan Yanlılığını GUIDE ile Gerçek Zamanlı Video Anali...

GUI Agentlerinde Alan Yanlılığını GUIDE ile Gerçek Zamanlı Video Analiziyle Düzeltmek

GUI Agentlerinde Alan Yanlılığını GUIDE ile Gerçek Zamanlı Video Analiziyle Düzeltmek

GUIDE, GUI agentlerinin alan yanlılığını web eğitim videoları ve otomatik etiketleme ile azaltarak gerçek görev başarısını artırıyor.

Önemli Noktalar

  • GUIDE, GUI agentlerinde alan yanlılığını eğitim gerektirmeden azaltıyor.
  • Web eğitim videoları ve otomatik etiketleme ile gerçek görev performansı %5’ten fazla artıyor.
  • GUIDE, model parametreleri veya mimarisini değiştirmeden uygulanabiliyor.

Teknik Detaylar

GUI agentleri, büyük görsel-dil modelleri sayesinde arayüzleri anlayıp etkileşim kurabilme yeteneği kazandı. Ancak, belirli uygulamalara özgü yazılım işlemleriyle ilgili veriye yeterince maruz kalmadıkları için ciddi bir alan yanlılığı gösteriyorlar. Bu, uygulama içi iş akışlarını ve UI elemanlarının düzenini tanımada eksikliklere yol açıyor ve gerçek görevlerde performanslarını sınırlandırıyor.

GUIDE (GUI Unbiasing via Instructional-Video Driven Expertise), bu alan yanlılığını gidermek için tasarlanmış eğitim gerektirmeyen, plug-and-play bir çerçeve sunuyor. GUIDE, alan uzmanlığını web eğitim videoları aracılığıyla otomatik olarak ediniyor ve bunları bir retrieval-augmented otomatik etiketleme süreciyle agentlere aktarıyor.

Video-RAG ve Otomatik Etiketleme Süreci

GUIDE, iki temel yenilik getiriyor:

  • Altyazı odaklı Video-RAG pipeline ile video semantiğini altyazı analizi üzerinden açığa çıkarıyor. Üç aşamalı bir retrieval süreci (alan sınıflandırması, konu çıkarımı, alaka eşleştirmesi) ile görevle ilgili eğitim videoları tespit ediliyor.
  • Tam otomatik bir etiketleme pipeline’ı, ters dinamikler paradigmasıyla ardışık anahtar kareleri ve UI elemanlarının tespitini VLM’lere besliyor. Bu sayede gerekli planlama ve grounding bilgisi elde edilip agentin ilgili modüllerine aktarılıyor.

Deney Sonuçları ve GUIDE’ın Etkisi

OSWorld üzerinde yapılan kapsamlı deneylerde GUIDE, hem çoklu agent sistemlerinde hem de tek model agentlerde plug-and-play bileşen olarak genel geçerliği gösterdi. GUIDE, hiçbir model parametresi veya mimarisi değiştirilmeden uygulandığında, görev performansında %5’ten fazla iyileşme sağladı ve yürütme adımlarını azalttı. Bu da GUIDE’ın GUI agentlerinde alan yanlılığını gidermek için mimariden bağımsız bir çözüm olduğunu doğruluyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top