GUI-Eyes: GUI Aracılarında Görsel Temellendirme için Araç Destekli Algı

GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyor GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyo...

GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyor

GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyor

GUI-Eyes, aktif görsel algı ve araç destekli karar süreçleriyle GUI otomasyonunda doğruluk ve veri verimliliğini önemli ölçüde artırıyor.

Önemli Noktalar

  • GUI-Eyes, aktif algı ve araç kullanımı ile görsel yerleştirme doğruluğunu yükseltiyor.
  • ScreenSpot-Pro benchmark’ında 44.8% doğruluk ve yalnızca 3 bin etiketli örnekle üstün başarı sağlandı.
  • İki aşamalı politika ve yoğun ödül fonksiyonu ile veri verimliliği ve dayanıklılık artırıldı.

Yeni Nesil Aktif Algı Yaklaşımı

Son dönemde görsel-dil modelleri ve pekiştirmeli öğrenme alanındaki gelişmeler, GUI otomasyonunda önemli ilerlemelere yol açtı. Ancak mevcut yöntemlerin çoğu, statik ve tek seferlik görsel girdilere dayanıyor; bu da arayüzü aktif ve stratejik biçimde gözlemleme kabiliyetini sınırlıyordu.

GUI-Eyes, aktif görsel algı için geliştirilmiş bir pekiştirmeli öğrenme çerçevesi sunuyor. Bu sistemde ajan, arayüzü gözlemlemek için ne zaman ve nasıl görsel araçlar kullanılacağına dair stratejik kararlar alabiliyor. Kırpma veya yakınlaştırma gibi araçlar, iki aşamalı akıl yürütme sürecinde etkin biçimde devreye alınabiliyor.

Teknik Detaylar

GUI-Eyes’in yenilikçi yaklaşımı, karar verme sürecini kaba keşif ve ince yerleştirme olarak iki aşamaya ayıran, iki seviyeli bir politika ile yürütülüyor. Ayrıca, konum yakınlığı ve bölge örtüşmesini birleştiren, araca özel yoğun bir ödül fonksiyonu tasarlandı. Bu sayede GUI ortamlarındaki ödül seyrekliği sorunu büyük ölçüde aşılmış oldu.

ScreenSpot-Pro benchmark’ında yapılan testlerde, GUI-Eyes-3B modeli yalnızca 3.000 etiketli örnekle %44,8 yerleştirme doğruluğuna ulaştı. Bu sonuç, hem denetimli hem de pekiştirmeli öğrenmeye dayalı mevcut yöntemleri geride bırakıyor.

Sonuç ve Gelecek Perspektifi

Araç destekli aktif algı ve iki aşamalı politika yaklaşımı, GUI ajanlarının daha dayanıklı ve veri açısından verimli hale gelmesini sağladı. Bu gelişme, yakın gelecekte GUI tabanlı otomasyon uygulamalarında daha yüksek doğruluk ve verimlilik potansiyeli sunuyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top