GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyor
GUI-Eyes: Görsel Algıda Yeni Yaklaşım ile GUI Otomasyonunda Verimlilik Artıyor
GUI-Eyes, aktif görsel algı ve araç destekli karar süreçleriyle GUI otomasyonunda doğruluk ve veri verimliliğini önemli ölçüde artırıyor.
Önemli Noktalar
- GUI-Eyes, aktif algı ve araç kullanımı ile görsel yerleştirme doğruluğunu yükseltiyor.
- ScreenSpot-Pro benchmark’ında 44.8% doğruluk ve yalnızca 3 bin etiketli örnekle üstün başarı sağlandı.
- İki aşamalı politika ve yoğun ödül fonksiyonu ile veri verimliliği ve dayanıklılık artırıldı.
Yeni Nesil Aktif Algı Yaklaşımı
Son dönemde görsel-dil modelleri ve pekiştirmeli öğrenme alanındaki gelişmeler, GUI otomasyonunda önemli ilerlemelere yol açtı. Ancak mevcut yöntemlerin çoğu, statik ve tek seferlik görsel girdilere dayanıyor; bu da arayüzü aktif ve stratejik biçimde gözlemleme kabiliyetini sınırlıyordu.
GUI-Eyes, aktif görsel algı için geliştirilmiş bir pekiştirmeli öğrenme çerçevesi sunuyor. Bu sistemde ajan, arayüzü gözlemlemek için ne zaman ve nasıl görsel araçlar kullanılacağına dair stratejik kararlar alabiliyor. Kırpma veya yakınlaştırma gibi araçlar, iki aşamalı akıl yürütme sürecinde etkin biçimde devreye alınabiliyor.
Teknik Detaylar
GUI-Eyes’in yenilikçi yaklaşımı, karar verme sürecini kaba keşif ve ince yerleştirme olarak iki aşamaya ayıran, iki seviyeli bir politika ile yürütülüyor. Ayrıca, konum yakınlığı ve bölge örtüşmesini birleştiren, araca özel yoğun bir ödül fonksiyonu tasarlandı. Bu sayede GUI ortamlarındaki ödül seyrekliği sorunu büyük ölçüde aşılmış oldu.
ScreenSpot-Pro benchmark’ında yapılan testlerde, GUI-Eyes-3B modeli yalnızca 3.000 etiketli örnekle %44,8 yerleştirme doğruluğuna ulaştı. Bu sonuç, hem denetimli hem de pekiştirmeli öğrenmeye dayalı mevcut yöntemleri geride bırakıyor.
Sonuç ve Gelecek Perspektifi
Araç destekli aktif algı ve iki aşamalı politika yaklaşımı, GUI ajanlarının daha dayanıklı ve veri açısından verimli hale gelmesini sağladı. Bu gelişme, yakın gelecekte GUI tabanlı otomasyon uygulamalarında daha yüksek doğruluk ve verimlilik potansiyeli sunuyor.
Kaynak: arxiv.org