LogicLens: Metin Odaklı Sahtecilik Analizi için Görsel-Mantıksal Ortak Akıl Yürütme

LogicLens: Metin Merkezli Sahtecilik Analizinde Görsel-Mantıksal Ortak Akıl LogicLens: Metin Odaklı Sahtecilik Analizinde Yeni Nesil Görsel-Mantıksal Yaklaş...

LogicLens: Metin Merkezli Sahtecilik Analizinde Görsel-Mantıksal Ortak Akıl

LogicLens: Metin Odaklı Sahtecilik Analizinde Yeni Nesil Görsel-Mantıksal Yaklaşım

LogicLens, metin merkezli sahtecilik analizinde görsel ve mantıksal akıl yürütmeyi birleştirerek mevcut yöntemlere kıyasla üstün performans sunuyor.

Önemli Noktalar

  • LogicLens, görsel ve metinsel ipuçlarını birlikte değerlendiren yeni bir analiz çerçevesi sunuyor.
  • Geliştirilen PR2 pipeline ve RealText veri setiyle yüksek kaliteli açıklamalar ve detaylı segmentasyon sağlanıyor.
  • LogicLens, T-IC13 ve T-SROIE gibi benchmarklarda mevcut modellere göre %41,4’e varan üstünlük gösteriyor.

Giriş: Metin Merkezli Sahtecilik Analizinde Yeni Zorluklar

Hızla gelişen AIGC teknolojileriyle birlikte, metin merkezli sahtecilikler toplumsal güvenlik ve bilginin doğruluğu açısından ciddi tehditler oluşturuyor. Mevcut analiz yöntemleri genellikle yalnızca görsel incelemeye dayanıyor ve derin mantıksal akıl yürütme yeteneğinden yoksun. Ayrıca, tespit, dayanaklandırma ve açıklama gibi alt görevler birbirinden bağımsız ele alınıyor; bu da bütünsel performans artışını engelliyor.

LogicLens: Birleşik Görsel-Mantıksal Akıl Yürütme Çerçevesi

LogicLens, metin merkezli sahtecilik analizinde tespit, dayanaklandırma ve açıklama görevlerini tek bir ortak görev olarak ele alıyor. Bu çerçeve, yenilikçi Cross-Cues-aware Chain of Thought (CCT) mekanizması ile görsel ipuçlarını metinsel mantıkla çapraz doğrulama imkânı sunuyor. Tüm görevlerde sağlam bir hizalama sağlamak için ağırlıklı çoklu görev ödül fonksiyonu ile GRPO tabanlı optimizasyon kullanılıyor.

PR2 Pipeline ve RealText Veri Seti

Çerçeveyi desteklemek amacıyla PR2 (Perceiver, Reasoner, Reviewer) adında hiyerarşik ve yinelemeli bir çoklu ajan sistemi geliştirildi. Bu sistem, yüksek kaliteli ve bilişsel olarak uyumlu açıklamalar üretiyor. Ayrıca, 5.397 görsel içeren ve metinsel açıklamalar, piksel düzeyinde segmentasyon ile özgünlük etiketleri barındıran RealText veri seti oluşturuldu.

Teknik Detaylar ve Performans Sonuçları

LogicLens, sıfır-shot T-IC13 değerlendirmesinde, özel frameworklere göre %41,4 ve GPT-4o’ya göre %23,4 daha yüksek macro-average F1 skoruna ulaştı. Yoğun metin içeren T-SROIE veri setinde ise mF1, CSS ve macro-average F1 metriklerinde MLLM tabanlı yöntemlere karşı anlamlı bir üstünlük sağladı.

Sonuç ve Gelecek Planları

LogicLens’in modeli, kodları ve RealText veri setinin 2026 yılı içinde kamuya açık olarak paylaşılması bekleniyor. Bu gelişme, metin merkezli sahtecilik analizinde yeni standartlar belirleyecek.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top