Büyük Dil Modellerinde Yanıltıcı Cevapları Azaltmak İçin Yeni Ölçütler Geliştirildi
Büyük Dil Modellerinde Yanıltıcı Cevapları Azaltmak İçin Yeni Ölçütler Geliştirildi
Araştırmacılar, büyük dil modellerinin doğruluğunu değerlendirmek ve halüsinasyonları azaltmak için bilgi kuramı ve termodinamikten yararlanan iki yeni ölçüt geliştirdi.
Önemli Noktalar
- İki yeni denetimsiz doğruluk ölçütü (SF ve SEP) önerildi.
- Yaklaşım, bilgi kuramı ve termodinamiğe dayanıyor.
- Yöntemler, LLM’lerde halüsinasyon kontrolü ve değerlendirme için kullanılabiliyor.
Yeni Doğruluk Ölçütleri ile LLM Değerlendirmesi
Büyük dil modellerinin (LLM) verilen bir göreve ne kadar sadık kaldığını ölçmek, karmaşık bir problem olarak öne çıkıyor. Son araştırmalar, bu doğruluğu daha iyi değerlendirmek için bilgi kuramı ve termodinamikten ilham alan iki yeni denetimsiz ölçüt geliştirdi.
Teknik Detaylar
Araştırmacıların önerdiği yaklaşımda, bir LLM, bağlamı (C) yanıta (A) dönüştüren ve istem (Q) üzerinden kontrol edilen iki parçalı bir bilgi motoru olarak ele alınıyor. Soru-Bağlam-Cevap (QCA) üçlüleri, ortak konular üzerinde olasılık dağılımlarıyla modelleniyor.
Bağlamdan isteme ve yanıta geçişler, sorgu amacını ve gerçek sonucu kodlayan geçiş matrisleri olarak temsil ediliyor. Semantik Doğruluk (SF) ölçütü, bu matrisler arasındaki Kullback-Leibler (KL) ayrıklığını kullanarak herhangi bir QCA üçlüsü için doğruluğu nicelendiriyor. Her iki matris, bu KL ayrıklığının konveks optimizasyonu ile aynı anda elde ediliyor ve SF skoru, [0,1] aralığına ölçekleniyor; yüksek skorlar daha yüksek doğruluğu gösteriyor.
Ayrıca, araştırmacılar yanıt üretiminde semantik entropi üretimi (SEP) adını verdikleri, termodinamik tabanlı bir ölçüt daha ortaya koyuyor. Sonuçlar, yüksek doğruluğun genellikle düşük entropi üretimi ile ilişkili olduğunu gösteriyor.
Uygulama ve Sonuçlar
SF ve SEP ölçütleri, büyük dil modellerinin değerlendirilmesi ve yanıltıcı cevapların (halüsinasyonların) kontrolü için birlikte veya ayrı ayrı kullanılabiliyor. Araştırmacılar, bu çerçeveyi şirketlerin SEC 10-K raporlarının özetlenmesi gibi gerçek dünya uygulamalarında test etti.
Güncel Gelişmelerden Haberdar Olun
En son teknoloji haberleri ve gelişmeler için @synvalo sosyal medya hesaplarını takip edebilirsiniz.
Kaynak: arxiv.org