Önce Düşün, Hızlı Yay: Otoregresif Plan Koşullandırması ile Difüzyon Dil Modeli Akıl Yürütmesini Geliştirmek

Diffusion Dil Modellerinde Akıl Yürütme Nasıl Geliştiriliyor? Diffusion Dil Modellerinde Akıl Yürütme Nasıl Geliştiriliyor? Diffusion dil modellerind...

Diffusion Dil Modellerinde Akıl Yürütme Nasıl Geliştiriliyor?

Diffusion Dil Modellerinde Akıl Yürütme Nasıl Geliştiriliyor?

Diffusion dil modellerinde plan bazlı koşullandırma ile çok adımlı akıl yürütme performansı belirgin şekilde artırıldı; istikrar ve doğruluk sağlandı.

Önemli Noktalar

  • Plan koşullandırma yöntemiyle LLaDA-8B-Instruct modelinin GSM8K doğruluğu %75.6’dan %87.2’ye çıktı.
  • Diffusion modelleri, aynı boyuttaki AR modellere kıyasla daha fazla fayda sağladı ve istikrar kazandı.
  • Plan koşullandırmanın maliyeti yaklaşık $0.002/problem olup, işlem süresine ~2 saniye ekleniyor.

Teknik Detaylar

Diffusion büyük dil modelleri (dLLM), metin üretiminde iteratif denoising yaklaşımını kullanıyor ancak çok adımlı akıl yürütmede genellikle geride kalıyor. Bu performans farkının, AR modellerin token bazlı tutarlılık oluştururken diffusion modellerin tüm pozisyonları aynı anda koordine etmek zorunda kalmasından kaynaklandığı öne sürülüyor.

Araştırmada, plan koşullandırma adlı eğitim gerektirmeyen bir yöntem önerildi. Bu yöntemde, AR modelden alınan kısa (~100 token) doğal dil bir plan diffusion modelinin prompt’una baştan ekleniyor. Bu plan, modelin tüm token pozisyonlarının ilk denoising adımından itibaren erişebileceği sabit bir bağlam sağlıyor.

GSM8K veri setinde, plan koşullandırma ile LLaDA-8B-Instruct modelinin doğruluğu %75.6’dan %87.2’ye yükseldi (+11.6 puan), böylece aynı boyuttaki AR model (LLaMA 3.1 8B, %87.7) ile eşleşti. HumanEval testinde ise artış +12.8 puan (%37.2’den %50.0’a) olarak gerçekleşti ve planların kod üretiminde de genelleştirilebildiği görüldü.

Aynı planlar AR modellere uygulandığında ise kazanım daha sınırlı kaldı (GSM8K’da +5.7 puan, HumanEval’da +1.3 puan). Bu sonuç, diffusion modellerin koordinasyon problemi nedeniyle planlardan 2-10 kat daha fazla fayda sağladığını gösteriyor.

Beş rastgele seed ile yapılan testlerde, plan koşullandırmalı GSM8K doğruluğu sıfır standart sapmaya sahip oldu ve diffusion modelinin çıkarımı son derece stabil hale geldi. Ablasyon çalışmaları, modelin plan stratejisini takip ettiğini (yanlış strateji planları -16.3 puan düşüşe neden oldu) ancak plan değerlerine karşı dayanıklı olduğunu ortaya koydu (bozulmuş sayılar: -1.1 puan). Plan kalitesinin ise kritik öneme sahip olduğu belirtildi; küçük Llama-class planlar performansı düşürürken, frontier planlar tam yükseliş sağladı.

Dikkat analizi, mekanizmayı doğruladı: Plan tokenları erken denoising aşamasında 1.8 kat fazla dikkat alırken, tamamlanma tokenları güçlendikçe dikkat dağılımı eşitleniyor. Plan koşullandırmanın maliyeti yaklaşık $0.002/problem olup, işlem süresine yaklaşık 2 saniye ekleniyor.

Sonuç ve Öngörüler

Plan koşullandırma yöntemiyle diffusion dil modellerinin çok adımlı akıl yürütme performansı önemli ölçüde artırıldı ve modelin tutarlılığı güçlendi. Yöntem, hem matematiksel hem kodlama alanlarında doğruluk ve istikrar sağladı. Yakın gelecekte diffusion tabanlı modellerin plan koşullandırma ile daha geniş uygulama alanlarında kullanılmasının beklendiği ifade ediliyor.

En güncel araştırmalar ve teknoloji haberleri için bizi sosyal medyada (@synvalo) takip edebilirsiniz.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top