HEAL: Akıl Yürütme Damıtımı için Hindsight Entropy-Assisted Learning

HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım...

HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım

HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım

HEAL, büyük muhakeme modellerinden küçük modellere bilgi aktarımındaki sınırlamaları aşmak için RL içermeyen yenilikçi bir çerçeve sunuyor.

Önemli Noktalar

  • HEAL, geleneksel distilasyon yöntemlerindeki “Teacher Ceiling” sorununu hedefliyor.
  • Üç modüllü yapı: GEAR, PURE ve PACE ile eğitim sürecini optimize ediyor.
  • Çeşitli kıyaslamalarda mevcut yöntemlere göre üstün performans gösteriyor.

HEAL Nedir?

Hindsight Entropy-Assisted Learning (HEAL), büyük muhakeme modellerinden (Large Reasoning Models – LRMs) daha küçük modellere muhakeme yeteneklerini aktarmada karşılaşılan zorlukları aşmak amacıyla geliştirilen, takviyeli öğrenme (RL) gerektirmeyen bir çerçevedir. HEAL, geleneksel yöntemlerde karşılaşılan ve öğretici modelin (teacher) karmaşık durumlarda yetersiz kalmasıyla ortaya çıkan “Teacher Ceiling” sorununu ortadan kaldırmayı hedefler.

Teknik Detaylar

Çekirdek Modüller

  • Guided Entropy-Assisted Repair (GEAR): Entropi dinamiklerini kullanarak kritik muhakeme hatalarını tespit eder ve hedefli ipuçlarıyla hatalı akışları düzeltir.
  • Perplexity-Uncertainty Ratio Estimator (PURE): Gerçek bilişsel ilerlemeleri yanlış kestirmelerden ayıran sıkı bir filtreleme protokolü sunar.
  • Progressive Answer-guided Curriculum Evolution (PACE): Eğitimi temel uyumdan ileri düzey sıçramalara kadar üç aşamada düzenleyen bir distilasyon stratejisidir.

Eğitim Yaklaşımı

HEAL, eğitim teorisindeki Yakınsak Gelişim Alanı (Zone of Proximal Development – ZPD) prensiplerinden ilham alıyor. Bu sayede modelin kapasitesini aşmadan, adım adım daha karmaşık muhakeme görevlerine adapte olmasını sağlıyor.

Deneysel Sonuçlar

HEAL yöntemiyle yürütülen kapsamlı deneyler, farklı kıyaslama veri setlerinde geleneksel SFT distilasyonu ve diğer temel yöntemlere göre anlamlı performans artışları sağlandığını gösteriyor. Bu sonuçlar, HEAL’in küçük modellerde muhakeme transferi için etkili bir çözüm sunduğunu kanıtlıyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top