HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım
HEAL Yöntemi: Küçük Modellerde Muhakeme Yeteneği Aktarımı İçin Yeni Yaklaşım
HEAL, büyük muhakeme modellerinden küçük modellere bilgi aktarımındaki sınırlamaları aşmak için RL içermeyen yenilikçi bir çerçeve sunuyor.
Önemli Noktalar
- HEAL, geleneksel distilasyon yöntemlerindeki “Teacher Ceiling” sorununu hedefliyor.
- Üç modüllü yapı: GEAR, PURE ve PACE ile eğitim sürecini optimize ediyor.
- Çeşitli kıyaslamalarda mevcut yöntemlere göre üstün performans gösteriyor.
HEAL Nedir?
Hindsight Entropy-Assisted Learning (HEAL), büyük muhakeme modellerinden (Large Reasoning Models – LRMs) daha küçük modellere muhakeme yeteneklerini aktarmada karşılaşılan zorlukları aşmak amacıyla geliştirilen, takviyeli öğrenme (RL) gerektirmeyen bir çerçevedir. HEAL, geleneksel yöntemlerde karşılaşılan ve öğretici modelin (teacher) karmaşık durumlarda yetersiz kalmasıyla ortaya çıkan “Teacher Ceiling” sorununu ortadan kaldırmayı hedefler.
Teknik Detaylar
Çekirdek Modüller
- Guided Entropy-Assisted Repair (GEAR): Entropi dinamiklerini kullanarak kritik muhakeme hatalarını tespit eder ve hedefli ipuçlarıyla hatalı akışları düzeltir.
- Perplexity-Uncertainty Ratio Estimator (PURE): Gerçek bilişsel ilerlemeleri yanlış kestirmelerden ayıran sıkı bir filtreleme protokolü sunar.
- Progressive Answer-guided Curriculum Evolution (PACE): Eğitimi temel uyumdan ileri düzey sıçramalara kadar üç aşamada düzenleyen bir distilasyon stratejisidir.
Eğitim Yaklaşımı
HEAL, eğitim teorisindeki Yakınsak Gelişim Alanı (Zone of Proximal Development – ZPD) prensiplerinden ilham alıyor. Bu sayede modelin kapasitesini aşmadan, adım adım daha karmaşık muhakeme görevlerine adapte olmasını sağlıyor.
Deneysel Sonuçlar
HEAL yöntemiyle yürütülen kapsamlı deneyler, farklı kıyaslama veri setlerinde geleneksel SFT distilasyonu ve diğer temel yöntemlere göre anlamlı performans artışları sağlandığını gösteriyor. Bu sonuçlar, HEAL’in küçük modellerde muhakeme transferi için etkili bir çözüm sunduğunu kanıtlıyor.
Kaynak: arxiv.org