PACED: Öğrenci Yeterliliğinde Sınırda Damıtma

LLM Distilasyonunda Verimlilik: PACED Yaklaşımıyla Öğrenci Yetkinliğinin Sınırında İyileştirme LLM Distilasyonunda Verimlilik: PACED Yaklaşımıyla Öğrenci Ye...

LLM Distilasyonunda Verimlilik: PACED Yaklaşımıyla Öğrenci Yetkinliğinin Sınırında İyileştirme

LLM Distilasyonunda Verimlilik: PACED Yaklaşımıyla Öğrenci Yetkinliğinin Sınırında İyileştirme

PACED çerçevesiyle, büyük dil modeli distilasyonunda hesaplama israfı azaltılarak öğrenci modelin yetkinliğinin sınırında daha etkili öğrenme sağlanıyor.

Önemli Noktalar

  • PACED, distilasyonu öğrenci modelin gelişim bölgesine odaklıyor.
  • Beta çekirdek ağırlığı $w(p) = p^\alpha(1 – p)^\beta$ ile teorik olarak kanıtlanmış bir verimlilik sunuyor.
  • İki aşamalı distilasyon yaklaşımı, standard akıl yürütme benchmarklarında önemli gelişmeler sağlıyor.

PACED Nedir?

PACED, büyük dil modeli (LLM) distilasyonunda hesaplama kaynaklarının verimsiz kullanımını azaltmak için geliştirilen yeni bir çerçevedir. Standart distilasyon süreçlerinde, öğrenci modelin zaten ustalaştığı veya henüz erişemediği problemler üzerinde yapılan işlemler, kaynak israfına yol açıyor. PACED, distilasyonu tam olarak öğrenci modelin yetkinliğinin sınırında, yani gelişim bölgesinde yoğunlaştırarak bu sorunu ortadan kaldırmayı hedefliyor.

Teknik Detaylar

PACED, distilasyon sırasında pass-rate’e (başarı oranı) dayalı olarak ağırlıklandırma yapıyor. Teorik olarak, distilasyonun iki uçta (çok yüksek ve çok düşük başarı oranlarında) sinyal-gürültü oranı kayboluyor. Bu gözlemden yola çıkarak, PACED çerçevesinde Beta çekirdek ağırlığı $w(p) = p^\alpha(1 – p)^\beta$ kullanılıyor. Bu ağırlık, distilasyonun en verimli olduğu gelişim bölgesine odaklanmayı sağlıyor ve minimax-robust bir performans sunuyor; yani en kötü durumda verim kaybı $O(\delta^2)$ ile sınırlı kalıyor.

Distilasyon ve Sonuçlar

PACED, büyük bir öğretmen modelden daha küçük bir öğrenci modele distilasyon yapılırken, ileri KL (Kullback-Leibler) yöntemiyle temel modele göre belirgin performans artışı sağlıyor ve unutma oranını düşük tutuyor. Talimatla ayarlanmış modellerde ters KL ile yapılan self-distilasyon deneylerinde de PACED, mevcut taban sonuçların üzerinde kazanımlar elde ediyor.

İki Aşamalı Sinerji

İleri KL ile başlayıp ardından ters KL uygulanan iki aşamalı distilasyon takvimi, standart akıl yürütme benchmarklarında en güçlü sonuçları veriyor. Bu yaklaşım, önce modelin kapsama alanını genişletip ardından yetkinliğini sağlamlaştırma şeklinde distilasyon sürecini yorumlamayı destekliyor.

Uyumluluk ve Kolaylık

PACED’in tüm konfigürasyonları, pass-rate tahmini için yalnızca öğrenci modelden rollout gerektiriyor; mimari değişikliğe ihtiyaç duymuyor ve her türlü KL yönüyle uyumlu çalışıyor. Bu sayede, mevcut distilasyon süreçlerine kolayca entegre edilebiliyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top