Jackpot: Büyük Dil Modelleri için Daha Verimli Pekiştirmeli Öğrenme Yöntemleri
Jackpot: Büyük Dil Modelleri için Daha Verimli Pekiştirmeli Öğrenme Yöntemleri
Jackpot, pekiştirmeli öğrenmede rollout ve politika optimizasyonunu ayırırken verimliliği artırmak için Optimal Budget Rejection Sampling yöntemini sunuyor.
Önemli Noktalar
- Jackpot, rollout modeli ile politika arasındaki farklılığı Optimal Budget Rejection Sampling (OBRS) ile azaltıyor.
- Yöntem, eğitim istikrarını önemli ölçüde artırarak on-policy RL’e yakın performans sunuyor.
- Qwen3-8B-Base modelinde yapılan deneylerde, 300 güncelleme adımında yüksek verimlilik elde edildi.
Jackpot Nedir?
Jackpot, büyük dil modelleri (LLM’ler) için pekiştirmeli öğrenme süreçlerinde ortaya çıkan maliyetleri azaltmayı hedefleyen yeni bir çerçevedir. Pekiştirmeli öğrenmede rollout üretimi oldukça masraflı olabilir. Jackpot, rollout üretimini politika optimizasyonundan ayırarak daha verimli bir eğitim süreci sunmayı amaçlıyor. Ancak bu ayrım, rollout modeli ile politika arasında ciddi bir dağılım farklılığı (distribution mismatch) yaratabiliyor ve bu da öğrenmeyi istikrarsızlaştırıyor.
Teknik Detaylar
Jackpot, Optimal Budget Rejection Sampling (OBRS) yöntemini kullanarak rollout modeli ile gelişen politika arasındaki tutarsızlığı doğrudan azaltıyor. OBRS, kabul edilebilir bir bütçe dahilinde rollout dağılımını hedef dağılıma yaklaştırıyor. Jackpot ayrıca, politika ve rollout modellerini birlikte güncelleyen birleşik bir eğitim hedefi ve toplu düzeyde bias düzeltmesi sağlayan verimli bir sistem uygulaması sunuyor.
Teorik analizler, OBRS’nin rollout dağılımını hedef dağılıma istikrarlı şekilde yaklaştırdığını gösteriyor. Yapılan deneylerde ise, Jackpot’un eğitim istikrarını önemlice artırdığı ve önem örnekleme (importance-sampling) tabanlı yöntemlere göre daha başarılı sonuçlar verdiği görüldü. Qwen3-8B-Base modelinde, 64’lük batch size ile 300 güncelleme adımı gerçekleştirildiğinde Jackpot, on-policy RL’e yakın bir performans sergiledi.
Gelecek Etkiler
Elde edilen sonuçlar, OBRS tabanlı hizalamanın, rollout üretimi ile politika optimizasyonunu pratik ve etkili şekilde ayırmaya bir adım daha yaklaştırdığını gösteriyor. Bu yaklaşım, yakın gelecekte büyük dil modellerinin daha verimli ve istikrarlı şekilde eğitilmesine olanak sağlayabilir.
Kaynak: arxiv.org