Recursive Stem Model ile Derin Öğrenmede Hız ve Doğrulukta Sıçrama
Recursive Stem Model ile Derin Öğrenmede Hız ve Doğrulukta Sıçrama
Recursive Stem Model, geleneksel yöntemlere kıyasla hem eğitim hızını hem de doğruluğu artırarak, karmaşık problemleri çözmede yeni bir yaklaşım sunuyor.
Önemli Noktalar
- Recursive Stem Model (RSM), eğitim süresini 20 kat kısaltırken hata oranını 5 kat azaltıyor.
- RSM, Sudoku-Extreme’de %97,5 doğruluk ve Maze-Hard’da %80 başarıya ulaştı.
- Modelin kendi içinde güvenilirlik sinyali üretmesi, yanlış cevap riskini azaltıyor.
Recursive Stem Model Nedir?
Recursive Stem Model (RSM), küçük ve ağırlık paylaşan sinir ağlarının, karmaşık ve hesaplama açısından yoğun problemleri çözme kabiliyetini yeni bir eğitim yaklaşımıyla geliştiriyor. Önceki modellerde, derin gözetim ve uzun iterasyonlar yüksek hesaplama maliyetine ve modelin ara sonuçlara saplanmasına yol açarken, RSM bu sorunları aşmak üzere tasarlandı.
Teknik Detaylar
RSM, geleneksel Tiny Recursive Model (TRM) omurgasını korurken, eğitim sırasında gizli durum geçmişini tamamen ayrıştırıyor ve ilk iterasyonları “ısınma” adımları olarak ele alıyor. Kayıp fonksiyonu yalnızca son adımda uygulanıyor. Modelin dış döngü derinliği ($H$) ve iç hesaplama derinliği ($L$) birbirinden bağımsız olarak artırılabiliyor; ayrıca, dış döngüde stokastik geçişler kullanılarak derinlik büyüdükçe oluşabilecek kararsızlıklar azaltılıyor.
Bu yenilikçi yaklaşım sayesinde RSM, TRM’ye kıyasla 20 kat daha hızlı eğitilebiliyor ve yaklaşık 5 kat daha düşük hata oranı sunuyor. Test aşamasında ise, model herhangi bir yeniden eğitim gerektirmeden çok daha fazla iyileştirme adımıyla çalışabiliyor (örneğin, testte 20.000 adım, eğitimde sadece 20 adım).
Performans Sonuçları
- Sudoku-Extreme testlerinde %97,5 tam doğruluk, tek bir A100 GPU ile yaklaşık 1 saatlik eğitimde elde edildi.
- Maze-Hard (30×30) bulmacasında ise yaklaşık 40 dakikada %80 doğruluk sağlandı (dikkat mekanizması kullanılarak).
Güvenilirlik ve Pratik Kullanım
RSM, iteratif olarak çözüme yaklaşırken, modelin kararlı bir noktaya ulaşıp ulaşmadığını kendi içinde gösterebiliyor. Kararsız kalan sonuçlar, modelin güvenilir bir çözüme ulaşmadığını belirterek “halüsinasyon” riskine karşı doğal bir koruma sağlıyor. Kararlı çözümler ise alan doğrulayıcılarıyla birlikte pratikte güvenle kullanılabiliyor.
Özet
Recursive Stem Model, derin öğrenmede hem hız hem de doğruluk açısından önemli bir sıçrama vadediyor. Özellikle karmaşık bulmaca ve mantık problemlerinde, daha az kaynakla daha güvenilir sonuçlar elde etmek isteyen araştırmacılar için dikkat çekici bir seçenek olarak öne çıkıyor.
Kaynak: arxiv.org