Biçim İşlevi Takip Eder: Yinelemeli Gövde Modeli

Recursive Stem Model ile Derin Öğrenmede Hız ve Doğrulukta Sıçrama

Recursive Stem Model, geleneksel yöntemlere kıyasla hem eğitim hızını hem de doğruluğu artırarak, karmaşık problemleri çözmede yeni bir yaklaşım sunuyor.

Önemli Noktalar

Recursive Stem Model (RSM), eğitim süresini 20 kat kısaltırken hata oranını 5 kat azaltıyor.
RSM, Sudoku-Extreme’de %97,5 doğruluk ve Maze-Hard’da %80 başarıya ulaştı.
Modelin kendi içinde güvenilirlik sinyali üretmesi, yanlış cevap riskini azaltıyor.

Recursive Stem Model Nedir?

Recursive Stem Model (RSM), küçük ve ağırlık paylaşan sinir ağlarının, karmaşık ve hesaplama açısından yoğun problemleri çözme kabiliyetini yeni bir eğitim yaklaşımıyla geliştiriyor. Önceki modellerde, derin gözetim ve uzun iterasyonlar yüksek hesaplama maliyetine ve modelin ara sonuçlara saplanmasına yol açarken, RSM bu sorunları aşmak üzere tasarlandı.

Teknik Detaylar

RSM, geleneksel Tiny Recursive Model (TRM) omurgasını korurken, eğitim sırasında gizli durum geçmişini tamamen ayrıştırıyor ve ilk iterasyonları “ısınma” adımları olarak ele alıyor. Kayıp fonksiyonu yalnızca son adımda uygulanıyor. Modelin dış döngü derinliği ($H$) ve iç hesaplama derinliği ($L$) birbirinden bağımsız olarak artırılabiliyor; ayrıca, dış döngüde stokastik geçişler kullanılarak derinlik büyüdükçe oluşabilecek kararsızlıklar azaltılıyor.

Bu yenilikçi yaklaşım sayesinde RSM, TRM’ye kıyasla 20 kat daha hızlı eğitilebiliyor ve yaklaşık 5 kat daha düşük hata oranı sunuyor. Test aşamasında ise, model herhangi bir yeniden eğitim gerektirmeden çok daha fazla iyileştirme adımıyla çalışabiliyor (örneğin, testte 20.000 adım, eğitimde sadece 20 adım).

Performans Sonuçları

Sudoku-Extreme testlerinde %97,5 tam doğruluk, tek bir A100 GPU ile yaklaşık 1 saatlik eğitimde elde edildi.
Maze-Hard (30×30) bulmacasında ise yaklaşık 40 dakikada %80 doğruluk sağlandı (dikkat mekanizması kullanılarak).

Güvenilirlik ve Pratik Kullanım

RSM, iteratif olarak çözüme yaklaşırken, modelin kararlı bir noktaya ulaşıp ulaşmadığını kendi içinde gösterebiliyor. Kararsız kalan sonuçlar, modelin güvenilir bir çözüme ulaşmadığını belirterek “halüsinasyon” riskine karşı doğal bir koruma sağlıyor. Kararlı çözümler ise alan doğrulayıcılarıyla birlikte pratikte güvenle kullanılabiliyor.

Özet

Recursive Stem Model, derin öğrenmede hem hız hem de doğruluk açısından önemli bir sıçrama vadediyor. Özellikle karmaşık bulmaca ve mantık problemlerinde, daha az kaynakla daha güvenilir sonuçlar elde etmek isteyen araştırmacılar için dikkat çekici bir seçenek olarak öne çıkıyor.

Kaynak: arxiv.org

Post Views: 156

Biçim İşlevi Takip Eder: Yinelemeli Gövde Modeli

Recursive Stem Model ile Derin Öğrenmede Hız ve Doğrulukta Sıçrama Recursive Stem Model ile Derin Öğrenmede Hız ve Doğrulukta Sıçrama Recursive Stem...

Önemli Noktalar

Recursive Stem Model Nedir?

Teknik Detaylar

Performans Sonuçları

Güvenilirlik ve Pratik Kullanım

Özet

Leave a Reply Cancel reply

Önemli Noktalar

Recursive Stem Model Nedir?

Teknik Detaylar

Performans Sonuçları

Güvenilirlik ve Pratik Kullanım

Özet

Related Stories

ChatGPT, İntihar Etmeden Önce Bir Adamı Arkadaşlarından ve Ailesinden Uzaklaşmaya Teşvik Etti

Perakendeciler, yapay zekâ destekli perakende için seçenekleri inceliyor

Kampanya grupları Palantir’e karşı çıkıyor, ancak Birleşik Krallık sözleşmeleri gelmeye devam ediyor

Leave a Reply Cancel reply