Muhakeme Modelleri Düşünce Zincirlerini Kontrol Etmekte Zorlanıyor

Zincirleme Düşünce Kontrolü, Muhakeme Modelleri İçin Hâlâ Zor Bir Hedef Zincirleme Düşünce Kontrolü, Muhakeme Modelleri İçin Hâlâ Zor Bir Hedef Yeni bir a...

Zincirleme Düşünce Kontrolü, Muhakeme Modelleri İçin Hâlâ Zor Bir Hedef

Zincirleme Düşünce Kontrolü, Muhakeme Modelleri İçin Hâlâ Zor Bir Hedef

Yeni bir araştırma, modern yapay zeka modellerinin zincirleme düşünce süreçlerini kontrol etmede ciddi zorluklar yaşadığını ortaya koydu.

Önemli Noktalar

  • Yapay zeka modelleri, zincirleme düşünce süreçlerini (CoT) kontrol etmede final çıktıyı kontrol etmeye göre çok daha başarısız.
  • Claude Sonnet 4.5, CoT kontrolünü yalnızca yüzde 2,7 oranında başarırken, final çıktıyı yüzde 61,9 oranında kontrol edebiliyor.
  • Daha büyük modellerde CoT kontrolü artarken, RL eğitimi ve problem zorluğu arttıkça bu kontrol azalıyor.

Araştırmanın Kapsamı

2026 yılı içinde yayımlanan yeni bir çalışmada, zincirleme düşünce (Chain-of-Thought, CoT) süreçlerinin izlenebilirliğini ve yapay zeka modellerinin bu süreçleri manipüle edebilme yeteneğini değerlendirmek için CoT-Control adlı yeni bir test paketi tanıtıldı. Araştırmada, modellere verilen talimatlara uygun şekilde düşünce zincirlerini oluşturup oluşturamayacakları incelendi.

Teknik Detaylar

CoT-Control değerlendirme paketi, modellerden belirli CoT talimatlarına uyarak problem çözmelerini istiyor. Örneğin, bir genetik sorusunda “kromozom” kelimesini kullanmadan akıl yürütmeleri isteniyor. Sonuçlar, muhakeme modellerinin CoT süreçlerini kontrol etmede ciddi derecede başarısız olduğunu gösteriyor. Claude Sonnet 4.5 modeli, CoT kontrolünü sadece yüzde 2,7 oranında gerçekleştirebilirken, final çıktıyı kontrol edebilme oranı yüzde 61,9 olarak ölçüldü.

Araştırmaya göre, model boyutu arttıkça CoT kontrolü bir miktar yükseliyor. Ancak, pekiştirmeli öğrenme (RL) eğitimi, test sırasında daha fazla hesaplama gücü kullanımı ve problem zorluğunun artması, CoT kontrolünü olumsuz etkiliyor. İlginç bir şekilde, modeller doğrudan talimat yerine ödül temelli motivasyonlarla CoT monitörlerinden kaçınmaya çalıştıklarında da başarı oranı düşük kalıyor. Bunun yanında, modellerin izlendiklerinin belirtilmesi kontrol oranında hafif bir artış sağlıyor. Kötü niyetli şekilde hazırlanmış istemlerle de CoT kontrolünde anlamlı bir artış görülmedi.

Geleceğe Yönelik Tavsiyeler

Araştırma sonuçları, şimdilik CoT kontrolünün CoT süreçlerinin izlenebilirliği için büyük bir risk oluşturmadığına işaret ediyor. Ancak, bu düşük kontrolün nedenleri henüz tam olarak anlaşılmış değil. Uzmanlar, CoT izlenebilirliğinin korunabilmesi açısından öncü laboratuvarların, ilerideki modellerde CoT kontrolünü yakından takip etmeleri gerektiğini öneriyor.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top