DIVE ile Yapay Zeka Araç Kullanımında Çeşitlilik Ölçekleniyor
DIVE ile Yapay Zeka Araç Kullanımında Çeşitlilik Ölçekleniyor
DIVE yöntemiyle, yapay zeka modellerinin farklı görev ve araç setlerinde daha iyi genelleme yapabilmesi için çeşitlilik ölçekleniyor.
Önemli Noktalar
- DIVE, görev çeşitliliğini artırarak yapay zeka modellerinin genelleme yeteneğini güçlendiriyor.
- 373 farklı araç ve 5 alanda uygulanan DIVE, Qwen3-8B modelinde +22 puanlık ortalama iyileşme sağladı.
- Çeşitlilik ölçeklendirmesi, veri miktarını artırmaktan daha etkili sonuçlar veriyor.
DIVE Yönteminin Özeti
Yapay zeka alanında, özellikle LLM tabanlı araç kullanımında görev çeşitliliğini artırmak genelleme performansı açısından büyük önem taşıyor. DIVE, yeni bir yaklaşım olarak, önce gerçek dünyadaki çeşitli araçların kullanımını gerçekleştiriyor ve ardından bu izlerden görevleri tersine türetiyor. Bu sayede, oluşturulan görevler hem uygulanabilir hem de doğrulanabilir oluyor.
Teknik Detaylar
DIVE iki ana eksende çeşitlilik sağlıyor: araç havuzu kapsamı ve her görevdeki araç seti çeşitliliği. Ek olarak, Evidence Collection–Task Derivation döngüsüyle çok adımlı ve zengin araç kullanım kalıpları oluşturuluyor. Bu yöntemle, 373 farklı araç ve 5 farklı alanda görev üretildi.
Qwen3-8B modeli DIVE verisiyle (48 bin SFT ve 3,2 bin RL) eğitildiğinde, 9 OOD (beklenmedik görev) benchmarkında ortalama +22 puanlık gelişme gösterdi ve en iyi 8B taban modelini +68 puanla geride bıraktı.
Çeşitlilik Ölçeklendirmesinin Avantajı
Kontrol edilen ölçeklendirme analizleri, çeşitlilik ölçeklendirmesinin veri miktarını artırmaktan daha iyi sonuçlar verdiğini gösteriyor. Yani, 4 kat daha az veriyle bile genelleme performansı daha yüksek.
Yakın Gelecekte Neler Bekleniyor?
DIVE yönteminin, 2026 yılı içinde farklı yapay zeka modellerine entegre edilerek araç kullanımında genelleme yeteneğini daha da geliştirmesi bekleniyor.
Kaynak: arxiv.org