GT-HarmBench: Çoklu Yapay Zeka Ortamlarında Güvenlik Riskleri Oyun Teorisiyle Test Ediliyor
GT-HarmBench ile Çoklu Yapay Zeka Sistemlerinde Güvenlik Risklerine Oyun Teorisi Yaklaşımı
GT-HarmBench, çoklu yapay zeka ortamlarında güvenlik ve uyum risklerini oyun teorisiyle analiz eden yeni bir standart benchmark sunuyor.
Önemli Noktalar
- GT-HarmBench, 2.009 yüksek riskli senaryoda çoklu yapay zeka (AI) sistemlerinin davranışlarını test ediyor.
- 15 öncü modelde ajanlar, sosyal açıdan faydalı kararları yalnızca %62 oranında seçiyor.
- Oyun teorisi müdahaleleriyle olumlu sonuçlarda %18’e kadar iyileşme sağlanabiliyor.
Benchmarkın Amacı ve Kapsamı
GT-HarmBench, 2026 yılı içinde tanıtılan yeni bir benchmark olarak, çoklu yapay zeka sistemlerinin güvenlik risklerini oyun teorisi perspektifinden değerlendirmeyi hedefliyor. Mevcut güvenlik testleri çoğunlukla tek ajanlı ortamlara odaklanırken, GT-HarmBench çoklu ajanların koordinasyon eksikliği ve çatışma gibi risklerini sistematik olarak analiz ediyor.
Teknik Detaylar
Benchmark, MIT AI Risk Repository’den alınan gerçekçi risk senaryolarını içeriyor ve toplamda 2.009 oyun teorisi tabanlı durumdan oluşuyor. Bu senaryolar arasında Prisoner’s Dilemma, Stag Hunt ve Chicken gibi klasik oyunlar yer alıyor. 15 farklı frontier AI modeli üzerinde yapılan testlerde, ajanların sosyal açıdan faydalı eylemleri seçme oranı %62 olarak ölçüldü. Yanlış kararlar, çoğunlukla zararlı sonuçlara yol açıyor.
Analiz ve Sonuçlar
Araştırmacılar, oyun teorisi temelli prompt çerçevesi ve sıralama hassasiyetini ölçerken, başarısızlıkların arkasındaki muhakeme kalıplarını da inceledi. Oyun teorisi tabanlı müdahalelerin sosyal fayda sağlayan sonuçları %18’e kadar artırabildiği gözlendi. Bu bulgular, çoklu ajanlı ortamlarda yapay zeka uyumu ve güvenilirliği konusunda önemli boşluklar olduğunu ortaya koyuyor.
GT-HarmBench’e Genel Bakış
GT-HarmBench, çoklu yapay zeka ortamlarında güvenlik risklerinin standartlaştırılmış bir şekilde değerlendirilmesi için geniş kapsamlı bir test ortamı sunuyor. Benchmark ve kodlarına buradan ulaşılabilir.
Kaynak: arxiv.org