GT-HarmBench: Oyun Teorisiyle Yapay Zekâ Güvenlik Risklerini Ölçme

GT-HarmBench: Çoklu Yapay Zeka Ortamlarında Güvenlik Riskleri Oyun Teorisiyle Test Ediliyor GT-HarmBench ile Çoklu Yapay Zeka Sistemlerinde Güvenlik Risk...

GT-HarmBench: Çoklu Yapay Zeka Ortamlarında Güvenlik Riskleri Oyun Teorisiyle Test Ediliyor

GT-HarmBench ile Çoklu Yapay Zeka Sistemlerinde Güvenlik Risklerine Oyun Teorisi Yaklaşımı

GT-HarmBench, çoklu yapay zeka ortamlarında güvenlik ve uyum risklerini oyun teorisiyle analiz eden yeni bir standart benchmark sunuyor.

Önemli Noktalar

  • GT-HarmBench, 2.009 yüksek riskli senaryoda çoklu yapay zeka (AI) sistemlerinin davranışlarını test ediyor.
  • 15 öncü modelde ajanlar, sosyal açıdan faydalı kararları yalnızca %62 oranında seçiyor.
  • Oyun teorisi müdahaleleriyle olumlu sonuçlarda %18’e kadar iyileşme sağlanabiliyor.

Benchmarkın Amacı ve Kapsamı

GT-HarmBench, 2026 yılı içinde tanıtılan yeni bir benchmark olarak, çoklu yapay zeka sistemlerinin güvenlik risklerini oyun teorisi perspektifinden değerlendirmeyi hedefliyor. Mevcut güvenlik testleri çoğunlukla tek ajanlı ortamlara odaklanırken, GT-HarmBench çoklu ajanların koordinasyon eksikliği ve çatışma gibi risklerini sistematik olarak analiz ediyor.

Teknik Detaylar

Benchmark, MIT AI Risk Repository’den alınan gerçekçi risk senaryolarını içeriyor ve toplamda 2.009 oyun teorisi tabanlı durumdan oluşuyor. Bu senaryolar arasında Prisoner’s Dilemma, Stag Hunt ve Chicken gibi klasik oyunlar yer alıyor. 15 farklı frontier AI modeli üzerinde yapılan testlerde, ajanların sosyal açıdan faydalı eylemleri seçme oranı %62 olarak ölçüldü. Yanlış kararlar, çoğunlukla zararlı sonuçlara yol açıyor.

Analiz ve Sonuçlar

Araştırmacılar, oyun teorisi temelli prompt çerçevesi ve sıralama hassasiyetini ölçerken, başarısızlıkların arkasındaki muhakeme kalıplarını da inceledi. Oyun teorisi tabanlı müdahalelerin sosyal fayda sağlayan sonuçları %18’e kadar artırabildiği gözlendi. Bu bulgular, çoklu ajanlı ortamlarda yapay zeka uyumu ve güvenilirliği konusunda önemli boşluklar olduğunu ortaya koyuyor.

GT-HarmBench’e Genel Bakış

GT-HarmBench, çoklu yapay zeka ortamlarında güvenlik risklerinin standartlaştırılmış bir şekilde değerlendirilmesi için geniş kapsamlı bir test ortamı sunuyor. Benchmark ve kodlarına buradan ulaşılabilir.

Kaynak: arxiv.org

Leave a Reply

Your email address will not be published. Required fields are marked *

Leave a comment
scroll to top