Çoklu Araçlı İşbirlikçi Sürüşte Hibrit Diferansiyel Ödül Mekanizması ile Yapay Zeka Performansı Artıyor
Çoklu Araçlı İşbirlikçi Sürüşte Hibrit Diferansiyel Ödül Mekanizması ile Yapay Zeka Performansı Artıyor
Hibrit Diferansiyel Ödül mekanizması, çoklu araçlı işbirlikçi sürüşte yapay zeka algoritmalarının hız ve politika istikrarını artırıyor.
Önemli Noktalar
- HDR mekanizması, geleneksel ödül fonksiyonlarının yetersizliğini aşmak için geliştirildi.
- Temporal Difference ve Action Gradient ödülleri bir arada kullanılıyor.
- Deneyler, HDR’nin algoritma yakınsama hızını ve politika kalitesini belirgin şekilde artırdığını gösteriyor.
Teknik Detaylar
Çoklu araçlı işbirlikçi sürüşte, yüksek frekansta sürekli kontrol gerektiren görevlerde geleneksel ödül fonksiyonları zamanla etkisini kaybediyor. Bu durum, politika gradyanlarının düşük sinyal-gürültü oranına sahip olmasına ve algoritmanın yakınsamasının zayıflamasına yol açıyor.
Hibrit Diferansiyel Ödül (HDR) mekanizması, bu sorunu çözmek için iki tamamlayıcı bileşeni bir araya getiriyor:
- Temporal Difference Reward (TRD): Küresel potansiyel fonksiyona dayalı olarak, potansiyel enerjinin evrimsel trendini kullanıyor ve optimal politika tutarlılığını sağlıyor.
- Action Gradient Reward (ARG): Eylemlerin marjinal faydasını doğrudan ölçerek, yüksek sinyal-gürültü oranına sahip yerel bir rehberlik sunuyor.
HDR çerçevesi, işbirlikçi sürüş problemini Zamanla Değişen Ajan Setine sahip Çoklu Ajan Kısmi Gözlemlenebilir Markov Oyunu (POMDPG) olarak formüle ediyor. Bu yaklaşım, hem çevrimiçi planlama (MCTS) hem de çoklu ajan pekiştirmeli öğrenme (QMIX, MAPPO, MADDPG) algoritmaları ile kapsamlı şekilde test edildi.
Deney Sonuçları ve Etkiler
Yapılan deneyler, HDR mekanizmasının algoritma yakınsama hızını ve politika istikrarını önemli ölçüde iyileştirdiğini ortaya koyuyor. HDR sayesinde ajanlar, trafik verimliliği ile güvenlik arasındaki dengeyi kurabilen yüksek kaliteli işbirlikçi politikalar geliştirebiliyor.
Bu yenilikçi yaklaşım, çoklu araçlı işbirlikçi sürüşte yapay zeka tabanlı kontrol sistemlerinin performansını ileriye taşımayı hedefliyor.
Kaynak
NVIDIA Blog ve arXiv:2511.16916v1 üzerinden Synvalo tarafından yayınlanmıştır.
Kaynak: arxiv.org