Veri Etiketlemede “Nihai Gerçek” Kavramının Yanılsaması ve Öznelik
Veri Etiketlemede “Nihai Gerçek” Yanılsamasının Kökleri ve Öznelik Üzerine Derinlemesine İnceleme
Son yıllarda yapılan kapsamlı bir inceleme, veri etiketleme süreçlerinde “nihai gerçek” anlayışının kültürel çeşitliliği nasıl göz ardı ettiğini ortaya koyuyor.
Önemli Noktalar
- 2020-2025 arasında yedi önde gelen akademik platformda yayımlanan 346 makale analiz edildi.
- İnsan görüş ayrılıkları, teknik gürültü değil; kültürel çeşitlilik için önemli bir sinyal olarak değerlendirildi.
- Batılı normlar, veri çalışanları üzerinde ekonomik baskılarla evrensel standartlara dönüştürülüyor.
Çalışmanın Arka Planı
Makine öğrenimi alanında “nihai gerçek” (ground truth), modellerin eğitimi ve değerlendirilmesi için doğru kabul edilen etiketleri ifade eder. Ancak bu kavram, insanlar arasındaki görüş ayrılıklarını teknik gürültü olarak görme eğiliminde olan bir pozitivist yanılgıya dayanıyor. Son dönemde, insan doğrulayıcıya dayalı mimari değişiklikler ve model aracılı etiketleme uygulamaları, insan sesini veri sürecinden uzaklaştırarak derin önyargılara yol açıyor.
Teknik Detaylar
2020-2025 yılları arasında ACL, AIES, CHI, CSCW, EAAMO, FAccT ve NeurIPS gibi yedi prestijli akademik platformda yayımlanan araştırmalar sistematik olarak incelendi. İlk aşamada 30.897 kayıt tespit edildi ve anahtar kelime filtrelemesiyle 3.042 kayıt manuel olarak değerlendirildi. Sonuçta, 346 makale nitel analiz için seçildi.
Tematik Bulgular
Analiz, konumlandırma şeffaflığındaki sistemik eksikliklerin ve insan-doğrulayıcıya dayalı mimari değişimlerin, model aracılı etiketlemede derin önyargı ve sabitleme etkisi yarattığını gösteriyor. Coğrafi hegemonya, Batılı normları evrensel standartlara dönüştürürken, veri çalışanları ekonomik cezadan kaçınmak için taleplere uyum sağlıyor ve öznel görüşlerini geri planda tutuyor.
Kültürel Çeşitlilik ve Model Gelişimi
Araştırmacılar, istatistiksel modellerin kültürel çoğulculuğu rastgele hata olarak görme eğilimini eleştiriyor. Görüş ayrılıklarının “yüksek doğrulukta sinyal” olarak değerlendirilmesi, kültürel olarak yetkin yapay zeka modellerinin inşasında kritik bir rol oynuyor.
Çözüm Önerileri
Çalışma, veri etiketleme altyapılarının çoğulcu bir yaklaşımla yeniden tasarlanması gerektiğini savunuyor. Amaç, tek bir “doğru” cevabı bulmak yerine, insan deneyiminin çeşitliliğini haritalamak olmalı. Bu yaklaşım, yapay zeka sistemlerinin kültürel hassasiyetini ve kapsayıcılığını artırabilir.
Kaynak: arxiv.org