Ticari İçerik Moderasyon API'larının Denetimi: Grup Hedefli Nefret Söyleminin Aşırı ve Yetersiz Moderasyonu

İçindekiler

5M+

Analiz Edilen Sorgu

5

Denetlenen API

4

Kullanılan Veri Kümesi

1 Giriş

Ticari içerik moderasyon API'ları, çevrimiçi nefret söylemiyle mücadelede ölçeklenebilir çözümler olarak pazarlanmaktadır, ancak hem meşru konuşmaları susturma (aşırı moderasyon) hem de kullanıcıları zararlı içerikten koruyamama (yetersiz moderasyon) riski taşımaktadırlar. Bu makale, içerik moderasyonunda kullanılan kara kutu NLP sistemlerini denetlemek için kapsamlı bir çerçeve sunmaktadır.

2 Metodoloji

2.1 Denetim Çerçevesi

Kara kutu denetim çerçevemiz, ticari içerik moderasyon API'larını performans değerlendirmesi, SHAP açıklanabilirlik analizi ve pertürbasyon analizi gibi çoklu yaklaşımlarla değerlendirir. Çerçeve, dört veri kümesi üzerinden beş milyon sorguyu analiz ederek önyargı kalıplarını sistematik olarak değerlendirir.

2.2 Veri Kümeleri

Çalışma, genel nefret söylemi için HateXplain, uzun metinler için Civil Comments, örtülü nefret söylemi için ToxiGen ve stereotipler ile örtülü önyargı için SBIC olmak üzere dört farklı veri kümesi kullanmaktadır. Bu çeşitlilik, farklı nefret söylemi tezahürleri üzerinden kapsamlı değerlendirme sağlar.

2.3 Değerlendirilen API'lar

Beş ticari API değerlendirilmiştir: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API ve Amazon Comprehend. Bunlar, ticari içerik moderasyon pazarındaki başlıca sağlayıcıları temsil etmektedir.

3 Teknik Çerçeve

3.1 SHAP Analizi

SHAP (SHapley Additive exPlanations) değerleri, makine öğrenimi modellerinin çıktılarını açıklamak için kullanılır. $i$ özelliği için SHAP değeri şu şekilde hesaplanır:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

Burada $N$ tüm özelliklerin kümesi, $S$ bir özellik alt kümesi ve $f$ model tahmin fonksiyonudur.

3.2 Pertürbasyon Analizi

Karşıtolgusal token adalet puanları, girdi metnini sistematik olarak değiştirerek ve moderasyon kararlarındaki değişiklikleri ölçerek hesaplanır. Bu, hangi token'ların moderasyon sonuçlarını orantısız şekilde etkilediğini belirlemeye yardımcı olur.

4 Sonuçlar

4.1 Performans Metrikleri

Çalışma, API performanslarında önemli varyasyonlar bulmuştur. OpenAI ve Amazon sırasıyla 0.83 ve 0.81 F1 puanlarıyla biraz daha iyi performans gösterirken, diğer API'lar daha düşük performans göstermiştir (Microsoft: 0.74, Perspective: 0.62, Google: 0.59).

4.2 Önyargı Kalıpları

Tüm API'lar sistematik önyargılar sergilemiştir: karşıt konuşmaların, geri kazanılmış hakaretlerin ve Siyahi, LGBTQIA+, Yahudi ve Müslüman insanlardan bahseden içeriklerin aşırı moderasyonu. Aynı zamanda, özellikle LGBTQIA+ bireylere yönelik örtülü nefret söylemini yetersiz moderasyona tabi tutmuşlardır.

Temel Görüşler

API'lar nefret söylemini tahmin etmek için sıklıkla grup kimliği terimlerine (örneğin, "siyahi") güvenmektedir
Kodlanmış mesajlar kullanan örtülü nefret söylemi tutarlı olarak yetersiz moderasyona tabi tutulmaktadır
Karşıt konuşmalar ve geri kazanılmış hakaretler sistematik olarak aşırı moderasyona tabi tutulmaktadır
Performans farklı demografik gruplar arasında önemli ölçüde değişiklik göstermektedir

5 Kod Uygulaması

Aşağıda denetim çerçevesinin basitleştirilmiş bir Python uygulaması bulunmaktadır:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """İçerik moderasyon API'sını sorgula"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Korunan gruplar arasında önyargı metriklerini hesapla"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Örnek kullanım
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Gelecek Uygulamalar

Bulguların, gelecekteki içerik moderasyon sistemleri için önemli etkileri vardır. Gelecek araştırmalar, zararlı nefret söylemi ile kimliğin meşru tartışmaları arasında ayrım yapabilen daha nüanslı modeller geliştirmeye odaklanmalıdır. CycleGAN makalesinde (Zhu ve diğerleri, 2017) belirtildiği gibi, alan uyarlama teknikleri farklı demografik gruplar arasındaki dağılım kaymalarını ele almaya yardımcı olabilir. Ek olarak, Perspective API ekibinin yaklaşımını (Lees ve diğerleri, 2022) takip ederek, gelecekteki sistemler topluma özgü normları ve bağlamdan haberdar işlemeyi içermelidir.

Yeni ortaya çıkan yönelimler şunları içermektedir:

Metin, görüntü ve bağlam analizini birleştiren çok modlu içerik moderasyonu
Model performansını iyileştirirken gizliliği koruyan federatif öğrenme yaklaşımları
Şeffaf moderasyon kararları sağlayan açıklanabilir AI teknikleri
Küresel platformlar için moderasyon sistemlerinin kültürler arası uyarlanması

Orijinal Analiz: Otomatik İçerik Moderasyonunun Çift Ağızlı Kılıcı

Bu araştırma, ticari içerik moderasyon API'larının operasyonel gerçeklikleri hakkında kritik içgörüler sağlamakta ve savunmasız toplulukları orantısız şekilde etkileyen rahatsız edici bir sistematik önyargı kalıbını ortaya koymaktadır. API'ların nefret söylemini tahmin etmek için sıklıkla "siyahi" gibi grup kimliği terimlerine güvendiği bulgusu, Sap ve diğerleri (2019) tarafından duygu analizi araçlarında bulunan ırksal önyargı gibi diğer NLP sistemlerinde tanımlanan benzer sorunları yankılamaktadır. Bu çalışmayı özellikle önemli kılan şey, ölçeği—birden fazla veri kümesi üzerinden beş milyon sorguyu analiz etmesi—ve performans metriklerini açıklanabilirlik teknikleriyle birleştiren kapsamlı çerçevesidir.

SHAP değerleri ve pertürbasyon analizi kullanan teknik yaklaşım, kara kutu sistemleri denetlemek için sofistike bir metodoloji temsil etmektedir. Bu, sağlık hizmetleri teşhisi (Topol, 2019) gibi diğer yüksek riskli AI uygulamalarındaki gerekliliklere benzer şekilde, algoritmik şeffaflık için artan çağrılarla uyumludur. LGBTQIA+ bireylere yönelik örtülü nefret söyleminin sistematik yetersiz moderasyonu özellikle endişe vericidir, çünkü mevcut sistemlerin açık hakaretlere dayanmayan sofistike ayrımcılık biçimlerini tanıyamadığını göstermektedir.

Önceki araştırmalarda denetlenen açık kaynak modellerle (Röttger ve diğerleri, 2021) karşılaştırıldığında, ticari API'lar benzer önyargı kalıpları göstermekte ancak yaygın dağıtımları nedeniyle potansiyel olarak daha büyük gerçek dünya etkisine sahip olmaktadır. Eşik değeri ayarlama konusunda daha iyi rehberlik önerisi özellikle önemlidir, çünkü eşik optimizasyonu hem aşırı hem de yetersiz moderasyonu azaltmak için kilit bir müdahale noktası temsil etmektedir. Gelecek çalışmalar, Adalet ve Makine Öğrenimi literatüründe (Barocas ve diğerleri, 2019) tartışılan yaklaşımlara benzer şekilde, bağlamı ve toplum normlarını dikkate alan uyarlanabilir eşik değerlerini araştırmalıdır.

İngilizce dilindeki içeriğe ve belirli demografik gruplara odaklanması da dahil olmak üzere çalışmanın sınırlamaları, gelecek araştırmalar için önemli yönlere işaret etmektedir. Platformlar giderek küreselleştikçe, diller ve kültürel bağlamlar arasında çalışan moderasyon sistemleri geliştirmek temel önem taşıyacaktır. Bu makalede oluşturulan çerçeve, bu tür kültürler arası denetimler için değerli bir temel sağlamaktadır.

7 Referanslar

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.