Audit kommerzieller Content-Moderation-APIs: Über- und Untermoderation von gruppenbezogener Hassrede

Inhaltsverzeichnis

5M+

Analysierte Anfragen

5

Auditierte APIs

4

Verwendete Datensätze

1 Einleitung

Kommerzielle Content-Moderation-APIs werden als skalierbare Lösungen zur Bekämpfung von Online-Hassrede vermarktet, bergen jedoch das Risiko, sowohl legitime Äußerungen zu unterdrücken (Übermoderation) als auch Nutzer nicht vor schädlichen Inhalten zu schützen (Untermoderation). Dieses Papier stellt ein umfassendes Framework zur Überprüfung von Blackbox-NLP-Systemen in der Content-Moderation vor.

2 Methodik

2.1 Audit-Framework

Unser Blackbox-Audit-Framework evaluiert kommerzielle Content-Moderation-APIs durch mehrere Ansätze: Leistungsbewertung, SHAP-Erklärbarkeitsanalyse und Perturbationsanalyse. Das Framework analysiert fünf Millionen Anfragen über vier Datensätze hinweg, um Verzerrungsmuster systematisch zu bewerten.

2.2 Datensätze

Die Studie nutzt vier verschiedene Datensätze: HateXplain für allgemeine Hassrede, Civil Comments für längere Texte, ToxiGen für implizite Hassrede und SBIC für Stereotype und implizite Verzerrungen. Diese Vielfalt gewährleistet eine umfassende Bewertung über verschiedene Erscheinungsformen von Hassrede hinweg.

2.3 Evaluierte APIs

Fünf kommerzielle APIs wurden evaluiert: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API und Amazon Comprehend. Diese repräsentieren die wichtigsten Anbieter auf dem Markt für kommerzielle Content-Moderation.

3 Technisches Framework

3.1 SHAP-Analyse

SHAP-Werte (SHapley Additive exPlanations) werden verwendet, um die Ausgabe von Machine-Learning-Modellen zu erklären. Der SHAP-Wert für das Merkmal $i$ wird berechnet als:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

wobei $N$ die Menge aller Merkmale ist, $S$ eine Teilmenge von Merkmalen und $f$ die Modellvorhersagefunktion.

3.2 Perturbationsanalyse

Counterfactual Token Fairness Scores werden durch systematische Perturbation von Eingabetexten und Messung von Änderungen in Moderationsentscheidungen berechnet. Dies hilft zu identifizieren, welche Tokens Moderationsergebnisse unverhältnismäßig beeinflussen.

4 Ergebnisse

4.1 Leistungskennzahlen

Die Studie fand signifikante Unterschiede in der API-Leistung. OpenAI und Amazon schnitten mit F1-Scores von 0,83 bzw. 0,81 etwas besser ab, während andere APIs geringere Leistung zeigten (Microsoft: 0,74, Perspective: 0,62, Google: 0,59).

4.2 Verzerrungsmuster

Alle APIs zeigten systematische Verzerrungen: Übermoderation von Gegendarstellungen, reklamierten Beleidigungen und Inhalten, die Schwarze, LGBTQIA+, jüdische und muslimische Menschen erwähnen. Gleichzeitig untermoderierten sie implizite Hassrede, insbesondere gegen LGBTQIA+-Personen.

Wesentliche Erkenntnisse

APIs greifen häufig auf Gruppenidentitätsbegriffe (z.B. "black") zurück, um Hassrede vorherzusagen
Implizite Hassrede mit kodierten Botschaften wird konsequent untermoderiert
Gegendarstellungen und reklamierte Beleidigungen werden systematisch übermoderiert
Die Leistung variiert signifikant über verschiedene demografische Gruppen hinweg

5 Code-Implementierung

Nachfolgend eine vereinfachte Python-Implementierung des Audit-Frameworks:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Content-Moderation-API abfragen"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Verzerrungskennzahlen über geschützte Gruppen berechnen"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Beispielverwendung
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Zukünftige Anwendungen

Die Ergebnisse haben bedeutende Implikationen für zukünftige Content-Moderation-Systeme. Zukünftige Forschung sollte sich auf die Entwicklung nuancierterer Modelle konzentrieren, die zwischen schädlicher Hassrede und legitimen Identitätsdiskussionen unterscheiden können. Wie im CycleGAN-Papier (Zhu et al., 2017) festgestellt, könnten Domain-Adaption-Techniken helfen, Verteilungsverschiebungen über verschiedene demografische Gruppen hinweg zu adressieren. Zusätzlich sollten zukünftige Systeme, dem Ansatz des Perspective-API-Teams (Lees et al., 2022) folgend, gemeinschaftsspezifische Normen und kontextbewusste Verarbeitung integrieren.

Entstehende Richtungen umfassen:

Multimodale Content-Moderation, die Text-, Bild- und Kontextanalyse kombiniert
Federated-Learning-Ansätze zur Wahrung der Privatsphäre bei gleichzeitiger Verbesserung der Modellleistung
Erklärbare KI-Techniken für transparente Moderationsentscheidungen
Interkulturelle Anpassung von Moderationssystemen für globale Plattformen

Originalanalyse: Das zweischneidige Schwert automatisierter Content-Moderation

Diese Forschung liefert entscheidende Einblicke in die operative Realität kommerzieller Content-Moderation-APIs und deckt ein beunruhigendes Muster systematischer Verzerrung auf, das vulnerable Gemeinschaften unverhältnismäßig stark betrifft. Der Befund, dass APIs häufig auf Gruppenidentitätsbegriffe wie "black" zurückgreifen, um Hassrede vorherzusagen, spiegelt ähnliche Probleme wider, die in anderen NLP-Systemen identifiziert wurden, wie die rassistische Verzerrung in Sentiment-Analyse-Tools von Sap et al. (2019). Was diese Studie besonders bedeutsam macht, ist ihr Umfang – die Analyse von fünf Millionen Anfragen über mehrere Datensätze hinweg – und ihr umfassendes Framework, das Leistungskennzahlen mit Erklärbarkeitstechniken kombiniert.

Der technische Ansatz mit SHAP-Werten und Perturbationsanalyse repräsentiert eine anspruchsvolle Methodik zur Überprüfung von Blackbox-Systemen. Dies entspricht wachsenden Forderungen nach algorithmischer Transparenz, ähnlich wie Anforderungen in anderen hochriskanten KI-Anwendungen wie der Gesundheitsdiagnostik (Topol, 2019). Die systematische Untermoderation impliziter Hassrede gegen LGBTQIA+-Personen ist besonders besorgniserregend, da sie nahelegt, dass aktuelle Systeme ausgefeilte Formen der Diskriminierung, die nicht auf expliziten Beleidigungen beruhen, nicht erkennen.

Im Vergleich zu Open-Source-Modellen, die in früherer Forschung auditiert wurden (Röttger et al., 2021), zeigen kommerzielle APIs ähnliche Verzerrungsmuster, jedoch mit potenziell größerer realer Wirkung aufgrund ihrer weiten Verbreitung. Die Empfehlung für bessere Anleitungen zur Schwellenwerteinstellung ist besonders wichtig, da Schwellenwertoptimierung einen zentralen Interventionspunkt zur Reduzierung von Über- und Untermoderation darstellt. Zukünftige Arbeit sollte adaptive Schwellenwerte erforschen, die Kontext und Gemeinschaftsnormen berücksichtigen, ähnlich wie Ansätze, die in der Fairness and Machine Learning-Literatur (Barocas et al., 2019) diskutiert werden.

Die Einschränkungen der Studie, einschließlich ihres Fokus auf englischsprachige Inhalte und spezifische demografische Gruppen, weisen auf wichtige Richtungen für zukünftige Forschung hin. Da Plattformen zunehmend global werden, wird die Entwicklung von Moderationssystemen, die über Sprachen und kulturelle Kontexte hinweg funktionieren, essentiell sein. Das in diesem Papier etablierte Framework bietet eine wertvolle Grundlage für solche interkulturellen Audits.

7 Referenzen

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.