Audit des API Commerciales de Modération de Contenu : Sur-modération et Sous-modération des Discours Haineux Ciblant des Groupes

Table des Matières

5M+

Requêtes Analysées

5

API Auditées

4

Jeux de Données Utilisés

1 Introduction

Les API commerciales de modération de contenu sont présentées comme des solutions évolutives pour lutter contre les discours haineux en ligne, mais elles risquent à la fois de réduire au silence les discours légitimes (sur-modération) et de ne pas protéger les utilisateurs contre les contenus nuisibles (sous-modération). Cet article présente un cadre complet pour auditer les systèmes de TAL (Traitement Automatique des Langues) en boîte noire utilisés dans la modération de contenu.

2 Méthodologie

2.1 Cadre d'Audit

Notre cadre d'audit en boîte noire évalue les API commerciales de modération de contenu via plusieurs approches : évaluation des performances, analyse d'explicabilité SHAP et analyse par perturbation. Le cadre analyse cinq millions de requêtes sur quatre jeux de données pour évaluer systématiquement les modèles de biais.

2.2 Jeux de Données

L'étude utilise quatre jeux de données variés : HateXplain pour les discours haineux généraux, Civil Comments pour les textes plus longs, ToxiGen pour les discours haineux implicites, et SBIC pour les stéréotypes et les biais implicites. Cette diversité assure une évaluation complète des différentes manifestations des discours haineux.

2.3 API Évaluées

Cinq API commerciales ont été évaluées : Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API et Amazon Comprehend. Elles représentent les principaux fournisseurs sur le marché commercial de la modération de contenu.

3 Cadre Technique

3.1 Analyse SHAP

Les valeurs SHAP (SHapley Additive exPlanations) sont utilisées pour expliquer la sortie des modèles d'apprentissage automatique. La valeur SHAP pour la caractéristique $i$ est calculée comme suit :

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

où $N$ est l'ensemble de toutes les caractéristiques, $S$ est un sous-ensemble de caractéristiques, et $f$ est la fonction de prédiction du modèle.

3.2 Analyse par Perturbation

Les scores d'équité contrefactuels des tokens sont calculés en perturbant systématiquement le texte d'entrée et en mesurant les changements dans les décisions de modération. Cela aide à identifier quels tokens influencent de manière disproportionnée les résultats de la modération.

4 Résultats

4.1 Métriques de Performance

L'étude a révélé des variations significatives dans les performances des API. OpenAI et Amazon ont obtenu des résultats légèrement meilleurs avec des scores F1 de 0,83 et 0,81 respectivement, tandis que les autres API ont montré des performances inférieures (Microsoft : 0,74, Perspective : 0,62, Google : 0,59).

4.2 Modèles de Biais

Toutes les API ont démontré des biais systématiques : sur-modération des contre-discours, des insultes réappropriées et des contenus mentionnant les personnes Noires, LGBTQIA+, Juives et Musulmanes. Simultanément, elles ont sous-modéré les discours haineux implicites, en particulier ceux visant les personnes LGBTQIA+.

Principales Constatations

Les API s'appuient fréquemment sur des termes d'identité de groupe (ex: "noir") pour prédire les discours haineux
Les discours haineux implicites utilisant des messages codés sont systématiquement sous-modérés
Les contre-discours et les insultes réappropriées sont systématiquement sur-modérés
La performance varie considérablement selon les différents groupes démographiques

5 Implémentation du Code

Voici une implémentation Python simplifiée du cadre d'audit :

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Interroger une API de modération de contenu"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Calculer les métriques de biais pour les groupes protégés"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Exemple d'utilisation
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Applications Futures

Les résultats ont des implications significatives pour les futurs systèmes de modération de contenu. Les recherches futures devraient se concentrer sur le développement de modèles plus nuancés capables de distinguer les discours haineux nuisibles des discussions légitimes sur l'identité. Comme indiqué dans l'article CycleGAN (Zhu et al., 2017), les techniques d'adaptation de domaine pourraient aider à résoudre les décalages de distribution entre différents groupes démographiques. De plus, suivant l'approche de l'équipe Perspective API (Lees et al., 2022), les futurs systèmes devraient intégrer des normes spécifiques aux communautés et un traitement contextuel.

Les orientations émergentes incluent :

La modération de contenu multimodale combinant l'analyse du texte, de l'image et du contexte
Les approches d'apprentissage fédéré pour préserver la confidentialité tout en améliorant les performances du modèle
Les techniques d'IA explicable pour fournir des décisions de modération transparentes
L'adaptation interculturelle des systèmes de modération pour les plateformes mondiales

Analyse Originale : La Double Tranchant de la Modération Automatisée du Contenu

Cette recherche fournit des informations cruciales sur les réalités opérationnelles des API commerciales de modération de contenu, révélant un modèle troublant de biais systématique qui affecte de manière disproportionnée les communautés vulnérables. La constatation que les API s'appuient fréquemment sur des termes d'identité de groupe comme "noir" pour prédire les discours haineux fait écho à des problèmes similaires identifiés dans d'autres systèmes de TAL, tels que le biais racial trouvé dans les outils d'analyse des sentiments par Sap et al. (2019). Ce qui rend cette étude particulièrement significative, c'est son ampleur — l'analyse de cinq millions de requêtes sur plusieurs jeux de données — et son cadre complet qui combine les métriques de performance avec des techniques d'explicabilité.

L'approche technique utilisant les valeurs SHAP et l'analyse par perturbation représente une méthodologie sophistiquée pour auditer les systèmes en boîte noire. Cela s'aligne sur les appels croissants à la transparence algorithmique, similaires aux exigences dans d'autres applications d'IA à enjeux élevés comme les diagnostics de santé (Topol, 2019). La sous-modération systématique des discours haineux implicites visant les personnes LGBTQIA+ est particulièrement préoccupante, car elle suggère que les systèmes actuels ne parviennent pas à reconnaître les formes sophistiquées de discrimination qui ne reposent pas sur des insultes explicites.

Comparés aux modèles open-source audités dans des recherches précédentes (Röttger et al., 2021), les API commerciales montrent des modèles de biais similaires mais avec un impact potentiellement plus important dans le monde réel en raison de leur déploiement généralisé. La recommandation pour un meilleur guidage sur le réglage des seuils est particulièrement importante, car l'optimisation des seuils représente un point d'intervention clé pour réduire à la fois la sur-modération et la sous-modération. Les travaux futurs devraient explorer des seuils adaptatifs qui prennent en compte le contexte et les normes communautaires, similaires aux approches discutées dans la littérature sur l'Équité et l'Apprentissage Automatique (Barocas et al., 2019).

Les limites de l'étude, y compris son focus sur le contenu en langue anglaise et des groupes démographiques spécifiques, indiquent des directions importantes pour les recherches futures. Alors que les plateformes deviennent de plus en plus mondiales, le développement de systèmes de modération fonctionnant à travers les langues et les contextes culturels sera essentiel. Le cadre établi dans cet article fournit une base précieuse pour de tels audits interculturels.

7 Références

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.