Auditoría de APIs Comerciales de Moderación de Contenido: Sobre-moderación y Sub-moderación del Discurso de Odio Dirigido a Grupos

Tabla de Contenidos

5M+

Consultas Analizadas

5

APIs Auditadas

4

Conjuntos de Datos Utilizados

1 Introducción

Las APIs comerciales de moderación de contenido se comercializan como soluciones escalables para combatir el discurso de odio en línea, pero conllevan el riesgo tanto de silenciar discursos legítimos (sobre-moderación) como de no proteger a los usuarios de contenido dañino (sub-moderación). Este artículo presenta un marco integral para auditar sistemas de PLN de caja negra utilizados en la moderación de contenido.

2 Metodología

2.1 Marco de Auditoría

Nuestro marco de auditoría de caja negra evalúa las APIs comerciales de moderación de contenido mediante múltiples enfoques: evaluación de rendimiento, análisis de explicabilidad SHAP y análisis de perturbación. El marco analiza cinco millones de consultas en cuatro conjuntos de datos para evaluar sistemáticamente los patrones de sesgo.

2.2 Conjuntos de Datos

El estudio utiliza cuatro conjuntos de datos diversos: HateXplain para discurso de odio general, Civil Comments para textos más largos, ToxiGen para discurso de odio implícito y SBIC para estereotipos y sesgo implícito. Esta diversidad garantiza una evaluación integral a través de diferentes manifestaciones de discurso de odio.

2.3 APIs Evaluadas

Se evaluaron cinco APIs comerciales: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API y Amazon Comprehend. Estas representan a los principales proveedores en el mercado comercial de moderación de contenido.

3 Marco Técnico

3.1 Análisis SHAP

Los valores SHAP (SHapley Additive exPlanations) se utilizan para explicar la salida de los modelos de aprendizaje automático. El valor SHAP para la característica $i$ se calcula como:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

donde $N$ es el conjunto de todas las características, $S$ es un subconjunto de características y $f$ es la función de predicción del modelo.

3.2 Análisis de Perturbación

Las puntuaciones de equidad de tokens contrafactuales se calculan perturbando sistemáticamente el texto de entrada y midiendo los cambios en las decisiones de moderación. Esto ayuda a identificar qué tokens influyen de manera desproporcionada en los resultados de moderación.

4 Resultados

4.1 Métricas de Rendimiento

El estudio encontró una variación significativa en el rendimiento de las APIs. OpenAI y Amazon tuvieron un rendimiento ligeramente mejor con puntuaciones F1 de 0.83 y 0.81 respectivamente, mientras que otras APIs mostraron un rendimiento más bajo (Microsoft: 0.74, Perspective: 0.62, Google: 0.59).

4.2 Patrones de Sesgo

Todas las APIs demostraron sesgos sistemáticos: sobre-moderación del discurso de contraposición, insultos reclamados y contenido que menciona a personas negras, LGBTQIA+, judías y musulmanas. Simultáneamente, sub-moderaron el discurso de odio implícito, especialmente contra individuos LGBTQIA+.

Hallazgos Clave

Las APIs frecuentemente dependen de términos de identidad grupal (ej. "negro") para predecir discurso de odio
El discurso de odio implícito que utiliza mensajes codificados es consistentemente sub-moderado
El discurso de contraposición y los insultos reclamados son sistemáticamente sobre-moderados
El rendimiento varía significativamente entre diferentes grupos demográficos

5 Implementación de Código

A continuación se presenta una implementación simplificada en Python del marco de auditoría:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Consultar API de moderación de contenido"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Calcular métricas de sesgo entre grupos protegidos"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Ejemplo de uso
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Aplicaciones Futuras

Los hallazgos tienen implicaciones significativas para los futuros sistemas de moderación de contenido. La investigación futura debería centrarse en desarrollar modelos más matizados que puedan distinguir entre el discurso de odio dañino y las discusiones legítimas sobre identidad. Como se señala en el artículo de CycleGAN (Zhu et al., 2017), las técnicas de adaptación de dominio podrían ayudar a abordar los cambios de distribución entre diferentes grupos demográficos. Además, siguiendo el enfoque del equipo de Perspective API (Lees et al., 2022), los sistemas futuros deberían incorporar normas específicas de la comunidad y procesamiento consciente del contexto.

Las direcciones emergentes incluyen:

Moderación de contenido multimodal que combine análisis de texto, imagen y contexto
Enfoques de aprendizaje federado para preservar la privacidad mientras se mejora el rendimiento del modelo
Técnicas de IA explicable para proporcionar decisiones de moderación transparentes
Adaptación transcultural de los sistemas de moderación para plataformas globales

Análisis Original: La Espada de Doble Filo de la Moderación Automatizada de Contenido

Esta investigación proporciona información crucial sobre las realidades operativas de las APIs comerciales de moderación de contenido, revelando un patrón preocupante de sesgo sistemático que afecta desproporcionadamente a las comunidades vulnerables. El hallazgo de que las APIs frecuentemente dependen de términos de identidad grupal como "negro" para predecir discurso de odio refleja problemas similares identificados en otros sistemas de PLN, como el sesgo racial encontrado en las herramientas de análisis de sentimiento por Sap et al. (2019). Lo que hace que este estudio sea particularmente significativo es su escala—analizando cinco millones de consultas en múltiples conjuntos de datos—y su marco integral que combina métricas de rendimiento con técnicas de explicabilidad.

El enfoque técnico que utiliza valores SHAP y análisis de perturbación representa una metodología sofisticada para auditar sistemas de caja negra. Esto se alinea con las crecientes demandas de transparencia algorítmica, similares a los requisitos en otras aplicaciones de IA de alto riesgo como el diagnóstico médico (Topol, 2019). La sub-moderación sistemática del discurso de odio implícito contra individuos LGBTQIA+ es especialmente preocupante, ya que sugiere que los sistemas actuales no logran reconocer formas sofisticadas de discriminación que no dependen de insultos explícitos.

En comparación con los modelos de código abierto auditados en investigaciones anteriores (Röttger et al., 2021), las APIs comerciales muestran patrones de sesgo similares pero con un impacto potencialmente mayor en el mundo real debido a su amplia implementación. La recomendación para una mejor orientación sobre el establecimiento de umbrales es particularmente importante, ya que la optimización de umbrales representa un punto de intervención clave para reducir tanto la sobre-moderación como la sub-moderación. El trabajo futuro debería explorar umbrales adaptativos que consideren el contexto y las normas comunitarias, similares a los enfoques discutidos en la literatura sobre Equidad y Aprendizaje Automático (Barocas et al., 2019).

Las limitaciones del estudio, incluido su enfoque en contenido en inglés y grupos demográficos específicos, apuntan a direcciones importantes para la investigación futura. A medida que las plataformas se vuelven cada vez más globales, será esencial desarrollar sistemas de moderación que funcionen en todos los idiomas y contextos culturales. El marco establecido en este artículo proporciona una base valiosa para dichas auditorías transculturales.

7 Referencias

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.