Auditoria de APIs Comerciais de Moderação de Conteúdo: Excesso e Falta de Moderação de Discurso de Ódio Direcionado a Grupos

Índice

5M+

Consultas Analisadas

5

APIs Auditadas

4

Conjuntos de Dados Utilizados

1 Introdução

As APIs comerciais de moderação de conteúdo são comercializadas como soluções escaláveis para combater o discurso de ódio online, mas elas correm o risco tanto de silenciar discursos legítimos (moderação excessiva) quanto de não proteger os usuários de conteúdo prejudicial (moderação insuficiente). Este artigo apresenta uma estrutura abrangente para auditar sistemas de PLN de caixa-preta usados na moderação de conteúdo.

2 Metodologia

2.1 Estrutura de Auditoria

Nossa estrutura de auditoria de caixa-preta avalia as APIs comerciais de moderação de conteúdo por meio de múltiplas abordagens: avaliação de desempenho, análise de explicabilidade SHAP e análise de perturbação. A estrutura analisa cinco milhões de consultas em quatro conjuntos de dados para avaliar sistematicamente os padrões de viés.

2.2 Conjuntos de Dados

O estudo utiliza quatro conjuntos de dados diversos: HateXplain para discurso de ódio geral, Civil Comments para textos mais longos, ToxiGen para discurso de ódio implícito e SBIC para estereótipos e viés implícito. Essa diversidade garante uma avaliação abrangente através de diferentes manifestações de discurso de ódio.

2.3 APIs Avaliadas

Foram avaliadas cinco APIs comerciais: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API e Amazon Comprehend. Estas representam os principais fornecedores no mercado comercial de moderação de conteúdo.

3 Estrutura Técnica

3.1 Análise SHAP

Os valores SHAP (SHapley Additive exPlanations) são usados para explicar a saída dos modelos de aprendizado de máquina. O valor SHAP para a característica $i$ é calculado como:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

onde $N$ é o conjunto de todas as características, $S$ é um subconjunto de características e $f$ é a função de predição do modelo.

3.2 Análise de Perturbação

Os escores de justiça de token contrafactual são calculados perturbando sistematicamente o texto de entrada e medindo as mudanças nas decisões de moderação. Isso ajuda a identificar quais tokens influenciam desproporcionalmente os resultados da moderação.

4 Resultados

4.1 Métricas de Desempenho

O estudo encontrou variação significativa no desempenho das APIs. OpenAI e Amazon tiveram desempenho ligeiramente melhor com escores F1 de 0,83 e 0,81 respectivamente, enquanto outras APIs mostraram desempenho inferior (Microsoft: 0,74, Perspective: 0,62, Google: 0,59).

4.2 Padrões de Viés

Todas as APIs demonstraram vieses sistemáticos: moderação excessiva de contra-discurso, insultos reapropriados e conteúdo mencionando pessoas negras, LGBTQIA+, judias e muçulmanas. Simultaneamente, elas moderaram insuficientemente o discurso de ódio implícito, especialmente contra indivíduos LGBTQIA+.

Principais Conclusões

As APIs frequentemente dependem de termos de identidade grupal (ex: "negro") para prever discurso de ódio
Discurso de ódio implícito usando mensagens codificadas é consistentemente submoderado
Contra-discurso e insultos reapropriados são sistematicamente supermoderados
O desempenho varia significativamente entre diferentes grupos demográficos

5 Implementação de Código

Abaixo está uma implementação Python simplificada da estrutura de auditoria:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Consultar API de moderação de conteúdo"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Calcular métricas de viés entre grupos protegidos"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Exemplo de uso
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Aplicações Futuras

Os achados têm implicações significativas para futuros sistemas de moderação de conteúdo. Pesquisas futuras devem focar no desenvolvimento de modelos mais sutis que possam distinguir entre discurso de ódio prejudicial e discussões legítimas sobre identidade. Como observado no artigo CycleGAN (Zhu et al., 2017), técnicas de adaptação de domínio poderiam ajudar a lidar com mudanças de distribuição entre diferentes grupos demográficos. Adicionalmente, seguindo a abordagem da equipe do Perspective API (Lees et al., 2022), sistemas futuros deveriam incorporar normas específicas da comunidade e processamento sensível ao contexto.

Direções emergentes incluem:

Moderação de conteúdo multimodal combinando análise de texto, imagem e contexto
Abordagens de aprendizado federado para preservar a privacidade enquanto melhora o desempenho do modelo
Técnicas de IA explicável para fornecer decisões de moderação transparentes
Adaptação transcultural de sistemas de moderação para plataformas globais

Análise Original: A Espada de Dois Gumes da Moderação Automatizada de Conteúdo

Esta pesquisa fornece insights cruciais sobre as realidades operacionais das APIs comerciais de moderação de conteúdo, revelando um padrão preocupante de viés sistemático que afeta comunidades vulneráveis de forma desproporcional. A descoberta de que as APIs frequentemente dependem de termos de identidade grupal como "negro" para prever discurso de ódio ecoa problemas similares identificados em outros sistemas de PLN, como o viés racial encontrado em ferramentas de análise de sentimento por Sap et al. (2019). O que torna este estudo particularmente significativo é sua escala—analisando cinco milhões de consultas em múltiplos conjuntos de dados—e sua estrutura abrangente que combina métricas de desempenho com técnicas de explicabilidade.

A abordagem técnica usando valores SHAP e análise de perturbação representa uma metodologia sofisticada para auditar sistemas de caixa-preta. Isso se alinha com crescentes apelos por transparência algorítmica, similar aos requisitos em outras aplicações de IA de alto risco como diagnósticos de saúde (Topol, 2019). A submoderação sistemática do discurso de ódio implícito contra indivíduos LGBTQIA+ é especialmente preocupante, pois sugere que os sistemas atuais falham em reconhecer formas sofisticadas de discriminação que não dependem de insultos explícitos.

Comparado com modelos de código aberto auditados em pesquisas anteriores (Röttger et al., 2021), as APIs comerciais mostram padrões de viés similares, mas com potencialmente maior impacto no mundo real devido à sua ampla implantação. A recomendação para melhor orientação sobre definição de limiares é particularmente importante, pois a otimização de limiares representa um ponto de intervenção chave para reduzir tanto a moderação excessiva quanto a insuficiente. Trabalhos futuros deveriam explorar limiares adaptativos que considerem contexto e normas comunitárias, similar às abordagens discutidas na literatura sobre Justiça e Aprendizado de Máquina (Barocas et al., 2019).

As limitações do estudo, incluindo seu foco em conteúdo em inglês e grupos demográficos específicos, apontam para direções importantes para pesquisas futuras. À medida que as plataformas se tornam cada vez mais globais, desenvolver sistemas de moderação que funcionem entre idiomas e contextos culturais será essencial. A estrutura estabelecida neste artigo fornece uma base valiosa para tais auditorias transculturais.

7 Referências

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.