Аудит коммерческих API для модерации контента: Избыточная и недостаточная модерация ненавистнических высказываний в отношении социальных групп

Содержание

5M+

Проанализировано запросов

5

Проаудировано API

4

Использовано наборов данных

1 Введение

Коммерческие API для модерации контента позиционируются как масштабируемые решения для борьбы с онлайн-ненавистническими высказываниями, однако они несут риски как подавления легитимной речи (избыточная модерация), так и неспособности защитить пользователей от вредоносного контента (недостаточная модерация). Данная статья представляет комплексный фреймворк для аудита систем NLP типа «чёрный ящик», используемых в модерации контента.

2 Методология

2.1 Фреймворк аудита

Наш фреймворк аудита «чёрного ящика» оценивает коммерческие API модерации контента с помощью нескольких подходов: оценка производительности, анализ объяснимости SHAP и анализ пертурбаций. Фреймворк анализирует пять миллионов запросов по четырём наборам данных для систематической оценки паттернов смещений.

2.2 Наборы данных

Исследование использует четыре разнообразных набора данных: HateXplain для общих ненавистнических высказываний, Civil Comments для более длинных текстов, ToxiGen для имплицитных ненавистнических высказываний и SBIC для стереотипов и имплицитных смещений. Это разнообразие обеспечивает комплексную оценку различных проявлений ненавистнических высказываний.

2.3 Оцениваемые API

Были оценены пять коммерческих API: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API и Amazon Comprehend. Они представляют основных поставщиков на рынке коммерческой модерации контента.

3 Технический фреймворк

3.1 Анализ SHAP

Значения SHAP (SHapley Additive exPlanations) используются для объяснения выходных данных моделей машинного обучения. Значение SHAP для признака $i$ вычисляется как:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

где $N$ — множество всех признаков, $S$ — подмножество признаков, а $f$ — функция прогнозирования модели.

3.2 Анализ пертурбаций

Показатели справедливости контрафактных токенов вычисляются путём систематического возмущения входного текста и измерения изменений в решениях модерации. Это помогает определить, какие токены непропорционально влияют на исходы модерации.

4 Результаты

4.1 Метрики производительности

Исследование выявило значительные вариации в производительности API. OpenAI и Amazon показали несколько лучшие результаты с F1-мерами 0.83 и 0.81 соответственно, в то время как другие API показали более низкую производительность (Microsoft: 0.74, Perspective: 0.62, Google: 0.59).

4.2 Паттерны смещений

Все API продемонстрировали систематические смещения: избыточную модерацию контр-речи, рекламируемых оскорблений и контента, упоминающего чернокожих, ЛГБТКИА+, евреев и мусульман. Одновременно они недостаточно модерировали имплицитные ненавистнические высказывания, особенно в отношении лиц ЛГБТКИА+.

Ключевые выводы

API часто полагаются на термины групповой идентичности (например, «чёрный») для прогнозирования ненавистнических высказываний
Имплицитные ненавистнические высказывания с использованием закодированных сообщений последовательно недостаточно модерируются
Контр-речь и рекламируемые оскорбления систематически избыточно модерируются
Производительность значительно варьируется среди различных демографических групп

5 Реализация кода

Ниже представлена упрощённая реализация фреймворка аудита на Python:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Запрос к API модерации контента"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Вычисление метрик смещения по защищённым группам"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Пример использования
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Будущие приложения

Результаты имеют значительные последствия для будущих систем модерации контента. Будущие исследования должны быть сосредоточены на разработке более нюансированных моделей, способных различать вредоносные ненавистнические высказывания и легитимные обсуждения идентичности. Как отмечено в статье CycleGAN (Zhu et al., 2017), методы адаптации доменов могут помочь решить проблему сдвигов распределения среди различных демографических групп. Кроме того, следуя подходу команды Perspective API (Lees et al., 2022), будущие системы должны включать специфические для сообществ нормы и контекстно-зависимую обработку.

Новые направления включают:

Мультимодальную модерацию контента, сочетающую анализ текста, изображений и контекста
Подходы федеративного обучения для сохранения конфиденциальности при улучшении производительности моделей
Техники объяснимого ИИ для обеспечения прозрачных решений модерации
Кросс-культурную адаптацию систем модерации для глобальных платформ

Оригинальный анализ: Двусторонний эффект автоматизированной модерации контента

Данное исследование предоставляет ключевые инсайты в операционные реалии коммерческих API модерации контента, выявляя тревожный паттерн систематического смещения, который непропорционально затрагивает уязвимые сообщества. Находка о том, что API часто полагаются на термины групповой идентичности, такие как «чёрный», для прогнозирования ненавистнических высказываний, перекликается с аналогичными проблемами, выявленными в других системах NLP, такими как расовое смещение в инструментах анализа тональности, обнаруженное Sap et al. (2019). Особую значимость этому исследованию придают его масштаб — анализ пяти миллионов запросов по нескольким наборам данных — и его комплексный фреймворк, сочетающий метрики производительности с техниками объяснимости.

Технический подход с использованием значений SHAP и анализа пертурбаций представляет собой сложную методологию для аудита систем «чёрного ящика». Это согласуется с растущими призывами к алгоритмической прозрачности, аналогично требованиям в других высокорисковых приложениях ИИ, таких как диагностика в здравоохранении (Topol, 2019). Систематическая недостаточная модерация имплицитных ненавистнических высказываний в отношении лиц ЛГБТКИА+ особенно тревожна, поскольку предполагает, что текущие системы не распознают изощрённые формы дискриминации, не использующие явные оскорбления.

По сравнению с моделями с открытым исходным кодом, аудированными в предыдущих исследованиях (Röttger et al., 2021), коммерческие API демонстрируют схожие паттерны смещений, но с потенциально большим влиянием в реальном мире из-за их широкого развёртывания. Рекомендация по улучшению руководств по установке порогов особенно важна, поскольку оптимизация порогов представляет собой ключевую точку вмешательства для снижения как избыточной, так и недостаточной модерации. Будущая работа должна исследовать адаптивные пороги, учитывающие контекст и нормы сообществ, аналогично подходам, обсуждаемым в литературе по Справедливости и Машинному обучению (Barocas et al., 2019).

Ограничения исследования, включая его фокус на англоязычном контенте и специфических демографических группах, указывают на важные направления для будущих исследований. По мере того как платформы становятся всё более глобальными, разработка систем модерации, работающих across языков и культурных контекстов, будет essential. Фреймворк, установленный в данной статье, предоставляет ценную основу для таких кросс-культурных аудитов.

7 Ссылки

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.