商业内容审核API审计：针对群体仇恨言论的过度与不足审核

1 引言

商业内容审核API作为可扩展解决方案被推广用于打击网络仇恨言论，但它们既可能压制合法言论（过度审核），又可能无法保护用户免受有害内容侵害（不足审核）。本文提出了一个用于审计内容审核中使用的黑盒自然语言处理系统的综合框架。

2 方法论

2.1 审计框架

我们的黑盒审计框架通过多种方法评估商业内容审核API：性能评估、SHAP可解释性分析和扰动分析。该框架分析了四个数据集中的五百万条查询，以系统性地评估偏差模式。

2.2 数据集

本研究使用了四个多样化数据集：用于一般仇恨言论的HateXplain、用于长文本的Civil Comments、用于隐式仇恨言论的ToxiGen，以及用于刻板印象和隐式偏见的SBIC。这种多样性确保了在不同仇恨言论表现形式上的全面评估。

2.3 评估的API

评估了五个商业API：Google Natural Language API、Microsoft Azure Content Moderation、OpenAI Content Moderation API、Perspective API和Amazon Comprehend。这些代表了商业内容审核市场的主要提供商。

3 技术框架

3.1 SHAP分析

SHAP（SHapley Additive exPlanations）值用于解释机器学习模型的输出。特征$i$的SHAP值计算公式为：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

其中$N$是所有特征的集合，$S$是特征子集，$f$是模型预测函数。

3.2 扰动分析

通过系统性地扰动输入文本并测量审核决策的变化来计算反事实标记公平性分数。这有助于识别哪些标记对审核结果产生了不成比例的影响。

4 结果

4.1 性能指标

研究发现API性能存在显著差异。OpenAI和Amazon表现稍好，F1分数分别为0.83和0.81，而其他API表现较低（Microsoft：0.74，Perspective：0.62，Google：0.59）。

4.2 偏差模式

所有API都表现出系统性偏差：过度审核反言论、被重新使用的侮辱性词汇，以及提及黑人、LGBTQIA+群体、犹太人和穆斯林的内容。同时，它们对隐式仇恨言论审核不足，特别是针对LGBTQIA+个体的内容。

关键发现

API经常依赖群体身份术语（如“黑人”）来预测仇恨言论
使用编码信息的隐式仇恨言论持续被审核不足
反言论和被重新使用的侮辱性词汇被系统性过度审核
在不同人口群体间的性能差异显著

5 代码实现

以下是审计框架的简化Python实现：

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """查询内容审核API"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """计算跨受保护群体的偏差指标"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# 使用示例
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 未来应用

这些发现对未来内容审核系统具有重要意义。未来的研究应专注于开发更精细的模型，能够区分有害的仇恨言论与合法的身份讨论。正如CycleGAN论文（Zhu等，2017）所指出的，领域自适应技术有助于解决不同人口群体间的分布偏移。此外，遵循Perspective API团队（Lees等，2022）的方法，未来的系统应纳入特定社区的规范和上下文感知处理。

新兴方向包括：

结合文本、图像和上下文分析的多模态内容审核
在提高模型性能的同时保护隐私的联邦学习方法
提供透明审核决策的可解释AI技术
面向全球平台的审核系统跨文化适应

原创分析：自动化内容审核的双刃剑

这项研究为商业内容审核API的实际运行情况提供了关键见解，揭示了一个影响脆弱社区的系统性偏差模式。API经常依赖如"黑人"这样的群体身份术语来预测仇恨言论的发现，与Sap等（2019）在情感分析工具中发现的种族偏见问题相呼应。这项研究特别重要的意义在于其规模——分析多个数据集中的五百万条查询——以及其结合性能指标和可解释性技术的综合框架。

使用SHAP值和扰动分析的技术方法代表了一种审计黑盒系统的复杂方法学。这与日益增长的算法透明度呼声相一致，类似于医疗诊断等其他高风险AI应用中的要求（Topol，2019）。针对LGBTQIA+个体的隐式仇恨言论被系统性审核不足尤其令人担忧，因为它表明当前系统无法识别不依赖明确侮辱性词汇的复杂歧视形式。

与先前研究中审计的开源模型（Röttger等，2021）相比，商业API显示出类似的偏差模式，但由于其广泛部署，可能产生更大的现实影响。关于阈值设置的更好指导建议尤为重要，因为阈值优化代表了减少过度审核和不足审核的关键干预点。未来的工作应探索考虑上下文和社区规范的自适应阈值，类似于《公平性与机器学习》文献中讨论的方法（Barocas等，2019）。

本研究的局限性，包括其专注于英语内容和特定人口群体，指出了未来研究的重要方向。随着平台日益全球化，开发跨语言和文化背景工作的审核系统将至关重要。本文建立的框架为此类跨文化审计提供了宝贵的基础。

7 参考文献

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.