商用內容審核API稽核報告：針對群體仇恨言論的過度與不足審核現象

1 緒論

商用內容審核API被宣傳為對抗網路仇恨言論的可擴展解決方案，但它們同時存在壓制合法言論（過度審核）和未能保護使用者免受有害內容影響（審核不足）的風險。本文介紹了一個全面的框架，用於稽核內容審核中使用的黑箱NLP系統。

2 研究方法

2.1 稽核框架

我們的黑箱稽核框架透過多種方法評估商用內容審核API：效能評估、SHAP可解釋性分析和擾動分析。該框架分析四個資料集中共五百萬筆查詢，以系統性評估偏誤模式。

2.2 資料集

本研究使用四個不同的資料集：用於一般仇恨言論的HateXplain、用於長文本的Civil Comments、用於隱性仇恨言論的ToxiGen，以及用於刻板印象和隱性偏誤的SBIC。這種多樣性確保了對不同仇恨言論表現形式的全面評估。

2.3 評估的API

評估了五個商用API：Google Natural Language API、Microsoft Azure Content Moderation、OpenAI Content Moderation API、Perspective API和Amazon Comprehend。這些代表了商用內容審核市場的主要供應商。

3 技術框架

3.1 SHAP分析

SHAP（SHapley Additive exPlanations）值用於解釋機器學習模型的輸出。特徵$i$的SHAP值計算如下：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

其中$N$是所有特徵的集合，$S$是特徵的子集，$f$是模型預測函數。

3.2 擾動分析

透過系統性擾動輸入文本並測量審核決策的變化，計算反事實詞元公平性分數。這有助於識別哪些詞元對審核結果產生了不成比例的影響。

4 結果

4.1 效能指標

研究發現API效能存在顯著差異。OpenAI和Amazon表現稍好，F1分數分別為0.83和0.81，而其他API表現較低（Microsoft：0.74、Perspective：0.62、Google：0.59）。

4.2 偏誤模式

所有API都表現出系統性偏誤：對反制言論、回收使用的貶義詞以及提及黑人、LGBTQIA+、猶太人和穆斯林的內容進行過度審核。同時，它們對隱性仇恨言論審核不足，特別是針對LGBTQIA+個體的內容。

關鍵洞察

API經常依賴群體身份術語（例如「黑人」）來預測仇恨言論
使用編碼訊息的隱性仇恨言論持續被審核不足
反制言論和回收使用的貶義詞被系統性過度審核
在不同人口群體間的效能存在顯著差異

5 程式碼實作

以下是稽核框架的簡化Python實作：

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """查詢內容審核API"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """計算受保護群體的偏誤指標"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# 使用範例
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 未來應用

這些發現對未來內容審核系統具有重要意義。未來研究應著重開發更細緻的模型，能夠區分有害的仇恨言論與合法的身份討論。正如CycleGAN論文（Zhu等人，2017）所述，領域適應技術有助於解決不同人口群體間的分布偏移。此外，遵循Perspective API團隊的方法（Lees等人，2022），未來系統應納入特定社群規範和情境感知處理。

新興方向包括：

結合文字、圖像和情境分析的多模態內容審核
在提升模型效能的同時保護隱私的聯邦學習方法
提供透明審核決策的可解釋AI技術
針對全球平台的審核系統跨文化適應

原創分析：自動化內容審核的雙面刃

這項研究提供了對商用內容審核API運作現實的關鍵洞察，揭示了一個影響弱勢群體的系統性偏誤模式。API經常依賴像「黑人」這樣的群體身份術語來預測仇恨言論的發現，與其他NLP系統中發現的類似問題相呼應，例如Sap等人（2019）在情感分析工具中發現的種族偏誤。這項研究特別重要的原因在於其規模——分析多個資料集中的五百萬筆查詢——以及其結合效能指標與可解釋性技術的全面框架。

使用SHAP值和擾動分析的技術方法代表了一種用於稽核黑箱系統的複雜方法論。這與對演算法透明度的日益增長的呼籲相一致，類似於其他高風險AI應用（如醫療診斷）中的要求（Topol，2019）。對LGBTQIA+個體隱性仇恨言論的系統性審核不足尤其令人擔憂，因為這表明當前系統無法識別不依賴明確貶義詞的複雜歧視形式。

與先前研究中稽核的開源模型（Röttger等人，2021）相比，商用API顯示出類似的偏誤模式，但由於其廣泛部署，可能具有更大的現實影響。關於閾值設定的更好指導建議尤其重要，因為閾值優化代表了減少過度審核和審核不足的關鍵介入點。未來工作應探索考慮情境和社群規範的自適應閾值，類似於公平性與機器學習文獻中討論的方法（Barocas等人，2019）。

本研究的限制，包括其對英語內容和特定人口群體的關注，指出了未來研究的重要方向。隨著平台日益全球化，開發跨語言和文化情境運作的審核系統將至關重要。本文建立的框架為此類跨文化稽核提供了寶貴的基礎。

7 參考文獻

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.