商用コンテンツモデレーションAPIの監査：グループ対象ヘイトスピーチに対する過剰・過少モデレーション

1 はじめに

商用コンテンツモデレーションAPIは、オンラインヘイトスピーチ対策のスケーラブルなソリューションとして販売されているが、正当な発言を抑制する（過剰モデレーション）リスクと、有害なコンテンツからユーザーを保護できない（過少モデレーション）リスクの両方を抱えている。本論文では、コンテンツモデレーションに使用されるブラックボックスNLPシステムを監査する包括的なフレームワークを紹介する。

2 方法論

2.1 監査フレームワーク

我々のブラックボックス監査フレームワークは、性能評価、SHAP説明可能性分析、摂動分析という複数のアプローチを通じて商用コンテンツモデレーションAPIを評価する。このフレームワークは、4つのデータセットにわたる500万件のクエリを分析し、バイアスパターンを体系的に評価する。

2.2 データセット

本研究では、多様な4つのデータセットを利用する：一般的なヘイトスピーチ用のHateXplain、長文テキスト用のCivil Comments、暗黙的ヘイトスピーチ用のToxiGen、ステレオタイプと暗黙的バイアス用のSBICである。この多様性により、異なるヘイトスピーチの現れ方にわたる包括的な評価が保証される。

2.3 評価対象API

5つの商用APIを評価した：Google Natural Language API、Microsoft Azure Content Moderation、OpenAI Content Moderation API、Perspective API、Amazon Comprehendである。これらは商用コンテンツモデレーション市場の主要プロバイダーを代表している。

3 技術的フレームワーク

3.1 SHAP分析

SHAP（SHapley Additive exPlanations）値は、機械学習モデルの出力を説明するために使用される。特徴量$i$のSHAP値は以下のように計算される：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

ここで、$N$は全ての特徴量の集合、$S$は特徴量の部分集合、$f$はモデル予測関数である。

3.2 摂動分析

反事実的トークンフェアネススコアは、入力テキストを体系的に摂動させ、モデレーション判定の変化を測定することで計算される。これは、どのトークンが不釣り合いにモデレーション結果に影響を与えるかを特定するのに役立つ。

4 結果

4.1 性能指標

研究により、APIの性能に大きなばらつきがあることが判明した。OpenAIとAmazonはF1スコアがそれぞれ0.83と0.81でやや優れた性能を示したが、他のAPIは低い性能を示した（Microsoft: 0.74, Perspective: 0.62, Google: 0.59）。

4.2 バイアスパターン

全てのAPIは体系的なバイアスを示した：カウンタースピーチ、取り戻された差別用語、黒人、LGBTQIA+、ユダヤ人、ムスリムの人々に言及したコンテンツに対する過剰モデレーションである。同時に、暗黙的ヘイトスピーチ、特にLGBTQIA+個人に対するものを過少モデレーションしていた。

主要な知見

APIはヘイトスピーチを予測する際、頻繁にグループアイデンティティ用語（例：「黒人」）に依存する
コード化されたメッセージを使用する暗黙的ヘイトスピーチは一貫して過少モデレーションされる
カウンタースピーチと取り戻された差別用語は体系的に過剰モデレーションされる
性能は異なる人口統計グループ間で大きく異なる

5 コード実装

以下は監査フレームワークの簡略化されたPython実装である：

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """コンテンツモデレーションAPIにクエリを送信"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """保護グループ間のバイアス指標を計算"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# 使用例
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 今後の応用

本知見は、将来のコンテンツモデレーションシステムに重要な示唆を与える。将来の研究は、有害なヘイトスピーチと正当なアイデンティティ議論を区別できる、より微妙なニュアンスを捉えたモデルの開発に焦点を当てるべきである。CycleGAN論文（Zhu et al., 2017）で指摘されているように、ドメイン適応技術は、異なる人口統計グループ間の分布シフトに対処するのに役立つ可能性がある。さらに、Perspective APIチームのアプローチ（Lees et al., 2022）に従い、将来のシステムはコミュニティ固有の規範と文脈を考慮した処理を組み込むべきである。

新たな方向性としては以下が含まれる：

テキスト、画像、文脈分析を組み合わせたマルチモーダルコンテンツモデレーション
モデル性能を向上させながらプライバシーを保護する連携学習アプローチ
透明性のあるモデレーション判定を提供する説明可能なAI技術
グローバルプラットフォーム向けモデレーションシステムの異文化適応

独自分析：自動コンテンツモデレーションの両刃の剣

本研究は、商用コンテンツモデレーションAPIの運用実態に関する重要な知見を提供し、脆弱なコミュニティに不釣り合いに影響を与える体系的なバイアスの憂慮すべきパターンを明らかにしている。APIが「黒人」のようなグループアイデンティティ用語に頻繁に依存してヘイトスピーチを予測するという知見は、Sap et al. (2019) によって感情分析ツールで特定された人種的バイアスと同様の問題を反映している。本研究が特に重要である理由は、その規模——複数のデータセットにわたる500万件のクエリを分析——と、性能指標と説明可能性技術を組み合わせた包括的なフレームワークにある。

SHAP値と摂動分析を使用した技術的アプローチは、ブラックボックスシステムを監査するための洗練された方法論を代表している。これは、医療診断（Topol, 2019）のような他のハイリスクAIアプリケーションにおける要件と同様に、アルゴリズムの透明性に対する高まる要求と一致する。LGBTQIA+個人に対する暗黙的ヘイトスピーチの体系的な過少モデレーションは特に懸念される。なぜなら、現在のシステムが明示的な差別用語に依存しない洗練された形態の差別を認識できていないことを示唆しているからである。

以前の研究（Röttger et al., 2021）で監査されたオープンソースモデルと比較して、商用APIは同様のバイアスパターンを示すが、その広範な導入により、現実世界への影響が潜在的に大きい。閾値設定に関するより良いガイダンスの推奨は特に重要である。なぜなら、閾値最適化は過剰モデレーションと過少モデレーションの両方を減らすための重要な介入点を代表するからである。将来の作業は、Fairness and Machine Learning文献（Barocas et al., 2019）で議論されたアプローチと同様に、文脈とコミュニティ規範を考慮した適応的閾値を探求すべきである。

英語コンテンツと特定の人口統計グループに焦点を当てたという本研究の限界は、将来の研究の重要な方向性を示している。プラットフォームがますますグローバル化するにつれて、言語と文化的文脈を越えて機能するモデレーションシステムを開発することが不可欠となる。本論文で確立されたフレームワークは、そのような異文化間監査のための貴重な基盤を提供する。

7 参考文献

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.