Audit API Moderasi Kandungan Komersial: Moderasi Berlebihan dan Kurang terhadap Ucapan Kebencian Sasaran Kumpulan

Kandungan

5J+

Kueri Dianalisis

5

API Diaudit

4

Set Data Digunakan

1 Pengenalan

API moderasi kandungan komersial dipasarkan sebagai penyelesaian berskala untuk memerangi ucapan kebencian dalam talian, tetapi ia berisiko menyenyapkan ucapan sah (moderasi berlebihan) dan gagal melindungi pengguna daripada kandungan berbahaya (moderasi kurang). Kertas kerja ini memperkenalkan kerangka komprehensif untuk mengaudit sistem NLP kotak hitam yang digunakan dalam moderasi kandungan.

2 Metodologi

2.1 Kerangka Audit

Kerangka audit kotak hitam kami menilai API moderasi kandungan komersial melalui pelbagai pendekatan: penilaian prestasi, analisis kebolehterangan SHAP, dan analisis gangguan. Kerangka ini menganalisis lima juta kueri merentasi empat set data untuk menilai corak bias secara sistematik.

2.2 Set Data

Kajian ini menggunakan empat set data yang pelbagai: HateXplain untuk ucapan kebencian umum, Civil Comments untuk teks panjang, ToxiGen untuk ucapan kebencian tersirat, dan SBIC untuk stereotaip dan bias tersirat. Kepelbagaian ini memastikan penilaian komprehensif merentasi manifestasi ucapan kebencian yang berbeza.

2.3 API Dinilai

Lima API komersial dinilai: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API, dan Amazon Comprehend. Ini mewakili penyedia utama dalam pasaran moderasi kandungan komersial.

3 Kerangka Teknikal

3.1 Analisis SHAP

Nilai SHAP (SHapley Additive exPlanations) digunakan untuk menerangkan output model pembelajaran mesin. Nilai SHAP untuk ciri $i$ dikira sebagai:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

di mana $N$ ialah set semua ciri, $S$ ialah subset ciri, dan $f$ ialah fungsi ramalan model.

3.2 Analisis Gangguan

Skor keadilan token kontrafaktual dikira dengan mengganggu teks input secara sistematik dan mengukur perubahan dalam keputusan moderasi. Ini membantu mengenal pasti token mana yang mempengaruhi hasil moderasi secara tidak seimbang.

4 Keputusan

4.1 Metrik Prestasi

Kajian mendapati variasi ketara dalam prestasi API. OpenAI dan Amazon menunjukkan prestasi sedikit lebih baik dengan skor F1 masing-masing 0.83 dan 0.81, manakala API lain menunjukkan prestasi lebih rendah (Microsoft: 0.74, Perspective: 0.62, Google: 0.59).

4.2 Corak Bias

Semua API menunjukkan bias sistematik: moderasi berlebihan terhadap ucapan balas, penghinaan yang dituntut semula, dan kandungan yang menyebut orang kulit hitam, LGBTQIA+, Yahudi, dan Muslim. Pada masa yang sama, mereka kurang memoderasi ucapan kebencian tersirat, terutamanya terhadap individu LGBTQIA+.

Pengetahuan Utama

API sering bergantung pada istilah identiti kumpulan (cth., "kulit hitam") untuk meramal ucapan kebencian
Ucapan kebencian tersirat menggunakan mesej berkod secara konsisten kurang dimoderasi
Ucapan balas dan penghinaan yang dituntut semula secara sistematik dimoderasi berlebihan
Prestasi berbeza dengan ketara merentasi kumpulan demografi berbeza

5 Pelaksanaan Kod

Di bawah ialah pelaksanaan Python yang dipermudahkan bagi kerangka audit:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """Kueri API moderasi kandungan"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """Kira metrik bias merentasi kumpulan terlindung"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# Contoh penggunaan
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 Aplikasi Masa Depan

Penemuan ini mempunyai implikasi penting untuk sistem moderasi kandungan masa depan. Penyelidikan masa depan harus memberi tumpuan kepada membangunkan model yang lebih bernuansa yang dapat membezakan antara ucapan kebencian berbahaya dan perbincangan sah tentang identiti. Seperti yang dinyatakan dalam kertas kerja CycleGAN (Zhu et al., 2017), teknik penyesuaian domain boleh membantu menangani peralihan taburan merentasi kumpulan demografi yang berbeza. Selain itu, mengikut pendekatan pasukan Perspective API (Lees et al., 2022), sistem masa depan harus menggabungkan norma khusus komuniti dan pemprosesan sedar konteks.

Arah muncul termasuk:

Moderasi kandungan pelbagai mod yang menggabungkan analisis teks, imej, dan konteks
Pendekatan pembelajaran teragih untuk mengekalkan privasi sambil meningkatkan prestasi model
Teknik AI yang boleh diterangkan untuk memberikan keputusan moderasi yang telus
Penyesuaian silang budaya sistem moderasi untuk platform global

Analisis Asal: Pedang Bermata Dua Moderasi Kandungan Automatik

Penyelidikan ini memberikan pengetahuan penting tentang realiti operasi API moderasi kandungan komersial, mendedahkan corak bias sistematik yang membimbangkan yang memberi kesan tidak seimbang kepada komuniti rentan. Penemuan bahawa API sering bergantung pada istilah identiti kumpulan seperti "kulit hitam" untuk meramal ucapan kebencian menggema isu serupa yang dikenal pasti dalam sistem NLP lain, seperti bias kaum yang ditemui dalam alat analisis sentimen oleh Sap et al. (2019). Apa yang menjadikan kajian ini amat signifikan ialah skalanya—menganalisis lima juta kueri merentasi pelbagai set data—dan kerangka komprehensifnya yang menggabungkan metrik prestasi dengan teknik kebolehterangan.

Pendekatan teknikal menggunakan nilai SHAP dan analisis gangguan mewakili metodologi canggih untuk mengaudit sistem kotak hitam. Ini selari dengan panggilan yang semakin meningkat untuk ketelusan algoritma, serupa dengan keperluan dalam aplikasi AI berisiko tinggi lain seperti diagnostik penjagaan kesihatan (Topol, 2019). Moderasi kurang sistematik terhadap ucapan kebencian tersirat terhadap individu LGBTQIA+ amat membimbangkan, kerana ia mencadangkan bahawa sistem semasa gagal mengenali bentuk diskriminasi canggih yang tidak bergantung pada penghinaan eksplisit.

Berbanding model sumber terbuka yang diaudit dalam penyelidikan sebelumnya (Röttger et al., 2021), API komersial menunjukkan corak bias serupa tetapi dengan impak dunia nyata yang berpotensi lebih besar disebabkan penyebaran meluas mereka. Cadangan untuk panduan lebih baik tentang penetapan ambang amat penting, kerana pengoptimuman ambang mewakili titik intervensi utama untuk mengurangkan kedua-dua moderasi berlebihan dan kurang. Kerja masa depan harus meneroka ambang adaptif yang mempertimbangkan konteks dan norma komuniti, serupa dengan pendekatan yang dibincangkan dalam literatur Keadilan dan Pembelajaran Mesin (Barocas et al., 2019).

Batasan kajian, termasuk tumpuannya pada kandungan berbahasa Inggeris dan kumpulan demografi tertentu, menunjukkan arah penting untuk penyelidikan masa depan. Memandangkan platform menjadi semakin global, membangunkan sistem moderasi yang berfungsi merentasi bahasa dan konteks budaya akan menjadi penting. Kerangka yang ditubuhkan dalam kertas kerja ini menyediakan asas berharga untuk audit silang budaya sedemikian.

7 Rujukan

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.