حسابرسی APIهای تجاری تعدیل محتوا: تعدیل بیش‌ازحد و کمترازحد سخنان نفرت‌انگیز هدف‌گروهی

فهرست مطالب

5M+

پرس‌وجوهای تحلیل‌شده

5

APIهای حسابرسی‌شده

4

مجموعه‌داده‌های استفاده‌شده

1 مقدمه

APIهای تجاری تعدیل محتوا به عنوان راه‌حل‌های مقیاس‌پذیر برای مبارزه با سخنان نفرت‌انگیز آنلاین به بازار عرضه می‌شوند، اما آن‌ها هم ساکت کردن گفتار مشروع (تعدیل بیش‌ازحد) و هم عدم محافظت از کاربران در برابر محتوای مضر (تعدیل کمترازحد) را به خطر می‌اندازند. این مقاله یک چارچوب جامع برای حسابرسی سیستم‌های NLP جعبه‌سیاه مورد استفاده در تعدیل محتوا معرفی می‌کند.

2 روش‌شناسی

2.1 چارچوب حسابرسی

چارچوب حسابرسی جعبه‌سیاه ما APIهای تجاری تعدیل محتوا را از طریق چندین رویکرد ارزیابی می‌کند: ارزیابی عملکرد، تحلیل تفسیرپذیری SHAP و تحلیل اغتشاش. این چارچوب پنج میلیون پرس‌وجو را در چهار مجموعه‌داده تحلیل می‌کند تا الگوهای سوگیری را به صورت نظام‌مند ارزیابی کند.

2.2 مجموعه‌داده‌ها

این مطالعه از چهار مجموعه‌داده متنوع استفاده می‌کند: HateXplain برای سخنان نفرت‌انگیز عمومی، Civil Comments برای متون طولانی‌تر، ToxiGen برای سخنان نفرت‌انگیز ضمنی و SBIC برای کلیشه‌ها و سوگیری ضمنی. این تنوع ارزیابی جامعی در میان تظاهرات مختلف سخنان نفرت‌انگیز را تضمین می‌کند.

2.3 APIهای ارزیابی‌شده

پنج API تجاری ارزیابی شدند: Google Natural Language API، Microsoft Azure Content Moderation، OpenAI Content Moderation API، Perspective API و Amazon Comprehend. این‌ها نماینده ارائه‌دهندگان اصلی در بازار تعدیل محتوای تجاری هستند.

3 چارچوب فنی

3.1 تحلیل SHAP

مقادیر SHAP (توضیحات افزایشی شپلی) برای توضیح خروجی مدل‌های یادگیری ماشین استفاده می‌شوند. مقدار SHAP برای ویژگی $i$ به صورت زیر محاسبه می‌شود:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$

که در آن $N$ مجموعه تمام ویژگی‌ها، $S$ یک زیرمجموعه از ویژگی‌ها و $f$ تابع پیش‌بینی مدل است.

3.2 تحلیل اغتشاش

امتیازات انصاف توکن‌های متقابلی با اغتشاش نظام‌مند متن ورودی و اندازه‌گیری تغییرات در تصمیمات تعدیل محاسبه می‌شوند. این به شناسایی توکن‌هایی که به طور نامتناسبی بر نتایج تعدیل تأثیر می‌گذارند کمک می‌کند.

4 نتایج

4.1 معیارهای عملکرد

این مطالعه تغییرات قابل توجهی در عملکرد APIها پیدا کرد. OpenAI و Amazon با امتیازات F1 به ترتیب 0.83 و 0.81 عملکرد کمی بهتری داشتند، در حالی که سایر APIها عملکرد پایین‌تری نشان دادند (مایکروسافت: 0.74، Perspective: 0.62، گوگل: 0.59).

4.2 الگوهای سوگیری

همه APIها سوگیری‌های نظام‌مند را نشان دادند: تعدیل بیش‌ازحد گفتار متقابل، توهین‌های بازپس‌گرفته‌شده و محتوای اشاره‌کننده به افراد سیاه‌پوست، LGBTQIA+، یهودی و مسلمان. همزمان، آن‌ها سخنان نفرت‌انگیز ضمنی، به ویژه علیه افراد LGBTQIA+ را کمتر تعدیل کردند.

بینش‌های کلیدی

APIها اغلب برای پیش‌بینی سخنان نفرت‌انگیز بر اصطلاحات هویت گروهی (مانند "سیاه") تکیه می‌کنند
سخنان نفرت‌انگیز ضمنی با استفاده از پیام‌های کدگذاری‌شده به طور مداوم کمتر تعدیل می‌شوند
گفتار متقابل و توهین‌های بازپس‌گرفته‌شده به طور نظام‌مند بیش‌ازحد تعدیل می‌شوند
عملکرد در میان گروه‌های جمعیتی مختلف به طور قابل توجهی متفاوت است

5 پیاده‌سازی کد

در زیر یک پیاده‌سازی ساده‌شده پایتون از چارچوب حسابرسی آورده شده است:

import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support

class ContentModerationAudit:
    def __init__(self, api_endpoints):
        self.apis = api_endpoints
        
    def query_api(self, text, api_config):
        """پرس‌وجوی API تعدیل محتوا"""
        headers = {'Authorization': f'Bearer {api_config["key"]}'}
        payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
        response = requests.post(api_config['url'], json=payload, headers=headers)
        return response.json()
    
    def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
        """محاسبه معیارهای سوگیری در میان گروه‌های محافظت‌شده"""
        metrics = {}
        for group in protected_groups:
            group_mask = protected_groups[group]
            precision, recall, f1, _ = precision_recall_fscore_support(
                ground_truth[group_mask], predictions[group_mask], average='binary'
            )
            metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
        return metrics

# مثال استفاده
api_configs = {
    'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
    'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}

audit = ContentModerationAudit(api_configs)

6 کاربردهای آینده

یافته‌ها پیامدهای قابل توجهی برای سیستم‌های آینده تعدیل محتوا دارند. پژوهش آینده باید بر توسعه مدل‌های دقیق‌تری متمرکز شود که بتوانند بین سخنان نفرت‌انگیز مضر و بحث‌های مشروع درباره هویت تمایز قائل شوند. همان‌طور که در مقاله CycleGAN (Zhu et al., 2017) اشاره شده است، تکنیک‌های انطباق دامنه می‌توانند به حل تغییرات توزیع در میان گروه‌های جمعیتی مختلف کمک کنند. علاوه بر این، با پیروی از رویکرد تیم Perspective API (Lees et al., 2022)، سیستم‌های آینده باید هنجارهای خاص جامعه و پردازش آگاه از زمینه را دربرگیرند.

جهت‌های نوظهور شامل موارد زیر هستند:

تعدیل محتوای چندوجهی که تحلیل متن، تصویر و زمینه را ترکیب می‌کند
رویکردهای یادگیری فدرال برای حفظ حریم خصوصی در حالی که عملکرد مدل بهبود می‌یابد
تکنیک‌های هوش مصنوعی تفسیرپذیر برای ارائه تصمیمات تعدیل شفاف
انطباق بین‌فرهنگی سیستم‌های تعدیل برای پلتفرم‌های جهانی

تحلیل اصلی: شمشیر دولبه تعدیل محتوای خودکار

این پژوهش بینش‌های حیاتی درباره واقعیت‌های عملیاتی APIهای تجاری تعدیل محتوا ارائه می‌دهد و الگوی نگران‌کننده‌ای از سوگیری نظام‌مند را آشکار می‌سازد که جوامع آسیب‌پذیر را به طور نامتناسبی تحت تأثیر قرار می‌دهد. یافته‌ای که APIها اغلب بر اصطلاحات هویت گروهی مانند "سیاه" برای پیش‌بینی سخنان نفرت‌انگیز تکیه می‌کنند، مسائل مشابه شناسایی‌شده در سایر سیستم‌های NLP، مانند سوگیری نژادی یافت‌شده در ابزارهای تحلیل احساسات توسط Sap et al. (2019) را بازتاب می‌دهد. آنچه این مطالعه را به ویژه قابل توجه می‌سازد مقیاس آن—تحلیل پنج میلیون پرس‌وجو در چندین مجموعه‌داده—و چارچوب جامع آن است که معیارهای عملکرد را با تکنیک‌های تفسیرپذیری ترکیب می‌کند.

رویکرد فنی با استفاده از مقادیر SHAP و تحلیل اغتشاش نمایانگر یک روش‌شناسی پیچیده برای حسابرسی سیستم‌های جعبه‌سیاه است. این با فراخوان‌های فزاینده برای شفافیت الگوریتمی، مشابه الزامات در سایر کاربردهای هوش مصنوعی پرریسک مانند تشخیص پزشکی (Topol, 2019) همسو است. تعدیل کمترازحد نظام‌مند سخنان نفرت‌انگیز ضمنی علیه افراد LGBTQIA+ به ویژه نگران‌کننده است، زیرا نشان می‌دهد که سیستم‌های فعلی در تشخیص فرم‌های پیچیده تبعیض که بر توهین‌های صریح تکیه نمی‌کنند شکست می‌خورند.

در مقایسه با مدل‌های متن‌باز حسابرسی‌شده در پژوهش قبلی (Röttger et al., 2021)، APIهای تجاری الگوهای سوگیری مشابهی را نشان می‌دهند اما با تأثیر بالقوه بیشتر در دنیای واقعی به دلیل استقرار گسترده آن‌ها. توصیه برای راهنمایی بهتر در تنظیم آستانه به ویژه مهم است، زیرا بهینه‌سازی آستانه نمایانگر یک نقطه مداخله کلیدی برای کاهش هر دو تعدیل بیش‌ازحد و کمترازحد است. کار آینده باید آستانه‌های انطباقی را که زمینه و هنجارهای جامعه را در نظر می‌گیرند، مشابه رویکردهای مورد بحث در ادبیات انصاف و یادگیری ماشین (Barocas et al., 2019) بررسی کند.

محدودیت‌های مطالعه، از جمله تمرکز آن بر محتوای انگلیسی و گروه‌های جمعیتی خاص، به جهت‌های مهمی برای پژوهش آینده اشاره می‌کنند. با جهانی‌تر شدن روزافزون پلتفرم‌ها، توسعه سیستم‌های تعدیلی که در میان زبان‌ها و زمینه‌های فرهنگی کار می‌کنند ضروری خواهد بود. چارچوب ایجادشده در این مقاله یک بنیاد ارزشمند برای چنین حسابرسی‌های بین‌فرهنگی فراهم می‌کند.

7 منابع

Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.