فهرست مطالب
5M+
پرسوجوهای تحلیلشده
5
APIهای حسابرسیشده
4
مجموعهدادههای استفادهشده
1 مقدمه
APIهای تجاری تعدیل محتوا به عنوان راهحلهای مقیاسپذیر برای مبارزه با سخنان نفرتانگیز آنلاین به بازار عرضه میشوند، اما آنها هم ساکت کردن گفتار مشروع (تعدیل بیشازحد) و هم عدم محافظت از کاربران در برابر محتوای مضر (تعدیل کمترازحد) را به خطر میاندازند. این مقاله یک چارچوب جامع برای حسابرسی سیستمهای NLP جعبهسیاه مورد استفاده در تعدیل محتوا معرفی میکند.
2 روششناسی
2.1 چارچوب حسابرسی
چارچوب حسابرسی جعبهسیاه ما APIهای تجاری تعدیل محتوا را از طریق چندین رویکرد ارزیابی میکند: ارزیابی عملکرد، تحلیل تفسیرپذیری SHAP و تحلیل اغتشاش. این چارچوب پنج میلیون پرسوجو را در چهار مجموعهداده تحلیل میکند تا الگوهای سوگیری را به صورت نظاممند ارزیابی کند.
2.2 مجموعهدادهها
این مطالعه از چهار مجموعهداده متنوع استفاده میکند: HateXplain برای سخنان نفرتانگیز عمومی، Civil Comments برای متون طولانیتر، ToxiGen برای سخنان نفرتانگیز ضمنی و SBIC برای کلیشهها و سوگیری ضمنی. این تنوع ارزیابی جامعی در میان تظاهرات مختلف سخنان نفرتانگیز را تضمین میکند.
2.3 APIهای ارزیابیشده
پنج API تجاری ارزیابی شدند: Google Natural Language API، Microsoft Azure Content Moderation، OpenAI Content Moderation API، Perspective API و Amazon Comprehend. اینها نماینده ارائهدهندگان اصلی در بازار تعدیل محتوای تجاری هستند.
3 چارچوب فنی
3.1 تحلیل SHAP
مقادیر SHAP (توضیحات افزایشی شپلی) برای توضیح خروجی مدلهای یادگیری ماشین استفاده میشوند. مقدار SHAP برای ویژگی $i$ به صورت زیر محاسبه میشود:
$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$
که در آن $N$ مجموعه تمام ویژگیها، $S$ یک زیرمجموعه از ویژگیها و $f$ تابع پیشبینی مدل است.
3.2 تحلیل اغتشاش
امتیازات انصاف توکنهای متقابلی با اغتشاش نظاممند متن ورودی و اندازهگیری تغییرات در تصمیمات تعدیل محاسبه میشوند. این به شناسایی توکنهایی که به طور نامتناسبی بر نتایج تعدیل تأثیر میگذارند کمک میکند.
4 نتایج
4.1 معیارهای عملکرد
این مطالعه تغییرات قابل توجهی در عملکرد APIها پیدا کرد. OpenAI و Amazon با امتیازات F1 به ترتیب 0.83 و 0.81 عملکرد کمی بهتری داشتند، در حالی که سایر APIها عملکرد پایینتری نشان دادند (مایکروسافت: 0.74، Perspective: 0.62، گوگل: 0.59).
4.2 الگوهای سوگیری
همه APIها سوگیریهای نظاممند را نشان دادند: تعدیل بیشازحد گفتار متقابل، توهینهای بازپسگرفتهشده و محتوای اشارهکننده به افراد سیاهپوست، LGBTQIA+، یهودی و مسلمان. همزمان، آنها سخنان نفرتانگیز ضمنی، به ویژه علیه افراد LGBTQIA+ را کمتر تعدیل کردند.
بینشهای کلیدی
- APIها اغلب برای پیشبینی سخنان نفرتانگیز بر اصطلاحات هویت گروهی (مانند "سیاه") تکیه میکنند
- سخنان نفرتانگیز ضمنی با استفاده از پیامهای کدگذاریشده به طور مداوم کمتر تعدیل میشوند
- گفتار متقابل و توهینهای بازپسگرفتهشده به طور نظاممند بیشازحد تعدیل میشوند
- عملکرد در میان گروههای جمعیتی مختلف به طور قابل توجهی متفاوت است
5 پیادهسازی کد
در زیر یک پیادهسازی سادهشده پایتون از چارچوب حسابرسی آورده شده است:
import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support
class ContentModerationAudit:
def __init__(self, api_endpoints):
self.apis = api_endpoints
def query_api(self, text, api_config):
"""پرسوجوی API تعدیل محتوا"""
headers = {'Authorization': f'Bearer {api_config["key"]}'}
payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
response = requests.post(api_config['url'], json=payload, headers=headers)
return response.json()
def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
"""محاسبه معیارهای سوگیری در میان گروههای محافظتشده"""
metrics = {}
for group in protected_groups:
group_mask = protected_groups[group]
precision, recall, f1, _ = precision_recall_fscore_support(
ground_truth[group_mask], predictions[group_mask], average='binary'
)
metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
return metrics
# مثال استفاده
api_configs = {
'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}
audit = ContentModerationAudit(api_configs)
6 کاربردهای آینده
یافتهها پیامدهای قابل توجهی برای سیستمهای آینده تعدیل محتوا دارند. پژوهش آینده باید بر توسعه مدلهای دقیقتری متمرکز شود که بتوانند بین سخنان نفرتانگیز مضر و بحثهای مشروع درباره هویت تمایز قائل شوند. همانطور که در مقاله CycleGAN (Zhu et al., 2017) اشاره شده است، تکنیکهای انطباق دامنه میتوانند به حل تغییرات توزیع در میان گروههای جمعیتی مختلف کمک کنند. علاوه بر این، با پیروی از رویکرد تیم Perspective API (Lees et al., 2022)، سیستمهای آینده باید هنجارهای خاص جامعه و پردازش آگاه از زمینه را دربرگیرند.
جهتهای نوظهور شامل موارد زیر هستند:
- تعدیل محتوای چندوجهی که تحلیل متن، تصویر و زمینه را ترکیب میکند
- رویکردهای یادگیری فدرال برای حفظ حریم خصوصی در حالی که عملکرد مدل بهبود مییابد
- تکنیکهای هوش مصنوعی تفسیرپذیر برای ارائه تصمیمات تعدیل شفاف
- انطباق بینفرهنگی سیستمهای تعدیل برای پلتفرمهای جهانی
تحلیل اصلی: شمشیر دولبه تعدیل محتوای خودکار
این پژوهش بینشهای حیاتی درباره واقعیتهای عملیاتی APIهای تجاری تعدیل محتوا ارائه میدهد و الگوی نگرانکنندهای از سوگیری نظاممند را آشکار میسازد که جوامع آسیبپذیر را به طور نامتناسبی تحت تأثیر قرار میدهد. یافتهای که APIها اغلب بر اصطلاحات هویت گروهی مانند "سیاه" برای پیشبینی سخنان نفرتانگیز تکیه میکنند، مسائل مشابه شناساییشده در سایر سیستمهای NLP، مانند سوگیری نژادی یافتشده در ابزارهای تحلیل احساسات توسط Sap et al. (2019) را بازتاب میدهد. آنچه این مطالعه را به ویژه قابل توجه میسازد مقیاس آن—تحلیل پنج میلیون پرسوجو در چندین مجموعهداده—و چارچوب جامع آن است که معیارهای عملکرد را با تکنیکهای تفسیرپذیری ترکیب میکند.
رویکرد فنی با استفاده از مقادیر SHAP و تحلیل اغتشاش نمایانگر یک روششناسی پیچیده برای حسابرسی سیستمهای جعبهسیاه است. این با فراخوانهای فزاینده برای شفافیت الگوریتمی، مشابه الزامات در سایر کاربردهای هوش مصنوعی پرریسک مانند تشخیص پزشکی (Topol, 2019) همسو است. تعدیل کمترازحد نظاممند سخنان نفرتانگیز ضمنی علیه افراد LGBTQIA+ به ویژه نگرانکننده است، زیرا نشان میدهد که سیستمهای فعلی در تشخیص فرمهای پیچیده تبعیض که بر توهینهای صریح تکیه نمیکنند شکست میخورند.
در مقایسه با مدلهای متنباز حسابرسیشده در پژوهش قبلی (Röttger et al., 2021)، APIهای تجاری الگوهای سوگیری مشابهی را نشان میدهند اما با تأثیر بالقوه بیشتر در دنیای واقعی به دلیل استقرار گسترده آنها. توصیه برای راهنمایی بهتر در تنظیم آستانه به ویژه مهم است، زیرا بهینهسازی آستانه نمایانگر یک نقطه مداخله کلیدی برای کاهش هر دو تعدیل بیشازحد و کمترازحد است. کار آینده باید آستانههای انطباقی را که زمینه و هنجارهای جامعه را در نظر میگیرند، مشابه رویکردهای مورد بحث در ادبیات انصاف و یادگیری ماشین (Barocas et al., 2019) بررسی کند.
محدودیتهای مطالعه، از جمله تمرکز آن بر محتوای انگلیسی و گروههای جمعیتی خاص، به جهتهای مهمی برای پژوهش آینده اشاره میکنند. با جهانیتر شدن روزافزون پلتفرمها، توسعه سیستمهای تعدیلی که در میان زبانها و زمینههای فرهنگی کار میکنند ضروری خواهد بود. چارچوب ایجادشده در این مقاله یک بنیاد ارزشمند برای چنین حسابرسیهای بینفرهنگی فراهم میکند.
7 منابع
- Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
- Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
- Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
- Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
- Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.