সূচিপত্র
৫০ লক্ষ+
বিশ্লেষণকৃত কুয়েরি
৫
নিরীক্ষিত API
৪
ব্যবহৃত ডেটাসেট
1 ভূমিকা
বাণিজ্যিক কনটেন্ট মডারেশন API-গুলো অনলাইন ঘৃণামূলক বক্তৃতা মোকাবেলায় স্কেলযোগ্য সমাধান হিসেবে বিপণন করা হয়, কিন্তু এগুলো বৈধ বক্তৃতাকে নিষ্পত্তি করা (অতিমডারেশন) এবং ব্যবহারকারীদের ক্ষতিকর কনটেন্ট থেকে রক্ষা করতে ব্যর্থ হওয়া (অপমডারেশন) - উভয় ঝুঁকিই বহন করে। এই গবেষণাপত্র কনটেন্ট মডারেশনে ব্যবহৃত ব্ল্যাক-বক্স NLP সিস্টেম নিরীক্ষণের জন্য একটি ব্যাপক কাঠামো উপস্থাপন করে।
2 পদ্ধতি
2.1 নিরীক্ষণ কাঠামো
আমাদের ব্ল্যাক-বক্স নিরীক্ষণ কাঠামো একাধিক পদ্ধতিতে বাণিজ্যিক কনটেন্ট মডারেশন API-গুলোর মূল্যায়ন করে: কর্মদক্ষতা মূল্যায়ন, SHAP ব্যাখ্যামূলক বিশ্লেষণ, এবং পের্টার্বেশন বিশ্লেষণ। এই কাঠামো চারটি ডেটাসেট জুড়ে পঞ্চাশ লক্ষ কুয়েরি বিশ্লেষণ করে পদ্ধতিগতভাবে পক্ষপাতের ধরণগুলি মূল্যায়ন করে।
2.2 ডেটাসেট
গবেষণাটি চারটি বৈচিত্র্যময় ডেটাসেট ব্যবহার করে: সাধারণ ঘৃণামূলক বক্তৃতার জন্য HateXplain, দীর্ঘ টেক্সটের জন্য Civil Comments, অন্তর্নিহিত ঘৃণামূলক বক্তৃতার জন্য ToxiGen, এবং স্টেরিওটাইপ ও অন্তর্নিহিত পক্ষপাতের জন্য SBIC। এই বৈচিত্র্য বিভিন্ন ঘৃণামূলক বক্তৃতার প্রকাশভঙ্গি জুড়ে সামগ্রিক মূল্যায়ন নিশ্চিত করে।
2.3 মূল্যায়নকৃত API
পাঁচটি বাণিজ্যিক API মূল্যায়ন করা হয়েছে: Google Natural Language API, Microsoft Azure Content Moderation, OpenAI Content Moderation API, Perspective API, এবং Amazon Comprehend। এগুলি বাণিজ্যিক কনটেন্ট মডারেশন বাজারের প্রধান প্রদানকারীদের প্রতিনিধিত্ব করে।
3 প্রযুক্তিগত কাঠামো
3.1 SHAP বিশ্লেষণ
SHAP (SHapley Additive exPlanations) মানগুলি মেশিন লার্নিং মডেলের আউটপুট ব্যাখ্যা করতে ব্যবহৃত হয়। ফিচার $i$-এর জন্য SHAP মান নিম্নরূপে গণনা করা হয়:
$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!}[f(S \cup \{i\}) - f(S)]$
যেখানে $N$ হল সমস্ত ফিচারের সেট, $S$ হল ফিচারের একটি উপসেট, এবং $f$ হল মডেল প্রেডিকশন ফাংশন।
3.2 পের্টার্বেশন বিশ্লেষণ
কাউন্টারফ্যাকচুয়াল টোকেন ফেয়ারনেস স্কোর ইনপুট টেক্সটকে পদ্ধতিগতভাবে পরিবর্তন করে এবং মডারেশন সিদ্ধান্তের পরিবর্তন পরিমাপ করে গণনা করা হয়। এটি চিহ্নিত করতে সাহায্য করে যে কোন টোকেনগুলি মডারেশন ফলাফলকে অসমভাবে প্রভাবিত করে।
4 ফলাফল
4.1 কর্মদক্ষতা মেট্রিক্স
গবেষণায় API-এর কর্মদক্ষতায় উল্লেখযোগ্য তারতম্য পাওয়া গেছে। OpenAI এবং Amazon যথাক্রমে 0.83 এবং 0.81 F1 স্কোর নিয়ে কিছুটা ভালো পারফর্ম করেছে, অন্যদিকে অন্যান্য API-গুলি নিম্ন কর্মদক্ষতা দেখিয়েছে (Microsoft: 0.74, Perspective: 0.62, Google: 0.59)।
4.2 পক্ষপাতের ধরণ
সমস্ত API-ই পদ্ধতিগত পক্ষপাত প্রদর্শন করেছে: কাউন্টার-স্পিচ, পুনরুদ্ধারকৃত অভিশাপ, এবং কালো, LGBTQIA+, ইহুদি ও মুসলমানদের উল্লেখ করা কনটেন্টের অতিমডারেশন। একই সময়ে, তারা অন্তর্নিহিত ঘৃণামূলক বক্তৃতা, বিশেষ করে LGBTQIA+ ব্যক্তিদের বিরুদ্ধে, অপমডারেশন করেছে।
মূল অন্তর্দৃষ্টি
- API-গুলি ঘৃণামূলক বক্তৃতা ভবিষ্যদ্বাণী করতে প্রায়শই গ্রুপ আইডেন্টিটি টার্ম (যেমন, "কালো") এর উপর নির্ভর করে
- কোডিফাইড বার্তা ব্যবহার করে অন্তর্নিহিত ঘৃণামূলক বক্তৃতা ধারাবাহিকভাবে অপমডারেটেড হয়
- কাউন্টার-স্পিচ এবং পুনরুদ্ধারকৃত অভিশাপ পদ্ধতিগতভাবে অতিমডারেটেড হয়
- বিভিন্ন জনসংখ্যাগত গোষ্ঠী জুড়ে কর্মদক্ষতা উল্লেখযোগ্যভাবে পরিবর্তিত হয়
5 কোড বাস্তবায়ন
নিচে নিরীক্ষণ কাঠামোর একটি সরলীকৃত পাইথন বাস্তবায়ন দেওয়া হল:
import requests
import pandas as pd
from sklearn.metrics import precision_recall_fscore_support
class ContentModerationAudit:
def __init__(self, api_endpoints):
self.apis = api_endpoints
def query_api(self, text, api_config):
"""কনটেন্ট মডারেশন API কুয়েরি করুন"""
headers = {'Authorization': f'Bearer {api_config["key"]}'}
payload = {'text': text, 'threshold': api_config.get('threshold', 0.5)}
response = requests.post(api_config['url'], json=payload, headers=headers)
return response.json()
def calculate_bias_metrics(self, predictions, ground_truth, protected_groups):
"""সুরক্ষিত গোষ্ঠী জুড়ে পক্ষপাত মেট্রিক্স গণনা করুন"""
metrics = {}
for group in protected_groups:
group_mask = protected_groups[group]
precision, recall, f1, _ = precision_recall_fscore_support(
ground_truth[group_mask], predictions[group_mask], average='binary'
)
metrics[group] = {'precision': precision, 'recall': recall, 'f1': f1}
return metrics
# উদাহরণ ব্যবহার
api_configs = {
'openai': {'url': 'https://api.openai.com/v1/moderations', 'key': 'YOUR_KEY'},
'amazon': {'url': 'https://comprehend.amazonaws.com', 'key': 'YOUR_KEY'}
}
audit = ContentModerationAudit(api_configs)
6 ভবিষ্যত প্রয়োগ
এই গবেষণার ফলাফল ভবিষ্যতের কনটেন্ট মডারেশন সিস্টেমের জন্য উল্লেখযোগ্য প্রভাব বহন করে। ভবিষ্যতের গবেষণার ক্ষতিকর ঘৃণামূলক বক্তৃতা এবং আইডেন্টিটির বৈধ আলোচনার মধ্যে পার্থক্য করতে সক্ষম এমন আরও সূক্ষ্ম মডেল উন্নয়নের উপর ফোকাস করা উচিত। CycleGAN গবেষণাপত্রে (Zhu et al., 2017) উল্লিখিত হিসাবে, ডোমেইন অ্যাডাপ্টেশন টেকনিক বিভিন্ন জনসংখ্যাগত গোষ্ঠী জুড়ে ডিস্ট্রিবিউশন শিফট মোকাবেলায় সাহায্য করতে পারে। এছাড়াও, Perspective API টিমের পদ্ধতি (Lees et al., 2022) অনুসরণ করে, ভবিষ্যতের সিস্টেমগুলিতে কমিউনিটি-স্পেসিফিক নর্ম এবং কনটেক্সট-অ্যাওয়্যার প্রসেসিং অন্তর্ভুক্ত করা উচিত।
উদীয়মান দিকগুলির মধ্যে রয়েছে:
- টেক্সট, ইমেজ এবং কনটেক্সট বিশ্লেষণ সমন্বিত মাল্টি-মোডাল কনটেন্ট মডারেশন
- মডেল কর্মদক্ষতা উন্নত করার সময় প্রাইভেসি সংরক্ষণের জন্য ফেডারেটেড লার্নিং পদ্ধতি
- স্বচ্ছ মডারেশন সিদ্ধান্ত প্রদানের জন্য এক্সপ্লেইনেবল AI টেকনিক
- গ্লোবাল প্ল্যাটফর্মের জন্য মডারেশন সিস্টেমের ক্রস-কালচারাল অ্যাডাপ্টেশন
মূল বিশ্লেষণ: অটোমেটেড কনটেন্ট মডারেশনের দ্বিমুখী তরোয়াল
এই গবেষণা বাণিজ্যিক কনটেন্ট মডারেশন API-গুলোর অপারেশনাল বাস্তবতা সম্পর্কে গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করে, যা ঝুঁকিপূর্ণ সম্প্রদায়গুলিকে অসমভাবে প্রভাবিত করে এমন একটি উদ্বেগজনক পদ্ধতিগত পক্ষপাতের ধরণ প্রকাশ করে। এই সত্য যে API-গুলি প্রায়শই "কালো"-এর মতো গ্রুপ আইডেন্টিটি টার্ম ঘৃণামূলক বক্তৃতা ভবিষ্যদ্বাণী করতে ব্যবহার করে, তা অন্যান্য NLP সিস্টেমে চিহ্নিত অনুরূপ সমস্যার প্রতিধ্বনি করে, যেমন Sap et al. (2019) দ্বারা সেন্টিমেন্ট অ্যানালিসিস টুলে পাওয়া জাতিগত পক্ষপাত। এই গবেষণাকে বিশেষভাবে গুরুত্বপূর্ণ করে তোলে এর স্কেল—একাধিক ডেটাসেট জুড়ে পঞ্চাশ লক্ষ কুয়েরি বিশ্লেষণ—এবং এর ব্যাপক কাঠামো যা কর্মদক্ষতা মেট্রিক্সকে ব্যাখ্যামূলক টেকনিকের সাথে একত্রিত করে।
SHAP মান এবং পের্টার্বেশন বিশ্লেষণ ব্যবহার করে প্রযুক্তিগত পদ্ধতি ব্ল্যাক-বক্স সিস্টেম নিরীক্ষণের জন্য একটি অত্যাধুনিক পদ্ধতির প্রতিনিধিত্ব করে। এটি অ্যালগরিদমিক স্বচ্ছতার জন্য ক্রমবর্ধমান আহ্বানের সাথে সামঞ্জস্যপূর্ণ, স্বাস্থ্যসেবা ডায়াগনস্টিক্সের মতো অন্যান্য উচ্চ-স্টেক AI অ্যাপ্লিকেশনে প্রয়োজনীয়তার অনুরূপ (Topol, 2019)। LGBTQIA+ ব্যক্তিদের বিরুদ্ধে অন্তর্নিহিত ঘৃণামূলক বক্তৃতার পদ্ধতিগত অপমডারেশন বিশেষভাবে উদ্বেগজনক, কারণ এটি পরামর্শ দেয় যে বর্তমান সিস্টেমগুলি বৈষম্যের পরিশীলিত ফর্মগুলিকে চিনতে ব্যর্থ হয় যা স্পষ্ট অভিশাপের উপর নির্ভর করে না।
পূর্ববর্তী গবেষণায় নিরীক্ষিত ওপেন-সোর্স মডেলের (Röttger et al., 2021) তুলনায়, বাণিজ্যিক API-গুলি অনুরূপ পক্ষপাতের ধরণ দেখায় কিন্তু তাদের ব্যাপক স্থাপনার কারণে সম্ভাব্য বৃহত্তর বাস্তব-বিশ্বের প্রভাব সহ। থ্রেশহোল্ড সেটিং-এ更好的 গাইডেন্সের সুপারিশ বিশেষভাবে গুরুত্বপূর্ণ, কারণ থ্রেশহোল্ড অপ্টিমাইজেশন অতিমডারেশন এবং অপমডারেশন উভয়ই কমানোর জন্য একটি মূল হস্তক্ষেপ পয়েন্ট উপস্থাপন করে। ভবিষ্যতের কাজের জন্য অ্যাডাপ্টিভ থ্রেশহোল্ড অন্বেষণ করা উচিত যা কনটেক্সট এবং কমিউনিটি নর্ম বিবেচনা করে, Fairness and Machine Learning সাহিত্যে (Barocas et al., 2019) আলোচিত পদ্ধতির অনুরূপ।
গবেষণার সীমাবদ্ধতা, যার মধ্যে ইংরেজি ভাষার কনটেন্ট এবং নির্দিষ্ট জনসংখ্যাগত গোষ্ঠীর উপর ফোকাস অন্তর্ভুক্ত, ভবিষ্যতের গবেষণার জন্য গুরুত্বপূর্ণ দিক নির্দেশ করে। প্ল্যাটফর্মগুলি ক্রমবর্ধমানভাবে বিশ্বব্যাপী হয়ে উঠলে, এমন মডারেশন সিস্টেম তৈরি করা অপরিহার্য হবে যা ভাষা এবং সাংস্কৃতিক প্রসঙ্গ জুড়ে কাজ করে। এই গবেষণাপত্রে প্রতিষ্ঠিত কাঠামো এমন ক্রস-কালচারাল নিরীক্ষণের জন্য একটি মূল্যবান ভিত্তি প্রদান করে।
7 তথ্যসূত্র
- Hartmann, D., Oueslati, A., Staufer, D., Pohlmann, L., Munzert, S., & Heuer, H. (2025). Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations. arXiv:2503.01623
- Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019). The Risk of Racial Bias in Hate Speech Detection. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
- Röttger, P., Vidgen, B., Nguyen, D., Waseem, Z., Margetts, H., & Pierrehumbert, J. (2021). HateCheck: Functional Tests for Hate Speech Detection Models. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics.
- Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision.
- Lees, A., Tran, V. Q., Tay, Y., Sorensen, J., Gupta, A., Metzler, D., & Vasserman, L. (2022). A New Generation of Perspective API: Efficient Multilingual Character-level Transformers. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning. fairmlbook.org.
- Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25(1), 44-56.