1. مقدمه و مرور کلی
بدافزارهای کریپتوماینینگ تهدیدی جدی برای امنیت سیستمها محسوب شده و باعث تخریب سختافزار و اتلاف قابل توجه انرژی میشوند. چالش اصلی در مقابله با این تهدید، دستیابی به تشخیص زودهنگام بدون به خطر انداختن دقت است. روشهای موجود اغلب در متعادلسازی این دو جنبه حیاتی ناتوان هستند. این مقاله CEDMA (روش تشخیص زودهنگام بدافزار کریپتوماینینگ مبتنی بر امبدینگ AECD) را معرفی میکند؛ رویکردی نوین که از توالیهای اولیه فراخوانیهای API در حین اجرای نرمافزار بهره میبرد. با ادغام نامهای API، دستههای عملیاتی آنها و DLLهای فراخوان در یک بازنمایی غنی از طریق روش پیشنهادی AECD (امبدینگ API بر اساس دسته و DLL) و سپس اعمال یک مدل TextCNN (شبکه عصبی کانولوشنی متنی)، CEDMA هدف تشخیص فعالیت مخرب ماینینگ را بهصورت سریع و با دقت بالا دنبال میکند.
دقت تشخیص (نمونههای شناخته شده)
۹۸.۲۱٪
دقت تشخیص (نمونههای ناشناخته)
۹۶.۷۶٪
طول توالی ورودی
۳۰۰۰ فراخوانی API
2. روششناسی: چارچوب CEDMA
نوآوری اصلی CEDMA، بازنمایی چندوجهی ویژگیها برای تحلیل رفتاری زودهنگام است.
2.1 مکانیزم امبدینگ AECD
تحلیل سنتی توالیهای API اغلب فراخوانیهای API را بهعنوان توکنهای ساده در نظر میگیرد. AECD این بازنمایی را با الحاق امبدینگهای حاصل از سه منبع غنی میسازد:
- امبدینگ نام API ($e_{api}$): تابع خاص فراخوانی شده را نشان میدهد (مانند `CreateFileW`، `RegSetValueEx`).
- امبدینگ دسته API ($e_{cat}$): نوع عملیات سطح بالا را نشان میدهد (مانند سیستم فایل، رجیستری، شبکه). این امر رفتار را انتزاع کرده و به تعمیمپذیری کمک میکند.
- امبدینگ DLL ($e_{dll}$): کتابخانه پیوند پویایی که API از آن فراخوانی شده است را نشان میدهد (مانند `kernel32.dll`، `ntdll.dll`). این امر زمینهای درباره محیط اجرا فراهم میکند.
بردار نهایی AECD برای یک فراخوانی API با اندیس $i$ به این صورت ساخته میشود: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$، که در آن $\oplus$ نشاندهنده الحاق بردار است. این امبدینگ سهگانه، امضاهای رفتاری ظریفتری را از دادههای اجرایی اولیه محدود استخراج میکند.
2.2 معماری مدل TextCNN
توالی بردارهای AECD (حاصل از ۳۰۰۰ فراخوانی اول API) بهعنوان یک سند "متنی" در نظر گرفته میشود. یک مدل TextCNN به دلیل کارایی و توانایی آن در تشخیص الگوهای ترتیبی محلی (ویژگیهای n-gram) برای طبقهبندی به کار گرفته میشود. این مدل معمولاً شامل موارد زیر است:
- یک لایه امبدینگ (مقداردهی اولیه شده با بردارهای AECD).
- چندین لایه کانولوشنی با اندازههای کرنل متفاوت (مانند ۳، ۴، ۵) برای استخراج ویژگیها از اندازههای "گرام" مختلف توالی API.
- لایههای Pooling و Fully Connected که به خروجی طبقهبندی دودویی منجر میشوند (بدافزار کریپتوماینینگ در مقابل نرمافزار سالم).
3. نتایج آزمایش و عملکرد
روش پیشنهادی CEDMA بر روی مجموعهدادهای شامل خانوادههای مختلف بدافزار کریپتوماینینگ (هدفگیری ارزهای دیجیتال متعدد) و نمونههای متنوع نرمافزار سالم بهطور دقیق ارزیابی شد.
یافتههای کلیدی:
- با استفاده از تنها اولین ۳۰۰۰ فراخوانی API پس از اجرا، CEDMA به دقت چشمگیر ۹۸.۲۱٪ روی نمونههای بدافزار شناخته شده و ۹۶.۷۶٪ روی نمونههای بدافزار دیده نشده قبلی (ناشناخته) دست یافت.
- این عملکرد نشان میدهد که امبدینگ AECD با موفقیت کمبود اطلاعات ذاتی در تحلیل مراحل اولیه را با گنجاندن زمینه دستهای و DLL جبران میکند.
- این روش بهطور مؤثری بدافزار را پیش از برقراری اتصال شبکه تشخیص میدهد که برای مهار زودهنگام و جلوگیری از خسارت حیاتی است.
توضیح نمودار (فرضی): یک نمودار میلهای که دقت، صحت و بازیابی CEDMA (با AECD) را در مقایسه با یک مدل پایه که تنها از امبدینگ نام API استفاده میکند، مقایسه میکند. این نمودار به وضوح بهبود عملکرد قابل توجهی را در تمامی معیارها برای CEDMA، به ویژه در بازیابی، نشان میدهد که نشاندهنده استحکام آن در شناسایی نمونههای واقعی بدافزار در مراحل اولیه است.
4. تحلیل فنی و بینشهای کلیدی
بینش کلیدی: دستاورد بنیادی این مقاله صرفاً یک کاربرد دیگر شبکه عصبی نیست؛ بلکه یک انقلاب در مهندسی ویژگی در سطح امبدینگ است. در حالی که بیشتر پژوهشها به دنبال مدلهای پیچیدهتر (مانند ترنسفورمرها) هستند، CEDMA هوشمندانه مسئله ریشهای تشخیص زودهنگام را مورد توجه قرار میدهد: کمبود داده. با تزریق زمینه معنایی (دسته) و محیطی (DLL) مستقیماً به بردار ویژگی، سیگنال محدود موجود از ردپای اجرایی کوتاه را بهصورت مصنوعی غنی میسازد. این امر مشابه نحوهای است که تابع زیان سازگاری چرخهای در CycleGAN (Zhu و همکاران، ۲۰۱۷) ترجمه تصویر به تصویر را بدون داده جفتشده ممکن ساخت—هر دو یک محدودیت داده اصلی را با یک بینش معماری یا بازنمایی حل میکنند، نه صرفاً با بزرگتر کردن مقیاس.
جریان منطقی: منطق به زیبایی خطی است: ۱) تشخیص زودهنگام نیازمند توالیهای کوتاه است. ۲) توالیهای کوتاه فاقد قدرت تشخیصی کافی هستند. ۳) بنابراین، چگالی اطلاعات به ازای هر توکن (فراخوانی API) را تقویت کنید. ۴) این کار را با ادغام کانالهای اطلاعاتی متعامد (تابع خاص، عمل کلی، کتابخانه مبدأ) محقق سازید. ۵) اجازه دهید یک مدل ساده و کارآمد (TextCNN) الگوها را از این توالی غنیشده بیاموزد. این خط لوله مستحکم است زیرا ورودی را تقویت میکند نه اینکه پردازنده را بیش از حد پیچیده کند.
نقاط قوت و ضعف: نقطه قوت اصلی آن کارایی عملی است—دقت بالا با سربار زمان اجرای حداقلی که استقرار در دنیای واقعی را امکانپذیر میسازد. استفاده از TextCNN، در مقابل RNNها یا ترنسفورمرهای سنگینتر، انتخابی کاربردی است که با نیاز به سرعت در کاربردهای امنیتی همسو است. با این حال، یک ضعف حیاتی آسیبپذیری بالقوه در برابر فراخوانیهای API متخاصم است. یک بدافزار پیچیده میتواند توالیهای API به ظاهر سالم از DLLها و دستههای "صحیح" را تزریق کند تا فضای امبدینگ را مسموم سازد، تهدیدی که مورد بحث قرار نگرفته است. علاوه بر این، پنجره ۳۰۰۰ فراخوانی API، اگرچه معیار خوبی است، یک آستانه دلخواه است؛ استحکام آن در نرمافزارهای با پیچیدگی بسیار متفاوت هنوز باید اثبات شود.
بینشهای عملی: برای مدیران محصولات امنیتی، این پژوهش یک نقشه راه است: برای تهدیدات بلادرنگ، اولویت را به بازنمایی ویژگی نسبت به پیچیدگی مدل بدهید. مفهوم AECD میتواند فراتر از APIها گسترش یابد—به لاگهای جریان شبکه (IP، پورت، پروتکل، الگوی اندازه بسته) یا لاگهای سیستم فکر کنید. برای پژوهشگران، گام بعدی مقاومسازی این روش در برابر فرار متخاصم است، شاید با ادغام امتیازات تشخیص ناهنجاری در خود فضای امبدینگ. این حوزه باید بیشتر از پژوهشهای ML مقاوم وام بگیرد، مانند تکنیکهای آموزش متخاصمی که در مقالات موجود در مخزن cs.CR (رمزنگاری و امنیت) arXiv مورد بحث قرار گرفتهاند.
5. چارچوب تحلیل: یک مثال عملی
سناریو: تحلیل یک فایل اجرایی مشکوک که به تازگی دانلود شده است.
گردش کار تحلیل CEDMA:
- اجرای پویا در سندباکس: اجرای فایل در یک محیط کنترلشده و ابزارگذاری شده برای مدت زمان بسیار کوتاه (چند ثانیه).
- جمعآوری ردپا: هوک و ثبت حدود ۳۰۰۰ فراخوانی اول API، به همراه DLLهای متناظر آنها.
- غنیسازی ویژگی (AECD):
- برای هر فراخوانی API (مانند `NtCreateKey`)، یک نگاشت از پیش تعریف شده را برای دریافت دسته آن (`رجیستری`) پرس و جو کنید.
- DLL فراخوان (`ntdll.dll`) را یادداشت کنید.
- بردار الحاق شده AECD را از جداول امبدینگ از پیش آموزش دیده برای `NtCreateKey`، `رجیستری` و `ntdll.dll` تولید کنید.
- تشکیل توالی و طبقهبندی: توالی ۳۰۰۰ بردار AECD را به مدل TextCNN از پیش آموزش دیده وارد کنید.
- تصمیمگیری: مدل یک امتیاز احتمال خروجی میدهد. اگر امتیاز از یک آستانه فراتر رود (مثلاً >۰.۹۵)، فایل بهعنوان بدافزار کریپتوماینینگ بالقوه پرچمگذاری شده و پیش از آنکه به احتمال زیاد اتصال شبکه به استخر ماینینگ را آغاز کند، قرنطینه میشود.
توجه: این یک چارچوب مفهومی است. پیادهسازی واقعی نیازمند پیشپردازش گسترده، آموزش امبدینگ و بهینهسازی مدل است.
6. کاربردهای آینده و جهتهای پژوهشی
- گسترش زمینه امبدینگ: کارهای آینده میتوانند زمینههای بیشتری، مانند آرگومانهای فراخوانی API (مانند مسیر فایل، کلیدهای رجیستری) یا اطلاعات نخ/فرآیند را در طرح امبدینگ بگنجانند تا پروفایلهای رفتاری حتی غنیتری ایجاد کنند.
- تشخیص چندسکویی: تطبیق مفهوم AECD برای سایر پلتفرمها (فراخوانیهای سیستمی لینوکس، APIهای macOS) برای حفاظت جامع نقطه پایانی.
- تشخیص جریانی بلادرنگ: پیادهسازی CEDMA بهعنوان یک تحلیلگر جریانی که پیشبینیهای پیوسته در حین تولید فراخوانیهای API انجام میدهد و محدودیت پنجره ثابت را کاهش میدهد.
- ادغام با هوش تهدید: استفاده از بردارهای ویژگی مشتق شده از AECD بهعنوان اثرانگشت برای پرس و جو از پلتفرمهای هوش تهدید برای یافتن رفتارهای مشابه بدافزارهای شناخته شده.
- مقاومت در برابر حملات متخاصم: همانطور که در تحلیل ذکر شد، پژوهش درباره مکانیزمهای دفاعی در برابر بدافزارهایی که برای فرار از این روش تشخیص خاص طراحی شدهاند، گام بعدی حیاتی است.
7. مراجع
- Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
- SonicWall. (2023). SonicWall Cyber Threat Report 2023. Retrieved from SonicWall website.
- Berecz, T., et al. (2021). [Relevant work on API-based malware detection]. Conference on Security and Privacy.
- Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Seminal TextCNN paper).
- arXiv.org, cs.CR (Cryptography and Security) category. [Repository for latest adversarial ML and security research].