تضمين AECD للكشف المبكر عن برامج التعدين الخبيثة

1. المقدمة والنظرة العامة

تشكل برامج التعدين الخبيثة (Cryptomining malware) تهديدًا كبيرًا لأمن الأنظمة، مسببةً تدهورًا في العتاد وإهدارًا كبيرًا للطاقة. يكمن التحدي الرئيسي في مواجهة هذا التهديد في تحقيق الكشف المبكر دون المساس بالدقة. غالبًا ما تفشل الطرق الحالية في تحقيق التوازن بين هذين الجانبين الحاسمين. تقدم هذه الورقة البحثية CEDMA (طريقة الكشف المبكر عن برامج التعدين الخبيثة المعتمدة على تضمين AECD)، وهي نهج جديد يستفيد من تسلسلات استدعاءات واجهة برمجة التطبيقات (API) الأولية لتنفيذ البرنامج. من خلال دمج أسماء واجهات برمجة التطبيقات، وفئاتها التشغيلية، ومكتبات الربط الديناميكي (DLLs) المستدعاة منها في تمثيل غني عبر طريقة AECD (تضمين واجهات برمجة التطبيقات المعتمد على الفئة وDLL) المقترحة، ومن ثم تطبيق نموذج TextCNN (الشبكة العصبية التلافيفية للنصوص)، يهدف CEDMA إلى اكتشاف نشاط التعدين الخبيث بسرعة ودقة عالية.

دقة الكشف (عينات معروفة)

98.21%

دقة الكشف (عينات غير معروفة)

96.76%

طول تسلسل الإدخال

3000 استدعاء API

2. المنهجية: إطار عمل CEDMA

يكمن الابتكار الأساسي لـ CEDMA في تمثيله متعدد الأوجه للميزات لتحليل السلوك المبكر.

2.1 آلية تضمين AECD

غالبًا ما يعامل تحليل تسلسل واجهات برمجة التطبيقات (API) التقليدي الاستدعاءات على أنها رموز بسيطة. يثري AECD هذا التمثيل من خلال ربط التضمينات من ثلاثة مصادر:

تضمين اسم API ($e_{api}$): يمثل الوظيفة المحددة المستدعاة (مثل `CreateFileW`، `RegSetValueEx`).
تضمين فئة API ($e_{cat}$): يمثل نوع العملية عالية المستوى (مثل نظام الملفات، السجل، الشبكة). هذا يجرد السلوك، مما يساعد على التعميم.
تضمين DLL ($e_{dll}$): يمثل مكتبة الربط الديناميكي التي يتم منها استدعاء API (مثل `kernel32.dll`، `ntdll.dll`). يوفر هذا سياقًا حول بيئة التنفيذ.

يتم بناء متجه AECD النهائي لاستدعاء API $i$ على النحو التالي: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$، حيث $\oplus$ تشير إلى ربط المتجهات. يلتقط هذا التضمين الثلاثي تواقيع سلوكية أكثر دقة من بيانات التنفيذ الأولية المحدودة.

2.2 بنية نموذج TextCNN

يتم التعامل مع تسلسل متجهات AECD (من أول 3000 استدعاء API) على أنه وثيقة "نصية". يتم استخدام نموذج TextCNN للتصنيف نظرًا لكفاءته وقدرته على التقاط الأنماط التسلسلية المحلية (ميزات n-gram). يتكون النموذج عادةً من:

طبقة التضمين (يتم تهيئتها بمتجهات AECD).
عدة طبقات تلافيفية بأحجام نواة مختلفة (مثل 3، 4، 5) لاستخراج الميزات من أحجام "جرام" مختلفة لتسلسل API.
طبقات التجميع وطبقات الاتصال الكاملة المؤدية إلى مخرج تصنيف ثنائي (برنامج حميد مقابل برنامج تعدين خبيث).

3. النتائج التجريبية والأداء

تم تقييم طريقة CEDMA المقترحة بدقة على مجموعة بيانات تشمل عائلات متنوعة من برامج التعدين الخبيثة (التي تستهدف عملات رقمية متعددة) وعينات متنوعة من البرامج الحميدة.

النتائج الرئيسية:

باستخدام أول 3000 استدعاء API فقط بعد التنفيذ، حقق CEDMA دقة مذهلة بلغت 98.21% على عينات البرامج الضارة المعروفة ودقة 96.76% على عينات البرامج الضارة غير المرئية سابقًا (غير المعروفة).
يُظهر الأداء أن تضمين AECD يعوض بنجاح عن ندرة المعلومات المتأصلة في تحليل المراحل المبكرة من خلال دمج سياق الفئة وDLL.
تكتشف الطريقة البرامج الضارة قبل إنشاء اتصال الشبكة، وهو أمر بالغ الأهمية للاحتواء المبكر ومنع الضرر.

وصف الرسم البياني (المتخيل): رسم بياني شريطي يقارن دقة CEDMA (مع AECD) ودقتها واستدعائها مقابل نموذج أساسي يستخدم فقط تضمينات أسماء API. سيظهر الرسم البياني بوضوح مكاسب أداء كبيرة عبر جميع المقاييس لـ CEDMA، خاصة في الاستدعاء، مما يشير إلى متانته في تحديد حالات البرامج الضارة الحقيقية مبكرًا.

4. التحليل الفني والرؤى الأساسية

الرؤية الأساسية: الاختراق الأساسي للورقة البحثية ليس مجرد تطبيق آخر للشبكة العصبية؛ بل هو ثورة في هندسة الميزات على مستوى التضمين. بينما يطارد معظم البحث نماذج أكثر تعقيدًا (مثل المحولات Transformers)، يتناول CEDMA بذكاء المشكلة الجذرية للكشف المبكر: ندرة البيانات. من خلال حقن السياق الدلالي (الفئة) والبيئي (DLL) مباشرة في متجه الميزة، فإنه يثري بشكل مصطنع الإشارة المحدودة المتاحة من أثر تنفيذ قصير. هذا مشابه لكيفية مكاسب اتساق الدورة في CycleGAN (Zhu et al., 2017) التي مكنت من ترجمة الصورة إلى صورة بدون بيانات مقترنة - كلاهما يحل قيدًا أساسيًا في البيانات من خلال رؤية معمارية أو تمثيلية، بدلاً من مجرد التوسع.

التدفق المنطقي: المنطق خطي بأناقة: 1) الكشف المبكر يتطلب تسلسلات قصيرة. 2) التسلسلات القصيرة تفتقر إلى القوة التمييزية. 3) لذلك، قم بتضخيم كثافة المعلومات لكل رمز (استدعاء API). 4) تحقيق ذلك من خلال دمج قنوات معلومات متعامدة (وظيفة محددة، إجراء عام، مكتبة مصدر). 5) دع نموذجًا بسيطًا وفعالاً (TextCNN) يتعلم الأنماط من هذا التسلسل المثري. خط الأنابيب هذا قوي لأنه يقوي المدخلات بدلاً من تعقيد المعالج.

نقاط القوة والضعف: القوة الأساسية هي فعاليتها العملية - دقة عالية مع الحد الأدنى من النفقات العامة وقت التشغيل، مما يجعل النشر في العالم الحقيقي ممكنًا. استخدام TextCNN، على عكس RNNs أو المحولات الأثقل، هو خيار عملي يتوافق مع الحاجة إلى السرعة في تطبيقات الأمن. ومع ذلك، فإن العيب الحرج هو الضعف المحتمل أمام استدعاءات API الخبيثة. يمكن لبرنامج ضار متطور حقن تسلسلات API تبدو حميدة من مكتبات DLL "صحيحة" وفئات لتسميم فضاء التضمين، وهو تهديد لم يتم مناقشته. علاوة على ذلك، فإن نافذة 3000 API، على الرغم من كونها معيارًا جيدًا، هي عتبة تعسفية؛ متانتها عبر تعقيدات برمجية مختلفة للغاية لا تزال بحاجة إلى إثبات.

رؤى قابلة للتنفيذ: بالنسبة لمديري منتجات الأمن، هذا البحث هو مخطط: أولوية تمثيل الميزات على تعقيد النموذج للتهديدات في الوقت الفعلي. يمكن توسيع مفهوم AECD إلى ما هو أبعد من واجهات برمجة التطبيقات - فكر في سجلات تدفق الشبكة (IP، المنفذ، البروتوكول، نمط حجم الحزمة) أو سجلات النظام. بالنسبة للباحثين، فإن الخطوة التالية هي تعزيز هذه الطريقة ضد التهرب الخبيث، ربما من خلال دمج درجات اكتشاف الشذوذ على فضاء التضمين نفسه. يجب على المجال أن يستعير المزيد من أبحاث التعلم الآلي القوية، مثل تقنيات التدريب الخبيثة التي تمت مناقشتها في أوراق arXiv's cs.CR (التشفير والأمن).

5. إطار التحليل: مثال عملي

السيناريو: تحليل ملف تنفيذي مشبوه تم تنزيله حديثًا.

سير عمل تحليل CEDMA:

التنفيذ الديناميكي في بيئة معزولة (Sandbox): تشغيل الملف التنفيذي في بيئة خاضعة للرقابة ومجهزة لفترة قصيرة جدًا (ثوانٍ).
جمع الأثر: ربط وتسجيل أول ~3000 استدعاء API، جنبًا إلى جنب مع مكتبات الربط الديناميكي (DLLs) المقابلة لها.
إثراء الميزات (AECD):
- لكل استدعاء API (مثل `NtCreateKey`)، استعلام عن تعيين محدد مسبقًا للحصول على فئته (`Registry`).
- تسجيل مكتبة الربط الديناميكي (DLL) المستدعية (`ntdll.dll`).
- توليد متجه AECD المرتبط من جداول التضمين المدربة مسبقًا لـ `NtCreateKey`، و`Registry`، و`ntdll.dll`.
تشكيل التسلسل والتصنيف: إدخال تسلسل 3000 متجه AECD في نموذج TextCNN المدرب مسبقًا.
القرار: ينتج النموذج درجة احتمالية. إذا تجاوزت الدرجة عتبة معينة (مثل >0.95)، يتم وضع علامة على الملف على أنه برنامج تعدين خبيث محتمل وعزله قبل أن يبدأ على الأرجح اتصالاً شبكيًا بمجمع التعدين.

ملاحظة: هذا إطار مفاهيمي. يتطلب التنفيذ الفعلي معالجة مسبقة مكثفة، وتدريب تضمين، وتحسين نموذج.

6. التطبيقات المستقبلية واتجاهات البحث

توسيع سياق التضمين: يمكن للعمل المستقبلي دمج المزيد من السياق، مثل وسيطات استدعاء API (مثل مسارات الملفات، مفاتيح السجل) أو معلومات الخيط/العملية، في مخطط التضمين لإنشاء ملفات تعريف سلوكية أكثر ثراءً.
الكشف عبر المنصات: تكييف مفهوم AECD لمنصات أخرى (استدعاءات نظام Linux، واجهات برمجة تطبيقات macOS) للحماية الشاملة للنقاط الطرفية.
الكشف في الوقت الفعلي للتدفق: تنفيذ CEDMA كمحلل تدفق يجعل تنبؤات مستمرة أثناء إنشاء استدعاءات API، مما يقلل من قيد النافذة الثابتة.
التكامل مع استخبارات التهديدات: استخدام متجهات الميزات المشتقة من AECD كبصمة للاستعلام عن منصات استخبارات التهديدات للبحث عن سلوكيات برامج ضارة معروفة مماثلة.
المتانة ضد الهجمات الخبيثة: كما ذكر في التحليل، فإن البحث في آليات الدفاع ضد البرامج الضارة المصممة للتهرب من طريقة الكشف المحددة هذه هي خطوة حاسمة تالية.

7. المراجع

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Retrieved from SonicWall website.
Berecz, T., et al. (2021). [Relevant work on API-based malware detection]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Seminal TextCNN paper).
arXiv.org, cs.CR (Cryptography and Security) category. [Repository for latest adversarial ML and security research].