क्रिप्टोमाइनिंग मैलवेयर की प्रारंभिक पहचान के लिए AECD एम्बेडिंग

1. परिचय एवं अवलोकन

क्रिप्टोमाइनिंग मैलवेयर सिस्टम सुरक्षा के लिए एक गंभीर खतरा है, जो हार्डवेयर क्षति और पर्याप्त ऊर्जा अपव्यय का कारण बनता है। इस खतरे से निपटने में प्राथमिक चुनौती सटीकता से समझौता किए बिना प्रारंभिक पहचान हासिल करना है। मौजूदा विधियां अक्सर इन दोनों महत्वपूर्ण पहलुओं के बीच संतुलन बनाने में विफल रहती हैं। यह शोध पत्र CEDMA (AECD एम्बेडिंग पर आधारित क्रिप्टोमाइनिंग मैलवेयर प्रारंभिक पहचान विधि) का परिचय देता है, जो सॉफ़्टवेयर निष्पादन के प्रारंभिक API कॉल अनुक्रमों का लाभ उठाने वाला एक नवीन दृष्टिकोण है। प्रस्तावित AECD (श्रेणी और DLL पर आधारित API एम्बेडिंग) विधि के माध्यम से API नामों, उनके परिचालन श्रेणियों और कॉलिंग DLL को एक समृद्ध प्रतिनिधित्व में सम्मिलित करके, और उसके बाद एक TextCNN (टेक्स्ट कन्वल्यूशनल न्यूरल नेटवर्क) मॉडल लागू करके, CEDMA का लक्ष्य दुर्भावनापूर्ण माइनिंग गतिविधि का त्वरित और उच्च परिशुद्धता के साथ पता लगाना है।

पहचान सटीकता (ज्ञात नमूने)

98.21%

पहचान सटीकता (अज्ञात नमूने)

96.76%

इनपुट अनुक्रम लंबाई

3,000 API कॉल

2. पद्धति: CEDMA ढांचा

CEDMA की मूल नवीनता प्रारंभिक व्यवहार विश्लेषण के लिए इसका बहुआयामी फ़ीचर प्रतिनिधित्व है।

2.1 AECD एम्बेडिंग तंत्र

पारंपरिक API अनुक्रम विश्लेषण अक्सर API कॉल को साधारण टोकन के रूप में मानता है। AECD तीन स्रोतों से एम्बेडिंग को संयोजित करके इस प्रतिनिधित्व को समृद्ध बनाता है:

API नाम एम्बेडिंग ($e_{api}$): कॉल की गई विशिष्ट फ़ंक्शन का प्रतिनिधित्व करता है (जैसे, `CreateFileW`, `RegSetValueEx`)।
API श्रेणी एम्बेडिंग ($e_{cat}$): उच्च-स्तरीय परिचालन प्रकार का प्रतिनिधित्व करता है (जैसे, फ़ाइल सिस्टम, रजिस्ट्री, नेटवर्क)। यह व्यवहार को अमूर्त बनाता है, सामान्यीकरण में सहायता करता है।
DLL एम्बेडिंग ($e_{dll}$): उस डायनेमिक लिंक लाइब्रेरी का प्रतिनिधित्व करता है जिससे API कॉल की जाती है (जैसे, `kernel32.dll`, `ntdll.dll`)। यह निष्पादन वातावरण के बारे में संदर्भ प्रदान करता है।

एक API कॉल $i$ के लिए अंतिम AECD वेक्टर इस प्रकार निर्मित किया जाता है: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, जहां $\oplus$ वेक्टर संयोजन को दर्शाता है। यह त्रिपक्षीय एम्बेडिंग सीमित प्रारंभिक निष्पादन डेटा से अधिक सूक्ष्म व्यवहार हस्ताक्षर को पकड़ता है।

2.2 TextCNN मॉडल आर्किटेक्चर

AECD वैक्टर का अनुक्रम (पहले 3,000 API कॉल से) एक "टेक्स्ट" दस्तावेज़ के रूप में माना जाता है। वर्गीकरण के लिए एक TextCNN मॉडल का उपयोग किया जाता है, क्योंकि यह कुशल है और स्थानीय अनुक्रमिक पैटर्न (n-gram फ़ीचर्स) को पकड़ने की क्षमता रखता है। मॉडल में आम तौर पर शामिल होते हैं:

एक एम्बेडिंग लेयर (AECD वैक्टर के साथ आरंभिक) ।
विभिन्न कर्नेल आकारों (जैसे, 3, 4, 5) के साथ कई कन्वल्यूशनल लेयर्स API अनुक्रम के विभिन्न "ग्राम" आकारों से फ़ीचर्स निकालने के लिए।
पूलिंग और पूर्णतः जुड़ी हुई परतें जो एक द्विआधारी वर्गीकरण आउटपुट (सद्भावना बनाम क्रिप्टोमाइनिंग मैलवेयर) की ओर ले जाती हैं।

3. प्रायोगिक परिणाम एवं प्रदर्शन

प्रस्तावित CEDMA विधि का विभिन्न क्रिप्टोमाइनिंग मैलवेयर परिवारों (कई क्रिप्टोकरेंसी को लक्षित करने वाले) और विविध सद्भावना सॉफ़्टवेयर नमूनों वाले डेटासेट पर कठोर मूल्यांकन किया गया।

मुख्य निष्कर्ष:

निष्पादन के बाद केवल पहले 3,000 API कॉल का उपयोग करते हुए, CEDMA ने ज्ञात मैलवेयर नमूनों पर प्रभावशाली 98.21% सटीकता और पहले न देखे गए (अज्ञात) मैलवेयर नमूनों पर 96.76% सटीकता हासिल की।
प्रदर्शन दर्शाता है कि AECD एम्बेडिंग श्रेणीगत और DLL संदर्भ को शामिल करके प्रारंभिक-चरण विश्लेषण में निहित सूचना की कमी को सफलतापूर्वक पूरा करता है।
यह विधि मैलवेयर का नेटवर्क कनेक्शन स्थापना से पहले प्रभावी ढंग से पता लगाती है, जो प्रारंभिक नियंत्रण और क्षति रोकथाम के लिए महत्वपूर्ण है।

चार्ट विवरण (कल्पित): एक बार चार्ट जो CEDMA (AECD के साथ) की सटीकता, परिशुद्धता और रिकॉल की तुलना केवल API नाम एम्बेडिंग का उपयोग करने वाले आधारभूत मॉडल से करता है। चार्ट स्पष्ट रूप से CEDMA के लिए सभी मेट्रिक्स में, विशेष रूप से रिकॉल में, महत्वपूर्ण प्रदर्शन लाभ दिखाएगा, जो प्रारंभिक अवस्था में वास्तविक मैलवेयर उदाहरणों की पहचान में इसकी मजबूती को इंगित करता है।

4. तकनीकी विश्लेषण एवं मूल अंतर्दृष्टि

मूल अंतर्दृष्टि: इस शोध पत्र की मौलिक सफलता केवल एक और न्यूरल नेटवर्क अनुप्रयोग नहीं है; यह एम्बेडिंग स्तर पर फ़ीचर इंजीनियरिंग क्रांति है। जबकि अधिकांश शोध अधिक जटिल मॉडल (जैसे, ट्रांसफॉर्मर्स) का पीछा करते हैं, CEDMA चतुराई से प्रारंभिक पहचान की मूल समस्या का समाधान करता है: डेटा की कमी। शब्दार्थ (श्रेणी) और पर्यावरणीय (DLL) संदर्भ को सीधे फ़ीचर वेक्टर में इंजेक्ट करके, यह एक छोटे निष्पादन ट्रेस से उपलब्ध सीमित सिग्नल को कृत्रिम रूप से समृद्ध बनाता है। यह उसी प्रकार है जैसे CycleGAN के साइकल-कंसिस्टेंसी लॉस (Zhu et al., 2017) ने युग्मित डेटा के बिना छवि-से-छवि अनुवाद को सक्षम किया—दोनों एक मूल डेटा सीमा को एक आर्किटेक्चरल या प्रतिनिधित्व संबंधी अंतर्दृष्टि के साथ हल करते हैं, न कि केवल स्केलिंग अप करके।

तार्किक प्रवाह: तर्क सुंदर रूप से रैखिक है: 1) प्रारंभिक पहचान के लिए छोटे अनुक्रमों की आवश्यकता होती है। 2) छोटे अनुक्रमों में विभेदक शक्ति की कमी होती है। 3) इसलिए, प्रति टोकन (API कॉल) सूचना घनत्व को बढ़ाएं। 4) इसे ऑर्थोगोनल सूचना चैनलों (विशिष्ट फ़ंक्शन, सामान्य क्रिया, स्रोत लाइब्रेरी) को मिलाकर प्राप्त करें। 5) एक सरल, कुशल मॉडल (TextCNN) को इस समृद्ध अनुक्रम से पैटर्न सीखने दें। यह पाइपलाइन मजबूत है क्योंकि यह प्रोसेसर को अत्यधिक जटिल बनाने के बजाय इनपुट को मजबूत करती है।

शक्तियाँ एवं कमियाँ: प्राथमिक शक्ति इसकी व्यावहारिक प्रभावकारिता है—न्यूनतम रनटाइम ओवरहेड के साथ उच्च सटीकता, जो वास्तविक दुनिया में तैनाती को संभव बनाती है। भारी RNNs या ट्रांसफॉर्मर्स के विपरीत TextCNN का उपयोग एक व्यावहारिक विकल्प है जो सुरक्षा अनुप्रयोगों में गति की आवश्यकता के अनुरूप है। हालाँकि, एक महत्वपूर्ण कमी प्रतिकूल API कॉल के प्रति संभावित भेद्यता है। एक परिष्कृत मैलवेयर एम्बेडिंग स्पेस को दूषित करने के लिए "सही" DLL और श्रेणियों से सद्भावना दिखने वाले API अनुक्रम इंजेक्ट कर सकता है, एक ऐसा खतरा जिस पर चर्चा नहीं की गई है। इसके अलावा, 3,000-API विंडो, हालांकि एक अच्छा बेंचमार्क है, एक मनमाना सीमा है; बहुत अलग सॉफ़्टवेयर जटिलताओं में इसकी मजबूती सिद्ध होनी बाकी है।

कार्रवाई योग्य अंतर्दृष्टि: सुरक्षा उत्पाद प्रबंधकों के लिए, यह शोध एक खाका है: रीयल-टाइम खतरों के लिए मॉडल जटिलता पर फ़ीचर प्रतिनिधित्व को प्राथमिकता दें। AECD अवधारणा को APIs से परे विस्तारित किया जा सकता है—नेटवर्क फ्लो लॉग (IP, पोर्ट, प्रोटोकॉल, पैकेट आकार पैटर्न) या सिस्टम लॉग के बारे में सोचें। शोधकर्ताओं के लिए, अगला कदम इस विधि को प्रतिकूल बचाव के खिलाफ मजबूत बनाना है, शायद एम्बेडिंग स्पेस पर ही विसंगति पहचान स्कोर को एकीकृत करके। इस क्षेत्र को मजबूत ML शोध से अधिक उधार लेना चाहिए, जैसे कि arXiv के cs.CR (क्रिप्टोग्राफी और सुरक्षा) रिपॉजिटरी के शोध पत्रों में चर्चित प्रतिकूल प्रशिक्षण तकनीकें।

5. विश्लेषण ढांचा: एक व्यावहारिक उदाहरण

परिदृश्य: एक संदिग्ध, नव डाउनलोड किए गए निष्पादन योग्य फ़ाइल का विश्लेषण।

CEDMA विश्लेषण वर्कफ़्लो:

डायनेमिक सैंडबॉक्स निष्पादन: नियंत्रित, इंस्ट्रूमेंटेड वातावरण में निष्पादन योग्य को बहुत कम अवधि (सेकंड) के लिए चलाएं।
ट्रेस संग्रह: पहले ~3,000 API कॉल और उनके संबंधित DLL को हुक करके रिकॉर्ड करें।
फ़ीचर समृद्धि (AECD):
- प्रत्येक API कॉल (जैसे, `NtCreateKey`) के लिए, इसकी श्रेणी (`रजिस्ट्री`) प्राप्त करने के लिए एक पूर्व-निर्धारित मैपिंग को क्वेरी करें।
- कॉलिंग DLL (`ntdll.dll`) नोट करें।
- `NtCreateKey`, `रजिस्ट्री`, और `ntdll.dll` के लिए पूर्व-प्रशिक्षित एम्बेडिंग टेबल से संयोजित AECD वेक्टर उत्पन्न करें।
अनुक्रम निर्माण एवं वर्गीकरण: 3,000 AECD वैक्टर के अनुक्रम को पूर्व-प्रशिक्षित TextCNN मॉडल में फीड करें।
निर्णय: मॉडल एक संभाव्यता स्कोर आउटपुट करता है। यदि स्कोर एक सीमा (जैसे, >0.95) से अधिक हो जाता है, तो फ़ाइल को संभावित क्रिप्टोमाइनिंग मैलवेयर के रूप में चिह्नित किया जाता है और क्वारंटाइन कर दिया जाता है, इससे पहले कि यह संभवतः एक माइनिंग पूल से नेटवर्क कनेक्शन शुरू करे।

नोट: यह एक संकल्पनात्मक ढांचा है। वास्तविक कार्यान्वयन के लिए व्यापक प्री-प्रोसेसिंग, एम्बेडिंग प्रशिक्षण और मॉडल अनुकूलन की आवश्यकता होती है।

6. भविष्य के अनुप्रयोग एवं शोध दिशाएं

विस्तारित एम्बेडिंग संदर्भ: भविष्य के कार्य में और अधिक संदर्भ, जैसे API कॉल तर्क (जैसे, फ़ाइल पथ, रजिस्ट्री कुंजी) या थ्रेड/प्रक्रिया जानकारी, को एम्बेडिंग योजना में शामिल किया जा सकता है ताकि और भी समृद्ध व्यवहार प्रोफाइल बनाई जा सके।
क्रॉस-प्लेटफ़ॉर्म पहचान: AECD अवधारणा को समग्र एंडपॉइंट सुरक्षा के लिए अन्य प्लेटफ़ॉर्म (Linux सिस्कॉल, macOS APIs) के लिए अनुकूलित करना।
रीयल-टाइम स्ट्रीमिंग पहचान: CEDMA को एक स्ट्रीमिंग विश्लेषक के रूप में लागू करना जो API कॉल जनरेट होने पर निरंतर भविष्यवाणियां करता है, निश्चित विंडो बाधा को कम करता है।
खतरा बुद्धिमत्ता के साथ एकीकरण: AECD-व्युत्पन्न फ़ीचर वैक्टर को एक फिंगरप्रिंट के रूप में उपयोग करके समान ज्ञात मैलवेयर व्यवहारों के लिए खतरा बुद्धिमत्ता प्लेटफ़ॉर्म को क्वेरी करना।
प्रतिकूल मजबूती: जैसा कि विश्लेषण में उल्लेख किया गया है, इस विशिष्ट पहचान विधि से बचने के लिए डिज़ाइन किए गए मैलवेयर के खिलाफ रक्षा तंत्र पर शोध करना एक महत्वपूर्ण अगला कदम है।

7. संदर्भ

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Retrieved from SonicWall website.
Berecz, T., et al. (2021). [API-आधारित मैलवेयर पहचान पर प्रासंगिक कार्य]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (मौलिक TextCNN शोध पत्र).
arXiv.org, cs.CR (Cryptography and Security) category. [नवीनतम प्रतिकूल ML और सुरक्षा शोध के लिए रिपॉजिटरी].