AECD Embedding kwa Uchunguzi wa Mapema wa Malware ya Uchimbaji wa Sarafu za Mtandao

1. Utangulizi na Muhtasari

Malware ya uchimbaji wa sarafu za mtandao (cryptomining) ni tishio kubwa kwa usalama wa mfumo, ikisababisha uharibifu wa vifaa na upotevu mkubwa wa nishati. Changamoto kuu katika kupambana na tishio hili ni kufikia uchunguzi wa mapema bila kukosea usahihi. Mbinu zilizopo mara nyingi hazifanikiwi kuweka usawa kati ya vipengele hivi viwili muhimu. Karatasi hii inatangaza CEDMA (Mbinu ya Uchunguzi wa Mapema wa Malware ya Uchimbaji wa Sarafu za Mtandao Kulingana na AECD Embedding), njia mpya inayotumia mlolongo wa mwanzo wa wito wa API katika utekelezaji wa programu. Kwa kuchanganya majina ya API, kategoria zao za utendaji, na DLL zinazowitoa katika uwakilishi tajiri kupitia mbinu iliyopendekezwa ya AECD (API Embedding Kulingana na Kategoria na DLL), na kisha kutumia mfano wa TextCNN (Mtandao wa Neural wa Convolutional wa Maandishi), CEDMA inalenga kugundua shughuli za uchimbaji zenye uadui mapema na kwa usahihi wa juu.

Usahihi wa Uchunguzi (Sampuli Zinazojulikana)

98.21%

Usahihi wa Uchunguzi (Sampuli Zisizojulikana)

96.76%

Urefu wa Mlolongo wa Ingizo

Wito 3,000 wa API

2. Mbinu: Mfumo wa CEDMA

Ubunifu mkuu wa CEDMA ni uwakilishi wake wa vipengele mbalimbali kwa uchambuzi wa tabia ya mapema.

2.1 Utaratibu wa AECD Embedding

Uchambuzi wa kawaida wa mlolongo wa API mara nyingi huchukulia wito wa API kama alama rahisi. AECD inaboresha uwakilishi huu kwa kuunganisha embeddings kutoka vyanzo vitatu:

API Name Embedding ($e_{api}$): Inawakilisha kitendaji maalum kilichoitwa (mfano, `CreateFileW`, `RegSetValueEx`).
API Category Embedding ($e_{cat}$): Inawakilisha aina ya juu ya operesheni (mfano, Mfumo wa Faili, Rejista, Mtandao). Hii inatoa muhtasari wa tabia, ikisaidia ujumuishaji.
DLL Embedding ($e_{dll}$): Inawakilisha maktaba ya kiungo ya nguvu (dynamic link library) ambayo API inaitwa kutoka kwake (mfano, `kernel32.dll`, `ntdll.dll`). Hii inatoa muktadha kuhusu mazingira ya utekelezaji.

Vekta ya mwisho ya AECD kwa wito wa API $i$ inajengwa kama: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, ambapo $\oplus$ inaashiria kuunganisha vekta. Hii embedding ya pande tatu inashika saini za tabia zenye ufasaha zaidi kutoka kwa data ya mwanzo ya utekelezaji iliyopunguzwa.

2.2 Muundo wa Mfano wa TextCNN

Mlolongo wa vekta za AECD (kutoka kwa wito wa mwanzo 3,000 wa API) huchukuliwa kama hati ya "maandishi". Mfano wa TextCNN unatumiwa kwa uainishaji kwa sababu ya ufanisi wake na uwezo wa kushika muundo wa ndani wa mlolongo (vipengele vya n-gram). Mfano kwa kawaida una:

Tabaka la Embedding (linaloanziwa na vekta za AECD).
Tabaka nyingi za Convolutional zenye saizi tofauti za kernel (mfano, 3, 4, 5) ili kutoa vipengele kutoka kwa saizi tofauti za "gramu" za mlolongo wa API.
Pooling na Tabaka Kamili Zilizounganishwa zinazoongoza kwa matokeo ya uainishaji wa binary (programu nzuri dhidi ya malware ya uchimbaji wa sarafu za mtandao).

3. Matokeo ya Majaribio na Utendaji

Mbinu iliyopendekezwa ya CEDMA ilitathminiwa kwa ukali kwenye seti ya data iliyo na familia mbalimbali za malware ya uchimbaji wa sarafu za mtandao (zinazolenga sarafu nyingi za mtandao) na sampuli mbalimbali za programu nzuri.

Matokeo Muhimu:

Kwa kutumia tu wito wa mwanzo 3,000 wa API baada ya utekelezaji, CEDMA ilifikia Usahihi wa 98.21% kwenye sampuli za malware zinazojulikana na Usahihi wa 96.76% kwenye sampuli za malware zisizojulikana hapo awali.
Utendaji unaonyesha kuwa AECD embedding imefanikiwa kukamilisha upungufu wa habari ulioko katika uchambuzi wa awali kwa kujumuisha muktadha wa kategoria na DLL.
Mbinu hii inagundua malware kwa ufanisi kabla ya uanzishwaji wa muunganisho wa mtandao, jambo muhimu kwa kuzuia mapema na kuzuia uharibifu.

Maelezo ya Chati (Inayodhaniwa): Chati ya baa inayolinganisha Usahihi, Usahihi wa Uainishaji (Precision), na Ukumbusho (Recall) wa CEDMA (na AECD) dhidi ya mfano wa msingi unaotumia embeddings ya majina ya API pekee. Chati ingeonyesha wazi mafanikio makubwa ya utendaji katika vipimo vyote kwa CEDMA, hasa katika Ukumbusho (Recall), ikionyesha uthabiti wake katika kutambua matukio ya kweli ya malware mapema.

4. Uchambuzi wa Kiufundi na Ufahamu Mkuu

Ufahamu Mkuu: Mafanikio ya msingi ya karatasi hii sio tu matumizi mengine ya mtandao wa neural; ni mapinduzi ya uhandisi wa kipengele katika kiwango cha embedding. Wakati utafiti mwingi unafuata miundo ngumu zaidi (mfano, Transformers), CEDMA inashughulikia kwa busara tatizo la msingi la uchunguzi wa mapema: upungufu wa data. Kwa kuingiza muktadha wa maana (kategoria) na wa mazingira (DLL) moja kwa moja kwenye vekta ya kipengele, inaboresha kwa njia ya bandia ishara iliyopunguzwa inayopatikana kutoka kwa fuatilio fupi la utekelezaji. Hii inafanana na jinsi hasara ya mzunguko wa uthabiti ya CycleGAN (Zhu et al., 2017) ilivyowezesha tafsiri ya picha-hadi-picha bila data zilizounganishwa—zote mbili zinatatua kikomo kikuu cha data kwa ufahamu wa muundo au uwakilishi, badala ya kuongeza tu ukubwa.

Mtiririko wa Mantiki: Mantiki ni laini kwa ustadi: 1) Uchunguzi wa mapema unahitaji mifuatano mifupi. 2) Mifuatano mifupi haina nguvu ya kutofautisha. 3) Kwa hivyo, ongeza msongamano wa habari kwa kila alama (wito wa API). 4) Fikia hili kwa kuchanganya njia za habari zinazokabiliana (kitendaji maalum, kitendo cha jumla, maktaba chanzo). 5) Acha mfano rahisi, wenye ufanisi (TextCNN) ujifunze muundo kutoka kwa mlolongo huu ulioboreshwa. Mfumo huu wa mchakato ni thabiti kwa sababu unaimarisha ingizo badala ya kufanya kichakataji kiwe ngumu kupita kiasi.

Nguvu na Kasoro: Nguvu kuu ni ufanisi wake wa vitendo—usahihi wa juu na mzigo mdogo wa wakati wa utekelezaji, na kufanya utekelezaji wa ulimwengu halisi uwezekane. Matumizi ya TextCNN, tofauti na RNN au Transformers nzito, ni chaguo la vitendo linalolingana na hitaji la kasi katika matumizi ya usalama. Hata hivyo, kasoro muhimu ni uwezekano wa udhaifu kwa wito wa API ya adui. Malware yenye hila inaweza kuingiza mlolongo wa API unaoonekana kuwa mzuri kutoka kwa DLL "sahihi" na kategoria ili kuathiri nafasi ya embedding, tishio ambalo halijadiscutiwa. Zaidi ya hayo, dirisha la API 3,000, ingawa ni kigezo kizuri cha utathmini, ni kizingiti cha kiholela; uthabiti wake katika utata tofauti sana wa programu bado unahitaji kuthibitishwa.

Ufahamu Unaoweza Kutekelezwa: Kwa wasimamizi wa bidhaa za usalama, utafiti huu ni mfano wa mpango: weka kipaumbele uwakilishi wa kipengele kuliko utata wa mfano kwa tishio la wakati halisi. Dhana ya AECD inaweza kupanuliwa zaidi ya API—fikiria magogo ya mtiririko wa mtandao (IP, bandari, itifaki, muundo wa saizi ya pakiti) au magogo ya mfumo. Kwa watafiti, hatua inayofuata ni kuimarisha mbinu hii dhidi ya kuepuka kwa adui, labda kwa kuunganisha alama za uchunguzi wa ukiukaji kwenye nafasi ya embedding yenyewe. Uwanja huu unapaswa kukopa zaidi kutoka kwa utafiti thabiti wa ML, kama mbinu za mafunzo ya adui zinazojadiliwa katika karatasi kutoka kwa hifadhi ya arXiv ya cs.CR (Usimbu Fiche na Usalama).

5. Mfumo wa Uchambuzi: Mfano wa Vitendo

Hali: Kuchambua faili inayotekelezeka mpya iliyopakuliwa na yenye tuhuma.

Mfuatano wa Kazi wa Uchambuzi wa CEDMA:

Utekelezaji wa Sanduku la Nguvu (Dynamic Sandbox): Tekeleza faili inayotekelezeka katika mazingira yaliyodhibitiwa na yaliyowekewa vifaa kwa muda mfupi sana (sekunde).
Ukusanyaji wa Fuatilio: Shika na rekodi wito wa mwanzo ~3,000 wa API, pamoja na DLL zinazohusika.
Uboreshaji wa Kipengele (AECD):
- Kwa kila wito wa API (mfano, `NtCreateKey`), tafuta ramani iliyobainishwa hapo awali ili kupata kategoria yake (`Rejista`).
- Kumbuka DLL inayowitoa (`ntdll.dll`).
- Zalisha vekta ya AECD iliyounganishwa kutoka kwa jedwali za embedding zilizofunzwa hapo awali kwa `NtCreateKey`, `Rejista`, na `ntdll.dll`.
Uundaji wa Mlolongo na Uainishaji: Ingiza mlolongo wa vekta 3,000 za AECD kwenye mfano wa TextCNN uliofunzwa hapo awali.
Uamuzi: Mfano hutoa alama ya uwezekano. Ikiwa alama inazidi kizingiti (mfano, >0.95), faili hupewa alama kama malware inayoweza kuwa ya uchimbaji wa sarafu za mtandao na kutengwa kabla ya kuanzisha uwezekano wa muunganisho wa mtandao kwenye dimbwi la uchimbaji.

Kumbuka: Huu ni mfumo wa dhana. Utekelezaji halisi unahitaji usindikaji wa awali mkubwa, mafunzo ya embedding, na uboreshaji wa mfano.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

Muktadha Ulioongezwa wa Embedding: Kazi ya baadaye inaweza kujumuisha muktadha zaidi, kama hoja za wito wa API (mfano, njia za faili, funguo za rejista) au habari ya thread/mchakato, ndani ya mpango wa embedding ili kuunda wasifu wa tabia ulio tajiri zaidi.
Uchunguzi wa Kuvuka Jukwaa: Kurekebisha dhana ya AECD kwa majukwaa mengine (wito wa mfumo wa Linux, API za macOS) kwa ulinzi kamili wa ncha.
Uchunguzi wa Mtiririko wa Wakati Halisi: Kutekeleza CEDMA kama kichambuzi cha mtiririko kinachofanya utabiri endelevu wakati wito wa API unapozalishwa, na hivyo kupunguza kikwazo cha dirisha lililowekwa.
Ujumuishaji na Ujasusi wa Tishio: Kutumia vekta za kipengele zinazotokana na AECD kama alama ya kidole gumba ili kuuliza majukwaa ya ujasusi wa tishio kwa tabia zinazofanana za malware zinazojulikana.
Uthabiti wa Adui: Kama ilivyotajwa katika uchambuzi, kufanya utafiti wa mbinu za ulinzi dhidi ya malware iliyoundwa kuepuka mbinu hii maalum ya uchunguzi ni hatua muhimu inayofuata.

7. Marejeo

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Imepatikana kutoka kwenye tovuti ya SonicWall.
Berecz, T., et al. (2021). [Kazi inayohusika kuhusu uchunguzi wa malware kulingana na API]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Karatasa ya msingi ya TextCNN).
arXiv.org, cs.CR (Usimbu Fiche na Usalama) kategoria. [Hifadhi ya utafiti wa hivi karibuni wa ML ya adui na usalama].