AECD Embedding untuk Pengesanan Awal Perisian Hasad Cryptomining

1. Pengenalan & Gambaran Keseluruhan

Perisian hasad cryptomining merupakan ancaman besar kepada keselamatan sistem, menyebabkan kemerosotan perkakasan dan pembaziran tenaga yang ketara. Cabaran utama dalam menangani ancaman ini terletak pada mencapai pengesanan awal tanpa menjejaskan ketepatan. Kaedah sedia ada sering gagal untuk mengimbangi kedua-dua aspek kritikal ini. Kertas kerja ini memperkenalkan CEDMA (Kaedah Pengesanan Awal Perisian Hasad Cryptomining berasaskan AECD Embedding), satu pendekatan novel yang memanfaatkan jujukan panggilan API awal pelaksanaan perisian. Dengan menggabungkan nama API, kategori operasinya, dan DLL pemanggil ke dalam satu perwakilan yang kaya melalui kaedah AECD (API Embedding berasaskan Kategori dan DLL) yang dicadangkan, dan seterusnya menggunakan model TextCNN (Rangkaian Neural Konvolusi Teks), CEDMA bertujuan untuk mengesan aktiviti perlombongan yang berniat jahat dengan segera dan ketepatan yang tinggi.

Ketepatan Pengesanan (Sampel Diketahui)

98.21%

Ketepatan Pengesanan (Sampel Tidak Diketahui)

96.76%

Panjang Jujukan Input

3,000 panggilan API

2. Metodologi: Rangka Kerja CEDMA

Inovasi teras CEDMA ialah perwakilan ciri pelbagai dimensi untuk analisis tingkah laku awal.

2.1 Mekanisme Embedding AECD

Analisis jujukan API tradisional selalunya memperlakukan panggilan API sebagai token ringkas. AECD memperkayakan perwakilan ini dengan menggabungkan embedding dari tiga sumber:

Embedding Nama API ($e_{api}$): Mewakili fungsi khusus yang dipanggil (cth., `CreateFileW`, `RegSetValueEx`).
Embedding Kategori API ($e_{cat}$): Mewakili jenis operasi peringkat tinggi (cth., Sistem Fail, Pendaftaran, Rangkaian). Ini mengabstrakkan tingkah laku, membantu generalisasi.
Embedding DLL ($e_{dll}$): Mewakili pustaka pautan dinamik dari mana API dipanggil (cth., `kernel32.dll`, `ntdll.dll`). Ini menyediakan konteks tentang persekitaran pelaksanaan.

Vektor AECD akhir untuk panggilan API $i$ dibina sebagai: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, di mana $\oplus$ menandakan gabungan vektor. Embedding tiga serangkai ini menangkap tandatangan tingkah laku yang lebih halus dari data pelaksanaan awal yang terhad.

2.2 Seni Bina Model TextCNN

Jujukan vektor AECD (dari 3,000 panggilan API pertama) diperlakukan sebagai dokumen "teks". Model TextCNN digunakan untuk pengelasan kerana kecekapannya dan keupayaan untuk menangkap corak jujukan tempatan (ciri n-gram). Model ini biasanya terdiri daripada:

Lapisan Embedding (dimulakan dengan vektor AECD).
Beberapa Lapisan Konvolusi dengan saiz kernel berbeza (cth., 3, 4, 5) untuk mengekstrak ciri dari saiz "gram" yang berbeza bagi jujukan API.
Pengumpulan dan Lapisan Sambungan Penuh yang membawa kepada output pengelasan binari (perisian baik vs. perisian hasad cryptomining).

3. Keputusan Eksperimen & Prestasi

Kaedah CEDMA yang dicadangkan dinilai dengan teliti pada set data yang merangkumi pelbagai keluarga perisian hasad cryptomining (menyasar pelbagai mata wang kripto) dan sampel perisian baik yang pelbagai.

Penemuan Utama:

Hanya menggunakan 3,000 panggilan API pertama selepas pelaksanaan, CEDMA mencapai Ketepatan 98.21% yang mengagumkan pada sampel perisian hasad yang diketahui dan Ketepatan 96.76% pada sampel perisian hasad yang belum pernah dilihat (tidak diketahui).
Prestasi menunjukkan bahawa embedding AECD berjaya mengimbangi kekurangan maklumat yang wujud dalam analisis peringkat awal dengan menggabungkan konteks kategori dan DLL.
Kaedah ini berkesan mengesan perisian hasad sebelum sambungan rangkaian ditubuhkan, yang amat penting untuk pengawalan awal dan pencegahan kerosakan.

Penerangan Carta (Bayangan): Satu carta bar membandingkan Ketepatan, Ketepatan Positif, dan Peringatan CEDMA (dengan AECD) berbanding model asas yang hanya menggunakan embedding nama API. Carta itu akan jelas menunjukkan peningkatan prestasi yang ketara merentas semua metrik untuk CEDMA, terutamanya dalam Peringatan, menunjukkan keteguhannya dalam mengenal pasti kes perisian hasad sebenar lebih awal.

4. Analisis Teknikal & Inti Pati Utama

Inti Pati Utama: Kejayaan asas kertas kerja ini bukan sekadar aplikasi rangkaian neural yang lain; ia adalah revolusi kejuruteraan ciri di peringkat embedding. Walaupun kebanyakan penyelidikan mengejar model yang lebih kompleks (cth., Transformer), CEDMA secara bijak menangani masalah asas pengesanan awal: kekurangan data. Dengan menyuntik konteks semantik (kategori) dan persekitaran (DLL) terus ke dalam vektor ciri, ia memperkayakan secara buatan isyarat terhad yang tersedia dari jejak pelaksanaan yang pendek. Ini adalah analog dengan bagaimana kehilangan konsistensi kitaran CycleGAN (Zhu et al., 2017) membolehkan terjemahan imej-ke-imej tanpa data berpasangan—kedua-duanya menyelesaikan batasan data teras dengan wawasan seni bina atau perwakilan, dan bukan hanya meningkatkan skala.

Aliran Logik: Logiknya linear dengan elegan: 1) Pengesanan awal memerlukan jujukan pendek. 2) Jujukan pendek kurang kuasa diskriminasi. 3) Oleh itu, tingkatkan ketumpatan maklumat per token (panggilan API). 4) Capai ini dengan menggabungkan saluran maklumat ortogon (fungsi khusus, tindakan umum, pustaka sumber). 5) Biarkan model yang ringkas dan cekap (TextCNN) mempelajari corak dari jujukan yang diperkaya ini. Saluran paip ini teguh kerana ia mengukuhkan input dan bukannya merumitkan pemproses.

Kekuatan & Kelemahan: Kekuatan utamanya ialah keberkesanan praktikalnya—ketepatan tinggi dengan overhead masa larian yang minimum, menjadikan penyebaran dunia sebenar boleh dilaksanakan. Penggunaan TextCNN, berbanding RNN atau Transformer yang lebih berat, adalah pilihan pragmatik yang selaras dengan keperluan kelajuan dalam aplikasi keselamatan. Walau bagaimanapun, kelemahan kritikal ialah potensi kerentanan terhadap panggilan API musuh. Perisian hasad yang canggih boleh menyuntik jujukan API yang kelihatan baik dari DLL dan kategori yang "betul" untuk meracuni ruang embedding, satu ancaman yang tidak dibincangkan. Tambahan pula, tetingkap 3,000-API, walaupun penanda aras yang baik, adalah ambang sewenang-wenangnya; keteguhannya merentasi kerumitan perisian yang sangat berbeza masih perlu dibuktikan.

Wawasan Boleh Tindak: Untuk pengurus produk keselamatan, penyelidikan ini adalah pelan: utamakan perwakilan ciri berbanding kerumitan model untuk ancaman masa nyata. Konsep AECD boleh diperluas di luar API—fikirkan log aliran rangkaian (IP, port, protokol, corak saiz paket) atau log sistem. Untuk penyelidik, langkah seterusnya adalah untuk mengukuhkan kaedah ini terhadap pengelakan musuh, mungkin dengan mengintegrasikan skor pengesanan anomali pada ruang embedding itu sendiri. Bidang ini harus meminjam lebih banyak dari penyelidikan ML yang teguh, seperti teknik latihan musuh yang dibincangkan dalam kertas kerja dari repositori cs.CR (Kriptografi dan Keselamatan) arXiv.

5. Rangka Kerja Analisis: Contoh Praktikal

Skenario: Menganalisis satu boleh laku yang mencurigakan, baru dimuat turun.

Aliran Kerja Analisis CEDMA:

Pelaksanaan Sandbox Dinamik: Jalankan boleh laku dalam persekitaran terkawal dan berinstrumentasi untuk tempoh yang sangat singkat (saat).
Koleksi Jejak: Sangkut dan rakam ~3,000 panggilan API pertama, bersama dengan DLL yang sepadan.
Pengayaan Ciri (AECD):
- Untuk setiap panggilan API (cth., `NtCreateKey`), rujuk pemetaan yang telah ditetapkan untuk mendapatkan kategorinya (`Registry`).
- Catat DLL pemanggil (`ntdll.dll`).
- Hasilkan vektor AECD yang digabungkan dari jadual embedding yang telah dilatih untuk `NtCreateKey`, `Registry`, dan `ntdll.dll`.
Pembentukan Jujukan & Pengelasan: Masukkan jujukan 3,000 vektor AECD ke dalam model TextCNN yang telah dilatih.
Keputusan: Model mengeluarkan skor kebarangkalian. Jika skor melebihi ambang (cth., >0.95), fail ditandakan sebagai perisian hasad cryptomining yang berpotensi dan dikarantina sebelum ia berkemungkinan memulakan sambungan rangkaian ke kolam perlombongan.

Nota: Ini adalah rangka kerja konseptual. Pelaksanaan sebenar memerlukan pra-pemprosesan yang meluas, latihan embedding, dan pengoptimuman model.

6. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Konteks Embedding Diperluas: Kerja masa depan boleh menggabungkan lebih banyak konteks, seperti hujah panggilan API (cth., laluan fail, kunci pendaftaran) atau maklumat benang/proses, ke dalam skim embedding untuk mencipta profil tingkah laku yang lebih kaya.
Pengesanan Rentas Platform: Menyesuaikan konsep AECD ke platform lain (panggilan sistem Linux, API macOS) untuk perlindungan titik akhir yang holistik.
Pengesanan Penstriman Masa Nyata: Melaksanakan CEDMA sebagai penganalisis penstriman yang membuat ramalan berterusan semasa panggilan API dijana, mengurangkan kekangan tetingkap tetap.
Integrasi dengan Perisikan Ancaman: Menggunakan vektor ciri yang diperoleh dari AECD sebagai cap jari untuk merujuk platform perisikan ancaman untuk tingkah laku perisian hasad yang diketahui yang serupa.
Keteguhan Musuh: Seperti yang disebut dalam analisis, menyelidik mekanisme pertahanan terhadap perisian hasad yang direka untuk mengelak kaedah pengesanan khusus ini adalah langkah seterusnya yang penting.

7. Rujukan

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Diambil dari laman web SonicWall.
Berecz, T., et al. (2021). [Kerja berkaitan mengenai pengesanan perisian hasad berasaskan API]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Kertas kerja TextCNN seminal).
arXiv.org, cs.CR (Cryptography and Security) category. [Repositori untuk penyelidikan ML musuh dan keselamatan terkini].