AECD嵌入技術用於早期加密貨幣挖礦惡意軟件檢測

1. 簡介與概述

加密貨幣挖礦惡意軟件對系統安全構成重大威脅，會導致硬件損耗同大量能源浪費。應對呢個威脅嘅主要挑戰在於實現早期檢測嘅同時，唔影響準確度。現有方法往往難以平衡呢兩個關鍵方面。本文介紹CEDMA（基於AECD嵌入嘅加密貨幣挖礦惡意軟件早期檢測方法），呢種新方法利用軟件執行嘅初始API調用序列。通過提出嘅AECD（基於類別同DLL嘅API嵌入）方法，將API名稱、其操作類別同調用嘅DLL融合成一個豐富嘅表示，然後應用TextCNN（文本卷積神經網絡）模型，CEDMA旨在快速且高精度地檢測惡意挖礦活動。

檢測準確率（已知樣本）

98.21%

檢測準確率（未知樣本）

96.76%

輸入序列長度

3,000個API調用

2. 方法論：CEDMA框架

CEDMA嘅核心創新在於其用於早期行為分析嘅多面向特徵表示。

2.1 AECD嵌入機制

傳統嘅API序列分析通常將API調用視為簡單嘅標記。AECD通過串聯三個來源嘅嵌入來豐富呢種表示：

API名稱嵌入 ($e_{api}$)：表示調用嘅特定功能（例如 `CreateFileW`、`RegSetValueEx`）。
API類別嵌入 ($e_{cat}$)：表示高層次操作類型（例如文件系統、註冊表、網絡）。呢個抽象化行為，有助於泛化。
DLL嵌入 ($e_{dll}$)：表示調用API嘅動態鏈接庫（例如 `kernel32.dll`、`ntdll.dll`）。呢個提供咗執行環境嘅上下文。

對於一個API調用 $i$，最終嘅AECD向量構建為：$v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$，其中 $\oplus$ 表示向量串聯。呢種三合一嵌入從有限嘅初始執行數據中捕捉到更細微嘅行為特徵。

2.2 TextCNN模型架構

AECD向量序列（來自首3,000個API調用）被視為一個「文本」文檔。採用TextCNN模型進行分類，因為其效率高且能夠捕捉局部序列模式（n-gram特徵）。該模型通常包括：

一個嵌入層（用AECD向量初始化）。
多個具有不同卷積核大小（例如 3、4、5）嘅卷積層，用於從API序列嘅不同「gram」大小中提取特徵。
池化層同全連接層，最終輸出二元分類結果（良性 vs. 加密貨幣挖礦惡意軟件）。

3. 實驗結果與性能

所提出嘅CEDMA方法喺一個包含多種加密貨幣挖礦惡意軟件家族（針對多種加密貨幣）同多樣化良性軟件樣本嘅數據集上進行咗嚴格評估。

主要發現：

僅使用執行後嘅首3,000個API調用，CEDMA喺已知惡意軟件樣本上達到咗令人印象深刻嘅98.21%準確率，喺先前未見過（未知）嘅惡意軟件樣本上達到96.76%準確率。
性能表明，AECD嵌入通過融入類別同DLL上下文，成功補償咗早期分析固有嘅信息稀缺性。
該方法能夠喺網絡連接建立之前有效檢測惡意軟件，呢點對於早期遏制同防止損害至關重要。

圖表描述（設想）： 一個柱狀圖比較CEDMA（使用AECD）同僅使用API名稱嵌入嘅基線模型喺準確率、精確率同召回率上嘅表現。該圖表將清晰顯示CEDMA喺所有指標上均有顯著性能提升，特別係召回率，表明其喺早期識別真正惡意軟件實例方面嘅穩健性。

4. 技術分析與核心見解

核心見解： 本文嘅根本突破唔只係另一個神經網絡應用；而係嵌入層面嘅特徵工程革命。雖然大多數研究追求更複雜嘅模型（例如 Transformer），但CEDMA巧妙地解決咗早期檢測嘅根本問題：數據匱乏。通過將語義（類別）同環境（DLL）上下文直接注入特徵向量，佢人為地豐富咗從短暫執行軌跡中獲得嘅有限信號。呢就好似CycleGAN嘅循環一致性損失（Zhu等人，2017）實現咗無配對數據嘅圖像到圖像轉換一樣——兩者都係通過架構或表示層面嘅見解來解決核心數據限制，而不僅僅係擴大規模。

邏輯流程： 邏輯非常優雅線性：1）早期檢測需要短序列。2）短序列缺乏區分能力。3）因此，放大每個標記（API調用）嘅信息密度。4）通過融合正交信息通道（特定功能、一般操作、源庫）來實現呢一點。5）讓一個簡單、高效嘅模型（TextCNN）從呢個豐富嘅序列中學習模式。呢個流程非常穩健，因為佢強化咗輸入，而唔係令處理器過於複雜。

優點與缺點： 主要優點係其實際效能——以最小嘅運行時開銷實現高準確率，使得實際部署變得可行。使用TextCNN而非更重嘅RNN或Transformer，係一個務實嘅選擇，符合安全應用對速度嘅需求。然而，一個關鍵缺點係對抗性API調用嘅潛在脆弱性。一個複雜嘅惡意軟件可以注入來自「正確」DLL同類別嘅看似良性嘅API序列來污染嵌入空間，呢個威脅未被討論。此外，3,000個API嘅窗口雖然係一個良好基準，但係一個任意閾值；其喺截然不同嘅軟件複雜度之間嘅穩健性仍有待證明。

可行見解： 對於安全產品經理，呢項研究係一個藍圖：對於實時威脅，優先考慮特徵表示而非模型複雜度。AECD概念可以擴展到API之外——諗下網絡流日誌（IP、端口、協議、數據包大小模式）或系統日誌。對於研究人員，下一步係強化呢個方法以抵禦對抗性規避，或許可以通過喺嵌入空間本身集成異常檢測分數來實現。該領域應該更多借鑒穩健機器學習研究，例如arXiv嘅cs.CR（密碼學與安全）存儲庫中論文討論嘅對抗性訓練技術。

5. 分析框架：實用示例

場景： 分析一個可疑嘅、新下載嘅可執行文件。

CEDMA分析工作流程：

動態沙箱執行： 喺受控、已插樁嘅環境中運行可執行文件極短時間（幾秒）。
軌跡收集： 掛鉤並記錄首約3,000個API調用，以及其對應嘅DLL。
特徵豐富化（AECD）：
- 對於每個API調用（例如 `NtCreateKey`），查詢預定義映射以獲取其類別（`Registry`）。
- 記下調用DLL（`ntdll.dll`）。
- 從預訓練嘅嵌入表中為 `NtCreateKey`、`Registry` 同 `ntdll.dll` 生成串聯嘅AECD向量。
序列形成與分類： 將3,000個AECD向量嘅序列輸入預訓練嘅TextCNN模型。
決策： 模型輸出一個概率分數。如果分數超過某個閾值（例如 >0.95），該文件將被標記為潛在嘅加密貨幣挖礦惡意軟件，並喺其可能啟動到礦池嘅網絡連接之前被隔離。

注意：呢個係一個概念框架。實際實施需要大量嘅預處理、嵌入訓練同模型優化。

6. 未來應用與研究方向

擴展嵌入上下文： 未來工作可以將更多上下文（例如API調用參數（如文件路徑、註冊表鍵）或線程/進程信息）納入嵌入方案，以創建更豐富嘅行為特徵。
跨平台檢測： 將AECD概念適應到其他平台（Linux系統調用、macOS API），以實現全面嘅端點保護。
實時流式檢測： 將CEDMA實現為流式分析器，喺API調用生成時進行連續預測，減少固定窗口限制。
與威脅情報集成： 使用AECD衍生嘅特徵向量作為指紋，查詢威脅情報平台以尋找類似嘅已知惡意軟件行為。
對抗性穩健性： 正如分析中所提及，研究針對旨在規避呢種特定檢測方法嘅惡意軟件嘅防禦機制，係至關重要嘅下一步。

7. 參考文獻

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Retrieved from SonicWall website.
Berecz, T., et al. (2021). [Relevant work on API-based malware detection]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Seminal TextCNN paper).
arXiv.org, cs.CR (Cryptography and Security) category. [Repository for latest adversarial ML and security research].