AECD 임베딩을 활용한 초기 암호화폐 채굴 악성코드 탐지

1. 서론 및 개요

암호화폐 채굴 악성코드는 시스템 보안에 심각한 위협을 가하며, 하드웨어 성능 저하와 상당한 에너지 낭비를 초래합니다. 이 위협에 대응하는 데 있어 주요 과제는 정확도를 저해하지 않으면서 초기 탐지를 달성하는 데 있습니다. 기존 방법들은 종종 이 두 가지 중요한 측면을 균형 있게 맞추지 못합니다. 본 논문은 소프트웨어 실행의 초기 API 호출 시퀀스를 활용하는 새로운 접근법인 CEDMA (AECD 임베딩 기반 암호화폐 채굴 악성코드 초기 탐지 방법)을 소개합니다. 제안된 AECD (카테고리 및 DLL 기반 API 임베딩) 방법을 통해 API 이름, 그 운영 카테고리, 호출 DLL을 풍부한 표현으로 융합하고, 이어서 TextCNN (텍스트 합성곱 신경망) 모델을 적용함으로써, CEDMA는 악의적인 채굴 활동을 신속하고 높은 정밀도로 탐지하는 것을 목표로 합니다.

탐지 정확도 (알려진 샘플)

98.21%

탐지 정확도 (알려지지 않은 샘플)

96.76%

입력 시퀀스 길이

3,000 API 호출

2. 방법론: CEDMA 프레임워크

CEDMA의 핵심 혁신은 초기 행동 분석을 위한 다각적인 특징 표현에 있습니다.

2.1 AECD 임베딩 메커니즘

기존의 API 시퀀스 분석은 종종 API 호출을 단순한 토큰으로 취급합니다. AECD는 세 가지 출처의 임베딩을 연결하여 이 표현을 풍부하게 합니다:

API 이름 임베딩 ($e_{api}$): 호출된 특정 함수를 나타냅니다 (예: `CreateFileW`, `RegSetValueEx`).
API 카테고리 임베딩 ($e_{cat}$): 상위 수준의 작업 유형을 나타냅니다 (예: 파일 시스템, 레지스트리, 네트워크). 이는 행동을 추상화하여 일반화를 돕습니다.
DLL 임베딩 ($e_{dll}$): API가 호출된 동적 연결 라이브러리를 나타냅니다 (예: `kernel32.dll`, `ntdll.dll`). 이는 실행 환경에 대한 맥락을 제공합니다.

API 호출 $i$에 대한 최종 AECD 벡터는 다음과 같이 구성됩니다: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, 여기서 $\oplus$는 벡터 연결을 나타냅니다. 이 삼중 임베딩은 제한된 초기 실행 데이터로부터 더욱 미묘한 행동 시그니처를 포착합니다.

2.2 TextCNN 모델 아키텍처

AECD 벡터의 시퀀스(처음 3,000개의 API 호출)는 "텍스트" 문서로 취급됩니다. TextCNN 모델은 그 효율성과 지역적 순차 패턴(n-gram 특징)을 포착하는 능력으로 인해 분류에 사용됩니다. 이 모델은 일반적으로 다음으로 구성됩니다:

임베딩 레이어 (AECD 벡터로 초기화됨).
API 시퀀스의 서로 다른 "그램" 크기로부터 특징을 추출하기 위한 다양한 커널 크기(예: 3, 4, 5)를 가진 여러 개의 합성곱 레이어.
이진 분류 출력(정상 vs. 암호화폐 채굴 악성코드)으로 이어지는 풀링 및 완전 연결 레이어.

3. 실험 결과 및 성능

제안된 CEDMA 방법은 다양한 암호화폐 채굴 악성코드 패밀리(여러 암호화폐를 대상으로 함)와 다양한 정상 소프트웨어 샘플로 구성된 데이터셋에서 엄격하게 평가되었습니다.

주요 결과:

실행 후 처음 3,000개의 API 호출만 사용하여, CEDMA는 알려진 악성코드 샘플에서 인상적인 98.21% 정확도를, 이전에 보지 못한(알려지지 않은) 악성코드 샘플에서 96.76% 정확도를 달성했습니다.
이 성능은 AECD 임베딩이 카테고리 및 DLL 맥락을 통합함으로써 초기 단계 분석에 내재된 정보 부족을 성공적으로 보완한다는 것을 보여줍니다.
이 방법은 네트워크 연결 수립 이전에 악성코드를 효과적으로 탐지하며, 이는 초기 격리 및 피해 방지에 중요합니다.

차트 설명 (상상): CEDMA(AECD 사용)와 API 이름 임베딩만 사용하는 기준 모델의 정확도, 정밀도, 재현율을 비교하는 막대 그래프입니다. 이 차트는 CEDMA가 모든 지표, 특히 재현율에서 상당한 성능 향상을 보여주며, 이는 초기에 진짜 악성코드 인스턴스를 식별하는 데 있어 견고함을 나타냅니다.

4. 기술적 분석 및 핵심 통찰

핵심 통찰: 이 논문의 근본적인 돌파구는 단순히 또 다른 신경망 응용이 아닙니다; 그것은 임베딩 수준에서의 특징 공학 혁명입니다. 대부분의 연구가 더 복잡한 모델(예: 트랜스포머)을 추구하는 동안, CEDMA는 초기 탐지의 근본 문제인 데이터 부족을 현명하게 해결합니다. 의미론적(카테고리) 및 환경적(DLL) 맥락을 특징 벡터에 직접 주입함으로써, 짧은 실행 흔적으로부터 얻을 수 있는 제한된 신호를 인위적으로 풍부하게 만듭니다. 이는 CycleGAN의 순환 일관성 손실(Zhu et al., 2017)이 짝을 이루지 않은 데이터로도 이미지-이미지 변환을 가능하게 한 방식과 유사합니다—둘 다 단순히 규모를 키우는 대신, 아키텍처적 또는 표현적 통찰로 핵심 데이터 한계를 해결합니다.

논리적 흐름: 논리는 우아하게 선형적입니다: 1) 초기 탐지는 짧은 시퀀스를 요구합니다. 2) 짧은 시퀀스는 판별력이 부족합니다. 3) 따라서, 토큰(API 호출)당 정보 밀도를 증폭시킵니다. 4) 직교하는 정보 채널(특정 함수, 일반적 행동, 소스 라이브러리)을 융합하여 이를 달성합니다. 5) 간단하고 효율적인 모델(TextCNN)이 이 풍부한 시퀀스로부터 패턴을 학습하도록 합니다. 이 파이프라인은 프로세서를 과도하게 복잡하게 만드는 대신 입력을 강화하기 때문에 견고합니다.

강점과 결점: 주요 강점은 실용적 효능입니다—최소한의 런타임 오버헤드로 높은 정확도를 달성하여 실제 배포가 가능합니다. 더 무거운 RNN이나 트랜스포머 대신 TextCNN을 사용하는 것은 보안 응용에서의 속도 요구와 일치하는 실용적인 선택입니다. 그러나 중요한 결점은 적대적 API 호출에 대한 잠재적 취약성입니다. 정교한 악성코드는 "올바른" DLL과 카테고리에서 정상적으로 보이는 API 시퀀스를 주입하여 임베딩 공간을 오염시킬 수 있으며, 이 위협은 논의되지 않았습니다. 더욱이, 3,000-API 창은 좋은 벤치마크이지만 임의의 임계값입니다; 매우 다른 소프트웨어 복잡성에 걸친 그 견고성은 아직 입증되어야 합니다.

실행 가능한 통찰: 보안 제품 관리자에게 이 연구는 청사진입니다: 실시간 위협에 대해 모델 복잡성보다 특징 표현을 우선시하십시오. AECD 개념은 API를 넘어 확장될 수 있습니다—네트워크 흐름 로그(IP, 포트, 프로토콜, 패킷 크기 패턴)나 시스템 로그를 생각해 보십시오. 연구자들에게 다음 단계는 아마도 임베딩 공간 자체에 대한 이상 탐지 점수를 통합함으로써 이 방법을 적대적 회피에 대해 강화하는 것입니다. 이 분야는 arXiv의 cs.CR(암호학 및 보안) 저장소 논문에서 논의된 적대적 훈련 기법과 같은 견고한 ML 연구로부터 더 많이 차용해야 합니다.

5. 분석 프레임워크: 실용적 예시

시나리오: 의심스러운, 새로 다운로드된 실행 파일 분석.

CEDMA 분석 워크플로우:

동적 샌드박스 실행: 제어되고 계측된 환경에서 실행 파일을 매우 짧은 시간(초 단위) 동안 실행합니다.
추적 수집: 처음 약 3,000개의 API 호출과 해당 DLL을 후킹하여 기록합니다.
특징 강화 (AECD):
- 각 API 호출(예: `NtCreateKey`)에 대해, 미리 정의된 매핑을 조회하여 그 카테고리(`레지스트리`)를 가져옵니다.
- 호출 DLL(`ntdll.dll`)을 기록합니다.
- `NtCreateKey`, `레지스트리`, `ntdll.dll`에 대한 사전 훈련된 임베딩 테이블로부터 연결된 AECD 벡터를 생성합니다.
시퀀스 형성 및 분류: 3,000개의 AECD 벡터 시퀀스를 사전 훈련된 TextCNN 모델에 입력합니다.
결정: 모델은 확률 점수를 출력합니다. 점수가 임계값(예: >0.95)을 초과하면, 파일이 잠재적 암호화폐 채굴 악성코드로 표시되고, 채굴 풀에 대한 네트워크 연결을 시작하기 이전에 격리됩니다.

참고: 이것은 개념적 프레임워크입니다. 실제 구현에는 광범위한 전처리, 임베딩 훈련 및 모델 최적화가 필요합니다.

6. 향후 응용 및 연구 방향

확장된 임베딩 맥락: 향후 작업은 API 호출 인수(예: 파일 경로, 레지스트리 키)나 스레드/프로세스 정보와 같은 더 많은 맥락을 임베딩 체계에 통합하여 더욱 풍부한 행동 프로파일을 생성할 수 있습니다.
크로스 플랫폼 탐지: AECD 개념을 다른 플랫폼(Linux 시스템 호출, macOS API)에 적용하여 종합적인 엔드포인트 보호를 구현합니다.
실시간 스트리밍 탐지: CEDMA를 API 호출이 생성됨에 따라 지속적으로 예측을 수행하는 스트리밍 분석기로 구현하여 고정된 창 제약을 줄입니다.
위협 인텔리전스와의 통합: AECD에서 파생된 특징 벡터를 지문으로 사용하여 위협 인텔리전스 플랫폼에 유사한 알려진 악성코드 행동을 조회합니다.
적대적 견고성: 분석에서 언급된 바와 같이, 이 특정 탐지 방법을 회피하도록 설계된 악성코드에 대한 방어 메커니즘을 연구하는 것은 중요한 다음 단계입니다.

7. 참고문헌

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. SonicWall 웹사이트에서 검색.
Berecz, T., et al. (2021). [API 기반 악성코드 탐지 관련 연구]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (TextCNN의 기초 논문).
arXiv.org, cs.CR (Cryptography and Security) 카테고리. [최신 적대적 ML 및 보안 연구 저장소].