Kripto Madenciliği Zararlı Yazılımlarının Erken Tespiti için AECD Gömme Yöntemi

1. Giriş ve Genel Bakış

Kripto madenciliği zararlı yazılımları, donanım bozulmasına ve önemli enerji israfına neden olarak sistem güvenliği için ciddi bir tehdit oluşturmaktadır. Bu tehditle mücadeledeki temel zorluk, doğruluktan ödün vermeden erken tespit sağlamaktır. Mevcut yöntemler genellikle bu iki kritik unsuru dengelemekte başarısız olur. Bu makale, yazılım yürütmesinin başlangıç API çağrı dizilerinden yararlanan yeni bir yaklaşım olan CEDMA (AECD Gömme Tabanlı Kripto Madenciliği Zararlı Yazılımı Erken Tespit Yöntemi)'yı tanıtmaktadır. Önerilen AECD (Kategori ve DLL Tabanlı API Gömme) yöntemiyle API adlarını, işlevsel kategorilerini ve çağrı yapan DLL'leri zengin bir temsilde birleştirerek ve ardından bir TextCNN (Metin Evrişimli Sinir Ağı) modeli uygulayarak, CEDMA kötü amaçlı madencilik faaliyetini hızlı ve yüksek hassasiyetle tespit etmeyi amaçlamaktadır.

Tespit Doğruluğu (Bilinen Örnekler)

%98.21

Tespit Doğruluğu (Bilinmeyen Örnekler)

%96.76

Giriş Dizi Uzunluğu

3,000 API çağrısı

2. Metodoloji: CEDMA Çerçevesi

CEDMA'nın temel yeniliği, erken davranış analizi için çok yönlü özellik temsilidir.

2.1 AECD Gömme Mekanizması

Geleneksel API dizi analizi, API çağrılarını genellikle basit belirteçler olarak ele alır. AECD, üç kaynaktan gelen gömme vektörlerini birleştirerek bu temsili zenginleştirir:

API Adı Gömme ($e_{api}$): Çağrılan belirli işlevi temsil eder (örn., `CreateFileW`, `RegSetValueEx`).
API Kategori Gömme ($e_{cat}$): Üst düzey işlem türünü temsil eder (örn., Dosya Sistemi, Kayıt Defteri, Ağ). Bu, davranışı soyutlayarak genellemeye yardımcı olur.
DLL Gömme ($e_{dll}$): API'nin çağrıldığı dinamik bağlantı kitaplığını temsil eder (örn., `kernel32.dll`, `ntdll.dll`). Bu, yürütme ortamı hakkında bağlam sağlar.

Bir API çağrısı $i$ için nihai AECD vektörü şu şekilde oluşturulur: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, burada $\oplus$ vektör birleştirmeyi ifade eder. Bu üçlü gömme, sınırlı başlangıç yürütme verilerinden daha nüanslı davranış imzalarını yakalar.

2.2 TextCNN Model Mimarisi

AECD vektörlerinin dizisi (ilk 3,000 API çağrısından) bir "metin" belgesi olarak ele alınır. Verimliliği ve yerel sıralı örüntüleri (n-gram özellikleri) yakalama yeteneği nedeniyle sınıflandırma için bir TextCNN modeli kullanılır. Model tipik olarak şunlardan oluşur:

Bir Gömme Katmanı (AECD vektörleriyle başlatılmış).
API dizisinin farklı "gram" boyutlarından özellikler çıkarmak için farklı çekirdek boyutlarına (örn., 3, 4, 5) sahip birden fazla Evrişim Katmanı.
İkili sınıflandırma çıktısına (zararsız vs. kripto madenciliği zararlı yazılımı) götüren Havuzlama ve Tam Bağlı Katmanlar.

3. Deneysel Sonuçlar ve Performans

Önerilen CEDMA yöntemi, çeşitli kripto madenciliği zararlı yazılım ailelerini (birden fazla kripto paraya yönelik) ve çeşitli zararsız yazılım örneklerini içeren bir veri seti üzerinde titizlikle değerlendirilmiştir.

Temel Bulgular:

Yalnızca yürütme sonrası ilk 3,000 API çağrısı kullanılarak, CEDMA bilinen zararlı yazılım örneklerinde etkileyici bir %98.21 Doğruluk ve daha önce görülmemiş (bilinmeyen) zararlı yazılım örneklerinde %96.76 Doğruluk elde etmiştir.
Performans, AECD gömmenin, kategorik ve DLL bağlamını dahil ederek erken aşama analizinde doğal olarak bulunan bilgi kıtlığını başarıyla telafi ettiğini göstermektedir.
Yöntem, zararlı yazılımları ağ bağlantısı kurulmadan önce etkili bir şekilde tespit eder, bu da erken müdahale ve hasar önleme için çok önemlidir.

Grafik Açıklaması (Tasarlanmış): CEDMA'nın (AECD ile) Doğruluk, Kesinlik ve Duyarlılık metriklerini, yalnızca API adı gömme kullanan bir temel modelle karşılaştıran bir çubuk grafik. Grafik, özellikle Duyarlılıkta olmak üzere, CEDMA için tüm metriklerde önemli performans kazanımlarını ve gerçek zararlı yazılım örneklerini erken tespit etmedeki sağlamlığını açıkça gösterecektir.

4. Teknik Analiz ve Temel İçgörüler

Temel İçgörü: Makalenin temel atılımı, sadece başka bir sinir ağı uygulaması değil; gömme seviyesinde bir özellik mühendisliği devrimidir. Çoğu araştırma daha karmaşık modellerin (örn., Transformer'lar) peşinden giderken, CEDMA akıllıca erken tespitin kök sorununu ele alır: veri yetersizliği. Anlamsal (kategori) ve çevresel (DLL) bağlamı doğrudan özellik vektörüne enjekte ederek, kısa bir yürütme izinden elde edilebilen sınırlı sinyali yapay olarak zenginleştirir. Bu, CycleGAN'ın döngü tutarlılık kaybının (Zhu ve diğerleri, 2017) eşleştirilmiş veri olmadan görüntüden görüntüye çeviri yapmasına benzer—her ikisi de sadece ölçek büyütmek yerine, mimari veya temsili bir içgörüyle temel bir veri sınırlamasını çözer.

Mantıksal Akış: Mantık zarif bir şekilde doğrusaldır: 1) Erken tespit kısa diziler gerektirir. 2) Kısa diziler ayırt edici güçten yoksundur. 3) Bu nedenle, belirteç başına (API çağrısı) bilgi yoğunluğunu artırın. 4) Bunu, birbirine dik bilgi kanallarını (spesifik işlev, genel eylem, kaynak kitaplık) birleştirerek başarın. 5) Basit, verimli bir modelin (TextCNN) bu zenginleştirilmiş diziden örüntüler öğrenmesine izin verin. Bu işlem hattı, işlemciyi aşırı karmaşıklaştırmak yerine girdiyi güçlendirdiği için sağlamdır.

Güçlü ve Zayıf Yönler: Birincil gücü, pratik etkinliğidir—gerçek dünya dağıtımını mümkün kılan minimal çalışma zamanı ek yüküyle yüksek doğruluk. Daha ağır RNN'ler veya Transformer'ların aksine TextCNN kullanımı, güvenlik uygulamalarında hız ihtiyacıyla uyumlu pragmatik bir seçimdir. Ancak, kritik bir zayıflık düşmanca API çağrılarına karşı potansiyel savunmasızlıktır. Sofistike bir zararlı yazılım, gömme alanını zehirlemek için "doğru" DLL'lerden ve kategorilerden zararsız görünen API dizileri enjekte edebilir; bu, tartışılmayan bir tehdittir. Ayrıca, 3,000-API penceresi iyi bir kıyaslama olsa da keyfi bir eşiktir; çok farklı yazılım karmaşıklıkları arasında sağlamlığı kanıtlanmaya devam etmektedir.

Uygulanabilir İçgörüler: Güvenlik ürün yöneticileri için bu araştırma bir taslaktır: gerçek zamanlı tehditler için model karmaşıklığından ziyade özellik temsiline öncelik verin. AECD konsepti API'lerin ötesine genişletilebilir—ağ akış günlükleri (IP, port, protokol, paket boyutu örüntüsü) veya sistem günlükleri düşünülebilir. Araştırmacılar için bir sonraki adım, bu yöntemi düşmanca kaçınmaya karşı güçlendirmektir, belki de gömme alanının kendisi üzerinde anomali tespit puanlarını entegre ederek. Alan, arXiv'nin cs.CR (Kriptografi ve Güvenlik) deposundaki makalelerde tartışılan düşmanca eğitim teknikleri gibi, sağlam ML araştırmalarından daha fazla ödünç almalıdır.

5. Analiz Çerçevesi: Pratik Bir Örnek

Senaryo: Şüpheli, yeni indirilmiş bir çalıştırılabilir dosyayı analiz etmek.

CEDMA Analiz İş Akışı:

Dinamik Sandbox Yürütme: Çalıştırılabilir dosyayı kontrollü, enstrümantasyonlu bir ortamda çok kısa bir süre (saniyeler) çalıştırın.
İz Toplama: İlk ~3,000 API çağrısını ve karşılık gelen DLL'lerini kaydedin.
Özellik Zenginleştirme (AECD):
- Her API çağrısı için (örn., `NtCreateKey`), kategorisini (`Kayıt Defteri`) almak için önceden tanımlanmış bir eşlemeyi sorgulayın.
- Çağıran DLL'yi (`ntdll.dll`) not edin.
- `NtCreateKey`, `Kayıt Defteri` ve `ntdll.dll` için önceden eğitilmiş gömme tablolarından birleştirilmiş AECD vektörünü oluşturun.
Dizi Oluşturma ve Sınıflandırma: 3,000 AECD vektörünün oluşturduğu diziyi önceden eğitilmiş TextCNN modeline besleyin.
Karar: Model bir olasılık puanı çıktılar. Eğer puan bir eşiği aşarsa (örn., >0.95), dosya potansiyel kripto madenciliği zararlı yazılımı olarak işaretlenir ve büyük olasılıkla bir madencilik havuzuna ağ bağlantısı başlatmadan önce karantinaya alınır.

Not: Bu kavramsal bir çerçevedir. Gerçek uygulama kapsamlı ön işleme, gömme eğitimi ve model optimizasyonu gerektirir.

6. Gelecekteki Uygulamalar ve Araştırma Yönleri

Genişletilmiş Gömme Bağlamı: Gelecekteki çalışmalar, API çağrı argümanlarını (örn., dosya yolları, kayıt defteri anahtarları) veya iş parçacığı/süreç bilgilerini gömme şemasına dahil ederek daha da zengin davranış profilleri oluşturabilir.
Platformlar Arası Tespit: AECD konseptini bütünsel uç nokta koruması için diğer platformlara (Linux sistem çağrıları, macOS API'leri) uyarlamak.
Gerçek Zamanlı Akış Tespiti: CEDMA'yı, API çağrıları oluşturuldukça sürekli tahminler yapan bir akış analizörü olarak uygulamak, sabit pencere kısıtlamasını azaltmak.
Tehdit İstihbaratı ile Entegrasyon: AECD'den türetilen özellik vektörlerini, benzer bilinen zararlı yazılım davranışları için tehdit istihbarat platformlarını sorgulamak üzere bir parmak izi olarak kullanmak.
Düşmanca Sağlamlık: Analizde belirtildiği gibi, bu spesifik tespit yönteminden kaçınmak için tasarlanmış zararlı yazılımlara karşı savunma mekanizmaları üzerine araştırma yapmak, kritik bir sonraki adımdır.

7. Kaynaklar

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. SonicWall web sitesinden alındı.
Berecz, T., vd. (2021). [API tabanlı zararlı yazılım tespiti üzerine ilgili çalışma]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (Temel TextCNN makalesi).
arXiv.org, cs.CR (Kriptografi ve Güvenlik) kategorisi. [En son düşmanca ML ve güvenlik araştırmaları için depo].