AECD এম্বেডিং ব্যবহার করে ক্রিপ্টোমাইনিং ম্যালওয়ারের প্রাথমিক সনাক্তকরণ

1. ভূমিকা ও সারসংক্ষেপ

ক্রিপ্টোমাইনিং ম্যালওয়্যার সিস্টেম নিরাপত্তার জন্য একটি গুরুত্বপূর্ণ হুমকি, যা হার্ডওয়্যারের অবনতি এবং উল্লেখযোগ্য শক্তি অপচয় ঘটায়। এই হুমকি মোকাবেলায় প্রধান চ্যালেঞ্জ হল নির্ভুলতা বিসর্জন না দিয়ে প্রাথমিক সনাক্তকরণ অর্জন করা। বিদ্যমান পদ্ধতিগুলো প্রায়শই এই দুটি গুরুত্বপূর্ণ দিকের মধ্যে ভারসাম্য বজায় রাখতে ব্যর্থ হয়। এই গবেষণাপত্রটি CEDMA (AECD এম্বেডিং-ভিত্তিক ক্রিপ্টোমাইনিং ম্যালওয়্যার প্রাথমিক সনাক্তকরণ পদ্ধতি) উপস্থাপন করে, যা সফটওয়্যার এক্সিকিউশনের প্রাথমিক API কল ক্রম ব্যবহার করে। প্রস্তাবিত AECD (ক্যাটাগরি এবং DLL-ভিত্তিক API এম্বেডিং) পদ্ধতির মাধ্যমে API নাম, তাদের অপারেশন ক্যাটাগরি এবং কলিং DLL-গুলিকে একটি সমৃদ্ধ উপস্থাপনায় একত্রিত করে এবং পরবর্তীতে একটি TextCNN (টেক্সট কনভোলিউশনাল নিউরাল নেটওয়ার্ক) মডেল প্রয়োগ করে, CEDMA দ্রুত এবং উচ্চ নির্ভুলতার সাথে দূষিত মাইনিং কার্যকলাপ সনাক্ত করার লক্ষ্য রাখে।

সনাক্তকরণ নির্ভুলতা (পরিচিত নমুনা)

৯৮.২১%

সনাক্তকরণ নির্ভুলতা (অপরিচিত নমুনা)

৯৬.৭৬%

ইনপুট ক্রম দৈর্ঘ্য

৩,০০০ API কল

2. পদ্ধতি: CEDMA কাঠামো

CEDMA-এর মূল উদ্ভাবন হল প্রাথমিক আচরণগত বিশ্লেষণের জন্য এর বহুমুখী বৈশিষ্ট্য উপস্থাপনা।

2.1 AECD এম্বেডিং প্রক্রিয়া

ঐতিহ্যগত API ক্রম বিশ্লেষণ প্রায়শই API কলগুলিকে সাধারণ টোকেন হিসেবে বিবেচনা করে। AECD তিনটি উৎস থেকে এম্বেডিং সংযুক্ত করে এই উপস্থাপনাকে সমৃদ্ধ করে:

API নাম এম্বেডিং ($e_{api}$): কল করা নির্দিষ্ট ফাংশনকে উপস্থাপন করে (যেমন, `CreateFileW`, `RegSetValueEx`)।
API ক্যাটাগরি এম্বেডিং ($e_{cat}$): উচ্চ-স্তরের অপারেশন প্রকারকে উপস্থাপন করে (যেমন, ফাইল সিস্টেম, রেজিস্ট্রি, নেটওয়ার্ক)। এটি আচরণকে বিমূর্ত করে, সাধারণীকরণে সহায়তা করে।
DLL এম্বেডিং ($e_{dll}$): যে ডাইনামিক লিঙ্ক লাইব্রেরি থেকে API কল করা হয়েছে তাকে উপস্থাপন করে (যেমন, `kernel32.dll`, `ntdll.dll`)। এটি এক্সিকিউশন পরিবেশ সম্পর্কে প্রসঙ্গ সরবরাহ করে।

একটি API কল $i$-এর জন্য চূড়ান্ত AECD ভেক্টর তৈরি করা হয়: $v_i^{AECD} = [e_{api}^{(i)} \oplus e_{cat}^{(i)} \oplus e_{dll}^{(i)}]$, যেখানে $\oplus$ ভেক্টর সংযোজন নির্দেশ করে। এই ত্রিপাক্ষিক এম্বেডিং সীমিত প্রাথমিক এক্সিকিউশন ডেটা থেকে আরও সূক্ষ্ম আচরণগত স্বাক্ষর সংগ্রহ করে।

2.2 TextCNN মডেল আর্কিটেকচার

AECD ভেক্টরের ক্রম (প্রথম ৩,০০০ API কল থেকে) একটি "টেক্সট" ডকুমেন্ট হিসেবে বিবেচনা করা হয়। এর দক্ষতা এবং স্থানীয় অনুক্রমিক প্যাটার্ন (n-gram বৈশিষ্ট্য) ধরার ক্ষমতার কারণে শ্রেণীবিভাগের জন্য একটি TextCNN মডেল ব্যবহার করা হয়। মডেলটিতে সাধারণত থাকে:

একটি এম্বেডিং লেয়ার (AECD ভেক্টর দিয়ে শুরু করা)।
বিভিন্ন কার্নেল সাইজ (যেমন, ৩, ৪, ৫) সহ একাধিক কনভোলিউশনাল লেয়ার API ক্রমের বিভিন্ন "গ্রাম" সাইজ থেকে বৈশিষ্ট্য নিষ্কাশনের জন্য।
পুলিং এবং সম্পূর্ণ সংযুক্ত স্তর যা একটি বাইনারি শ্রেণীবিভাগ আউটপুটের (বিনাইন বনাম ক্রিপ্টোমাইনিং ম্যালওয়্যার) দিকে নিয়ে যায়।

3. পরীক্ষামূলক ফলাফল ও কার্যকারিতা

প্রস্তাবিত CEDMA পদ্ধতিটি বিভিন্ন ক্রিপ্টোমাইনিং ম্যালওয়্যার পরিবার (একাধিক ক্রিপ্টোকারেন্সি লক্ষ্য করে) এবং বিভিন্ন বিনাইন সফটওয়্যার নমুনা সমন্বিত একটি ডেটাসেটে কঠোরভাবে মূল্যায়ন করা হয়েছিল।

প্রধান ফলাফল:

এক্সিকিউশনের পর মাত্র প্রথম ৩,০০০ API কল ব্যবহার করে, CEDMA পরিচিত ম্যালওয়্যার নমুনাগুলিতে একটি চিত্তাকর্ষক ৯৮.২১% নির্ভুলতা এবং পূর্বে দেখা যায়নি এমন (অপরিচিত) ম্যালওয়্যার নমুনাগুলিতে ৯৬.৭৬% নির্ভুলতা অর্জন করেছে।
এই কার্যকারিতা দেখায় যে AECD এম্বেডিং ক্যাটাগরিকাল এবং DLL প্রসঙ্গ অন্তর্ভুক্ত করে প্রাথমিক-পর্যায়ের বিশ্লেষণের অন্তর্নিহিত তথ্যের স্বল্পতা সফলভাবে পূরণ করে।
এই পদ্ধতি নেটওয়ার্ক সংযোগ স্থাপনের আগেই ম্যালওয়্যার কার্যকরভাবে সনাক্ত করে, যা প্রাথমিক নিয়ন্ত্রণ এবং ক্ষতি প্রতিরোধের জন্য অত্যন্ত গুরুত্বপূর্ণ।

চার্ট বর্ণনা (কল্পিত): একটি বার চার্ট যা CEDMA (AECD সহ) এবং শুধুমাত্র API নাম এম্বেডিং ব্যবহার করে একটি বেসলাইন মডেলের নির্ভুলতা, প্রিসিশন এবং রিকলের তুলনা করে। চার্টটি CEDMA-এর জন্য সমস্ত মেট্রিক জুড়ে উল্লেখযোগ্য কার্যকারিতা বৃদ্ধি দেখাবে, বিশেষ করে রিকলে, যা প্রাথমিকভাবে সত্যিকারের ম্যালওয়্যার উদাহরণ চিহ্নিত করার ক্ষেত্রে এর মজবুতিত্ব নির্দেশ করে।

4. প্রযুক্তিগত বিশ্লেষণ ও মূল অন্তর্দৃষ্টি

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রের মৌলিক অগ্রগতি শুধু আরেকটি নিউরাল নেটওয়ার্ক প্রয়োগ নয়; এটি এম্বেডিং স্তরে বৈশিষ্ট্য প্রকৌশলের একটি বিপ্লব। যদিও বেশিরভাগ গবেষণা আরও জটিল মডেল (যেমন, ট্রান্সফরমার) অনুসরণ করে, CEDMA বুদ্ধিমত্তার সাথে প্রাথমিক সনাক্তকরণের মূল সমস্যাটি সমাধান করে: ডেটার স্বল্পতা। শব্দার্থিক (ক্যাটাগরি) এবং পরিবেশগত (DLL) প্রসঙ্গ সরাসরি বৈশিষ্ট্য ভেক্টরে ইনজেক্ট করে, এটি সংক্ষিপ্ত এক্সিকিউশন ট্রেস থেকে পাওয়া সীমিত সংকেতকে কৃত্রিমভাবে সমৃদ্ধ করে। এটি CycleGAN-এর সাইকেল-কনসিসটেন্সি লস (Zhu et al., 2017) কীভাবে জোড়া ডেটা ছাড়াই ইমেজ-টু-ইমেজ অনুবাদ সক্ষম করেছিল তার অনুরূপ—উভয়ই শুধু স্কেল আপ করার পরিবর্তে একটি স্থাপত্যিক বা উপস্থাপনামূলক অন্তর্দৃষ্টি দিয়ে একটি মূল ডেটা সীমাবদ্ধতা সমাধান করে।

যুক্তিসঙ্গত প্রবাহ: যুক্তিটি সুন্দরভাবে রৈখিক: ১) প্রাথমিক সনাক্তকরণের জন্য সংক্ষিপ্ত ক্রম প্রয়োজন। ২) সংক্ষিপ্ত ক্রমে বৈষম্যমূলক শক্তি থাকে না। ৩) তাই, প্রতি টোকেনের (API কল) তথ্যের ঘনত্ব বাড়ান। ৪) অর্থোগোনাল তথ্য চ্যানেল (নির্দিষ্ট ফাংশন, সাধারণ ক্রিয়া, উৎস লাইব্রেরি) একত্রিত করে এটি অর্জন করুন। ৫) একটি সহজ, দক্ষ মডেল (TextCNN) কে এই সমৃদ্ধ ক্রম থেকে প্যাটার্ন শিখতে দিন। এই পাইপলাইনটি মজবুত কারণ এটি ইনপুটকে শক্তিশালী করে প্রসেসরকে অত্যন্ত জটিল করে না।

শক্তি ও ত্রুটি: প্রাথমিক শক্তি হল এর ব্যবহারিক কার্যকারিতা—ন্যূনতম রানটাইম ওভারহেড সহ উচ্চ নির্ভুলতা, যা বাস্তব-বিশ্বে স্থাপনাকে সম্ভব করে তোলে। ভারী RNN বা ট্রান্সফরমারের বিপরীতে TextCNN ব্যবহার করা একটি ব্যবহারিক পছন্দ যা নিরাপত্তা অ্যাপ্লিকেশনে গতির প্রয়োজনীয়তার সাথে সামঞ্জস্যপূর্ণ। যাইহোক, একটি সমালোচনামূলক ত্রুটি হল প্রতিকূল API কলের প্রতি সম্ভাব্য দুর্বলতা। একটি পরিশীলিত ম্যালওয়্যার এম্বেডিং স্পেসকে বিষাক্ত করার জন্য "সঠিক" DLL এবং ক্যাটাগরি থেকে বিনাইন-দেখতে API ক্রম ইনজেক্ট করতে পারে, এমন একটি হুমকি যা আলোচনা করা হয়নি। তদুপরি, ৩,০০০-API উইন্ডো, যদিও একটি ভাল বেঞ্চমার্ক, একটি নির্বিচারে থ্রেশহোল্ড; বিভিন্ন সফটওয়্যার জটিলতার মধ্যে এর মজবুততা প্রমাণিত হতে বাকি আছে।

কার্যকরী অন্তর্দৃষ্টি: নিরাপত্তা পণ্য ব্যবস্থাপকদের জন্য, এই গবেষণাটি একটি নীলনকশা: রিয়েল-টাইম হুমকির জন্য মডেল জটিলতার চেয়ে বৈশিষ্ট্য উপস্থাপনাকে অগ্রাধিকার দিন। AECD ধারণাটি API-এর বাইরেও প্রসারিত করা যেতে পারে—নেটওয়ার্ক ফ্লো লগ (IP, পোর্ট, প্রোটোকল, প্যাকেট সাইজ প্যাটার্ন) বা সিস্টেম লগের কথা ভাবুন। গবেষকদের জন্য, পরবর্তী ধাপ হল প্রতিকূল এড়ানোর বিরুদ্ধে এই পদ্ধতিকে শক্তিশালী করা, সম্ভবত এম্বেডিং স্পেসেই অস্বাভাবিকতা সনাক্তকরণ স্কোর একীভূত করে। এই ক্ষেত্রটিকে আরও বেশি করে মজবুত ML গবেষণা থেকে ধার নেওয়া উচিত, যেমন arXiv-এর cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা) সংগ্রহস্থল থেকে গবেষণাপত্রগুলিতে আলোচিত প্রতিকূল প্রশিক্ষণ কৌশল।

5. বিশ্লেষণ কাঠামো: একটি ব্যবহারিক উদাহরণ

দৃশ্যকল্প: একটি সন্দেহজনক, নতুন ডাউনলোড করা এক্সিকিউটেবল বিশ্লেষণ করা।

CEDMA বিশ্লেষণ ওয়ার্কফ্লো:

ডাইনামিক স্যান্ডবক্স এক্সিকিউশন: এক্সিকিউটেবলটিকে একটি নিয়ন্ত্রিত, ইনস্ট্রুমেন্টেড পরিবেশে খুব সংক্ষিপ্ত সময়ের জন্য (সেকেন্ড) চালান।
ট্রেস সংগ্রহ: প্রথম ~৩,০০০ API কল এবং তাদের সংশ্লিষ্ট DLL-গুলি হুক করে রেকর্ড করুন।
বৈশিষ্ট্য সমৃদ্ধি (AECD):
- প্রতিটি API কলের জন্য (যেমন, `NtCreateKey`), এর ক্যাটাগরি (`রেজিস্ট্রি`) পেতে একটি পূর্বনির্ধারিত ম্যাপিং ক্যোয়ারি করুন।
- কলিং DLL (`ntdll.dll`) নোট করুন।
- `NtCreateKey`, `রেজিস্ট্রি`, এবং `ntdll.dll`-এর জন্য পূর্ব-প্রশিক্ষিত এম্বেডিং টেবিল থেকে সংযুক্ত AECD ভেক্টর তৈরি করুন।
ক্রম গঠন ও শ্রেণীবিভাগ: ৩,০০০ AECD ভেক্টরের ক্রমটি পূর্ব-প্রশিক্ষিত TextCNN মডেলে ফিড করুন।
সিদ্ধান্ত: মডেলটি একটি সম্ভাব্যতা স্কোর আউটপুট করে। যদি স্কোরটি একটি থ্রেশহোল্ড অতিক্রম করে (যেমন, >০.৯৫), ফাইলটিকে সম্ভাব্য ক্রিপ্টোমাইনিং ম্যালওয়্যার হিসেবে চিহ্নিত করা হয় এবং এটি সম্ভবত একটি মাইনিং পুলে নেটওয়ার্ক সংযোগ শুরু করার আগেই কোয়ারেন্টাইন করা হয়।

দ্রষ্টব্য: এটি একটি ধারণাগত কাঠামো। প্রকৃত বাস্তবায়নের জন্য ব্যাপক প্রাক-প্রক্রিয়াকরণ, এম্বেডিং প্রশিক্ষণ এবং মডেল অপ্টিমাইজেশন প্রয়োজন।

6. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

বর্ধিত এম্বেডিং প্রসঙ্গ: ভবিষ্যতের কাজে আরও প্রসঙ্গ, যেমন API কল আর্গুমেন্ট (যেমন, ফাইল পাথ, রেজিস্ট্রি কী) বা থ্রেড/প্রসেস তথ্য, এম্বেডিং স্কিমে অন্তর্ভুক্ত করা যেতে পারে আরও সমৃদ্ধ আচরণগত প্রোফাইল তৈরি করার জন্য।
ক্রস-প্ল্যাটফর্ম সনাক্তকরণ: AECD ধারণাটিকে অন্যান্য প্ল্যাটফর্মে (লিনাক্স সিসকল, macOS API) অভিযোজিত করা সামগ্রিক এন্ডপয়েন্ট সুরক্ষার জন্য।
রিয়েল-টাইম স্ট্রিমিং সনাক্তকরণ: CEDMA কে একটি স্ট্রিমিং অ্যানালাইজার হিসেবে বাস্তবায়ন করা যা API কল তৈরি হওয়ার সাথে সাথে ক্রমাগত ভবিষ্যদ্বাণী করে, নির্দিষ্ট উইন্ডো সীমাবদ্ধতা হ্রাস করে।
হুমকি বুদ্ধিমত্তার সাথে একীকরণ: AECD-প্রাপ্ত বৈশিষ্ট্য ভেক্টরগুলিকে একটি ফিঙ্গারপ্রিন্ট হিসেবে ব্যবহার করে হুমকি বুদ্ধিমত্তা প্ল্যাটফর্মে অনুরূপ পরিচিত ম্যালওয়্যার আচরণের জন্য ক্যোয়ারি করা।
প্রতিকূল মজবুততা: বিশ্লেষণে উল্লিখিত হিসাবে, এই নির্দিষ্ট সনাক্তকরণ পদ্ধতি এড়াতে ডিজাইন করা ম্যালওয়্যারের বিরুদ্ধে প্রতিরক্ষা প্রক্রিয়া গবেষণা করা একটি গুরুত্বপূর্ণ পরবর্তী ধাপ।

7. তথ্যসূত্র

Cao, C., Guo, C., Li, X., & Shen, G. (2024). Cryptomining Malware Early Detection Method Based on AECD Embedding. Journal of Frontiers of Computer Science and Technology, 18(4), 1083-1093.
Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
SonicWall. (2023). SonicWall Cyber Threat Report 2023. Retrieved from SonicWall website.
Berecz, T., et al. (2021). [API-ভিত্তিক ম্যালওয়্যার সনাক্তকরণে প্রাসঙ্গিক কাজ]. Conference on Security and Privacy.
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). (TextCNN-এর মৌলিক গবেষণাপত্র)।
arXiv.org, cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা) ক্যাটাগরি। [নতুন প্রতিকূল ML এবং নিরাপত্তা গবেষণার সংগ্রহস্থল]।