بررسی حملات KDD-Cup99

KDD چیست؟

همانطور که در بالا گفته شد ، KDD زمینه ای از علوم رایانه است که به استخراج اطلاعات قبلاً ناشناخته و جالب از داده های خام می پردازد. KDD کل فرآیند تلاش برای ایجاد حس داده با توسعه روشها یا تکنیکهای مناسب است. این فرایند با نقشه برداری از داده های سطح پایین به اشکال دیگر که فشرده تر ، انتزاعی و مفید هستند ، سروکار دارد. این امر با ایجاد گزارش های کوتاه ، مدل سازی فرایند تولید داده و تهیه مدل های پیش بینی کننده که می تواند موارد آینده را پیش بینی کند ، حاصل می شود. با توجه به رشد نمایی داده ها ، به ویژه در زمینه هایی مانند تجارت ، KDD به یک فرآیند بسیار مهم برای تبدیل این ثروت بزرگ از داده ها به هوش تجاری تبدیل شده است ، زیرا استخراج دستی الگوهای در چند دهه گذشته به ظاهر غیرممکن شده است. به عنوان مثال ، در حال حاضر برای برنامه های مختلفی از جمله تجزیه و تحلیل شبکه های اجتماعی ، کشف تقلب ، علم ، سرمایه گذاری ، ساخت ، ارتباط از راه دور ، تمیز کردن داده ها ، ورزش ، بازیابی اطلاعات و عمدتاً برای بازاریابی استفاده می شود. KDD معمولاً برای پاسخ به سؤالاتی از جمله محصولات اصلی که می تواند در سال آینده در وال مارت به سود بالایی کمک کند ، استفاده می شود؟ این روند چندین مرحله دارد. این کار با ایجاد درک در مورد دامنه برنامه و هدف و سپس ایجاد مجموعه داده هدف شروع می شود. این به دنبال تمیز کردن ، پیش پردازش ، کاهش و پیش بینی داده ها است.

معرفی دادگان Kdd CUP 99

دادگان (Data Set) مجموعه ای از داده های گردآوری شده در رابطه با یک موضوع واحد بوده و بیشتر ین کاربرد آن در داده کاوی (Data Mining) است اما یکی از ابزارهای بسیارمناسب و کارآمد برای آزمون و ارزیابی الگوریتم های طراحی شده در یک حوزه خاص نیز به شمار می رود برای مثال دادگان 99 Kdd CUP با هدف آزمون الگوریتم های تشخیص نفوذ (Intrusion Detection) گردآوری و طراحی شده است این مجموعه داده با استفاده از حجم عظيم داده هاي گرد آوري شده در پروژه DIDE یا Darpa Intrusion Detection Evalution که با همکاري سازمان پروژه هاي تحقيقاتي پيشرفته دفاعي ، وزارت دفاع ايالات متحده آمريکا و آزمايشگاه لينکلن دانشگاه MIT انجام شد ، تهيه گرديده است هدف از تهیه اين دادگان ، ايجاد يک مجموعه داده استاندارد براي ارزيابي سيستم هاي تشخيص نفوذ (Intrusion Detection System) است.

از این روکليه رکوردهاي موجود در اين مجموعه داده ، توسط افراد خبره در حوزه امنيت اطلاعات برچسب گذاري شده است بگونه اي که تعلق هر رکورد به کلاس خاصي از حمله و يا عادي بودن رکورد به آساني قابل تشخيص است. اين دادگان از دو مجموعه داده جداگانه تشکيل مي شود که عبارتند از : مجموعه داده های آموزشي (Training) که مجموعه يادگيري نيز ناميده مي شود و مجموعه آزمون (Test) که از مجموعه يادگيري براي تحليل دقيق رفتار حمله و تدوين قوانين موثر و کارآمد استفاده می شود و براي آزمون و ارزیابی الگوریتم پيشنهادي نيز از هردو مجموعه يادگيري و آزمون استفاده می شود. یکی از دادگان های مطرح برگرفته شده از KDD CUP 99 دادگان NLS-KDD است که توسط تولايي و همکاران(M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani) با انجام تحليلهاي آماري دقيق در خصوص دادگان Kdd Cup 99 و براي حل برخي از مشکلات ذاتي دادگان Kdd Cup 99 تهیه گردیده است که نسبت به Kdd Cup 99 داراي برتری های زیر است:

1-هردو مجموعه داده هاي يادگيري و آزمون فاقد رکورد تکراري هستند که اين ويژگي موجب بالاتر رفتن دقت و کارآيي الگوريتمهاي داده کاوي و يادگيري ماشيني شده و مانع ازتاثير منفي رکوردهاي تکراري بر خروجي الگوريتم خواهد شد.

2-تعداد رکوردها در مجموعه يادگيري و آزمون مناسب و خردمندانه انتخاب شده است که اين ويژگي سرعت الگوريتمهاي يادگيري ماشيني و داده کاوي را افزايش ميدهد.

حملات در ۴ دسته اصلی دسته بندی می شوند.

۱- حملات DOS (denial of service) برای مثال syn flood
۲-R2L: دسترسی غیر مجاز از یک ماشین راه دور .برای مثال حدس زدن رمز عبور
3-U2R : دسرسی غیر مجاز مجاز به دسترسی های کاربر ارشد محلی (ROOT) مثل حملات سر ریز بافر.
۴- نظارت و کاوش برای مثال اسکن نمودن پورت ها

مهم است که یاآوری کنیم که داده‌های آزمایشی(Test Data) از توزیع مشابه داده‌های آموزشی نیستند و ممکن است شامل انواع حملات خاصی باشند که در داده آموزشی( Training Data) وجود ندارد.برخی از متخصصین نفوذ معتقدند که حملات جدید نوعی از حملات شناخته شده هستند و داشتن ردپایی از حملات شناخته شده برای شناخت انواع جدید آن‌ها کافی است.مجموعه داده شامل ۲۴ نوع حمله آموزشی و مضافا ۱۴ نوع دیگر که تنها در داده آزمایشی وجود داردند.