معرفی دادگان Kdd CUP 99 و معیار های ارزیابی الگوریتم های آزمون شده با آن

دادگان (Data Set) مجموعه ای از داده های گردآوری شده در رابطه با یک موضوع واحد بوده و بیشتر ین کاربرد آن در داده کاوی (Data Mining) است اما یکی از ابزارهای بسیارمناسب و کارآمد برای آزمون و ارزیابی الگوریتم های طراحی شده در یک حوزه خاص نیز به شمار می رود برای مثال دادگان 99 Kdd CUP با هدف آزمون الگوریتم های تشخیص نفوذ (Intrusion Detection) گردآوری و طراحی شده است این مجموعه داده با استفاده از حجم عظیم داده های گرد آوری شده در پروژه DIDE یا Darpa Intrusion Detection Evalution که با همکاری سازمان پروژه های تحقیقاتی پیشرفته دفاعی ، وزارت دفاع ایالات متحده آمریکا و آزمایشگاه لینکلن دانشگاه MIT انجام شد ، تهیه گردیده است هدف از تهیه این دادگان ، ایجاد یک مجموعه داده استاندارد برای ارزیابی سیستم های تشخیص نفوذ (Intrusion Detection System) است.

  

 از این روکلیه رکوردهای موجود در این مجموعه داده ، توسط افراد خبره در حوزه امنیت اطلاعات برچسب گذاری شده است بگونه ای که تعلق هر رکورد به کلاس خاصی از حمله و یا عادی بودن رکورد به آسانی قابل تشخیص است. این دادگان از دو مجموعه داده جداگانه تشکیل می شود که عبارتند از : مجموعه داده های آموزشی (Training) که مجموعه یادگیری نیز نامیده می شود و مجموعه آزمون (Test) که از مجموعه یادگیری برای تحلیل دقیق رفتار حمله و تدوین قوانین موثر و کارآمد استفاده می شود و برای آزمون و ارزیابی الگوریتم پیشنهادی نیز از هردو مجموعه یادگیری و آزمون استفاده می شود. یکی از دادگان های مطرح برگرفته شده از KDD CUP 99 دادگان NLS-KDD است که توسط تولایی و همکاران(M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani) با انجام تحلیلهای آماری دقیق در خصوص دادگان Kdd Cup 99 و برای حل برخی از مشکلات ذاتی دادگان Kdd Cup 99 تهیه گردیده است که نسبت به Kdd Cup 99 دارای برتری های زیر است: 

1-هردو مجموعه داده های یادگیری و آزمون فاقد رکورد تکراری هستند که این ویژگی موجب بالاتر رفتن دقت و کارآیی الگوریتمهای داده کاوی و یادگیری ماشینی شده و مانع ازتاثیر منفی رکوردهای تکراری بر خروجی الگوریتم خواهد شد. 
2-تعداد رکوردها در مجموعه یادگیری و آزمون مناسب و خردمندانه انتخاب شده است که این ویژگی سرعت الگوریتمهای یادگیری ماشینی و داده کاوی را افزایش میدهد. 

 


مجموعه داده NLS-KDD شامل 42 ویژگی یا فیلد است که عبارتند از: 41 ویژگی عادی مربوط به اتصالات شبکه و یک ویژگی کلاس که در آن 5 کلاس مختلف شامل یک کلاس عادی و 4 کلاس حمله تعریف شده است. کلاسهای حمله عبارتند از : DoS ، U2R ، R2L و Prob . 
DoS : به دسته ای از حملات گفته می شود که مولفه ((دسترس پذیری)) اطلاعات را هدف قرار گرفته و در نتیجه مانع از دسترسی کابران به سرویسهای ارائه شده در یک شبکه می گردند. 
R2L : در این دسته از حملات مهاجم تلاش می کند تا از راه دور، و با استفاده از روشهایی چون حدس زدن گذرواژه کاربران و سرریزی بافر ، کنترل ماشین قربانی را بدست آورد. در صورتی که این حمله با موفقیت انجام گردد بسته به مجوزها و سطح دسترسی که نفوذگر بدست آورده است می تواند هر سه مولفه اساسی امنیت اطلاعات را به تمامی خدشه دار نماید. 
U2R: این دسته از حمله ها در ماشین قربانی اجرا شده و مهاجم که دارای سطح دسترسی یک کاربر عادی است تلاش می کند تا مجوزهای کاربر ریشه (در سیستمهای لینوکس کاربر Root ودر سیستمهای ویندوز کاربر Administrator) را در اختیار بگیرد. 
Probing: در این دسته که به حملات کاوشی و شناسایی نیز مشهورند ، نفوذگر با استفاده از ابزارهای گوناگونی چون Nmap ماشین های موجود در شبکه هدف را برای گردآوری اطلاعات اولیه و مورد نیازبرای آغاز حمله و نیز یافتن آسیب پذیریهای شناخته شده پویش می کند. 



برای ارزیابی الگوریتم تشخیص نفوذ پیشنهادی ، با استفاده از دادگان NLS KDD کافی است تا برچسب حمله که توسط افراد خبره به هر رکورد موجود در این دادگان ، نسبت داده شده است را با برچسبی که توسط الگوریتم پیشنهادی به رکوردهای موجود در این دادگان ، نسبت داده می شود مقایسه کنید . بر اساس تشخیص درست یا نادرست رکوردها توسط الگوریتم پیشنهادی ، رخ دادن حالتهای خلاصه شده در جدول زیر قابل پیش بینی است: 

معیار TN : درصد رکوردهای عادی که توسط الگوریتم پیشنهادی به درستی تشخیص داده شده است. 
معیار TP : درصد رکوردهای حمله که توسط الگوریتم پیشنهادی به درستی تشخیص داده شده است. 
معیار FP : درصد رکوردهای عادی که توسط الگوریتم پیشنهادی به اشتباه از نوع رکورد حمله تشخیص داده شده است 
معیار FN : درصد رکوردهای حمله که توسط سیستم پیشنهادی به اشتباه از نوع رکورد عادی تشخیص داده شده است. 
معیار دقت (Accuracy) : این معیار بیانگر آن است که الگوریتم پیشنهادی چند درصد از کل رکوردهای موجود در دادگان را بدرستی تشخیص داده شده است. این معیار دقت کل الگوریتم پیشنهادی را محاسبه می کند: 

بنا براین دو معیار TN و TP مهمترین مقادیری هستند که باید بیشینه شوند تا دقت الگوریتم پیشنهادی بیشینه گردد.

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.