الگوریتم طبقه بندی درخت تصمیم DecisionStump

درخت تصمیم یا Decision Tree

یکی از پرکاربردترین الگوریتم­‌های داده­‌کاوی، الگوریتم درخت تصمیم است. در داده­‌کاوی، درخت تصمیم یک مدل پیش­بینی کننده است به طوری که می­‌تواند برای هر دو مدل رگرسیون و طبقه‌­ای مورد استفاده قرار گیرد. زمانی که درخت برای کارهای طبقه‌­بندی استفاده می‌­شود، به عنوان درخت طبقه­‌بندی (Classification Tree) شناخته می‌­شود و هنگامی که برای فعالیت‌­های رگرسیونی به کار می‌­رود درخت رگرسیون (Regression Decision Tree)نامیده می­شود.

درخت­‌های طبقه­‌بندی برای طبقه­‌بندی یک مجموعه رکورد به کار می‌­رود. به صورت رایج در فعالیت‌­های بازاریابی، مهندسی و پزشکی استفاده می‌­شود.

در ساختار درخت تصمیم، پیش­بینی به دست آمده از درخت در قالب یک سری قواعد توضیح داده می‌­شود. هر مسیر از ریشه تا یک برگ درخت تصمیم، یک قانون را بیان می­‌کند و در نهایت برگ با کلاسی که بیشترین مقدار رکورد در آن تعلق گرفته برچسب می­‌خورد.

اجزای اصلی درخت تصمیم

برگ (Leaf Nodes): گره­‌هایی که تقسیم‌­های متوالی در آنجا پایان می‌­یابد. برگ‌­ها با یک کلاس مشخص می­‌شوند.

ریشه (Root Node): منظور از ریشه، گره آغازین درخت است.

شاخه (Branches): در هر گره داخلی به تعداد جواب‌­های ممکن شاخه ایجاد می‌­شود.

اجزای درخت تصمیم

معیارهای انتخاب مشخصه برای انشعاب درخت تصمیم

یک معیار انتخاب مشخصه، یک ابتکار برای انتخاب معیار نقطه انشعاب است به طوری که بهترین تفکیک داده­‌های آموزش را به کلاس‌­های برچسب­‌دار داشته باشد.

سه معیار انتخاب مشخصه شناخته شده عبارتند از:

  • Information gain
  • Gain ratio
  • Gini index

الگوریتم‌­های شایع برای برقراری درخت تصمیم

ID3

یکی از الگوریتم‌­های بسیار ساده درخت تصمیم که در سال 1986 توسط Quinlan مطرح شده است. اطلاعات به دست آمده به عنوان معیار تفکیک به کار می­‌رود. این الگوریتم هیچ فرایند هرس کردن را به کار نمی­‌برد و مقادیر اسمی و مفقوده را مورد توجه قرار نمی­‌دهد.

C4.5

این الگوریتم درخت تصمیم، تکامل یافته ID3 است که در سال 1993 توسط Quinlan  مطرح شده است.

Gain Ratio  به عنوان معیار تفکیک در نظر گرفته می­‌شود. عمل تفکیک زمانی که تمامی نمونه‌­ها پایین آستانه مشخصی واقع می­‌شوند، متوقف می­‌شود. پس از فاز رشد درخت عمل هرس کردن بر اساس خطا اعمال می­‌شود. این الگوریتم مشخصه­‌های اسمی را نیز در نظر می­‌گیرد.

CART

برای برقراری درخت­‌های رگرسیون و دسته‌­بندی از این الگوریتم استفاده می­‌شود. در سال 1984توسط Breiman و همکارانش ارائه شده است. نکته حائز اهمیت این است که این الگوریتم درخت­‌های باینری ایجاد می­‌کند به طوری که از هر گره داخلی دو لبه از آن خارج می­‌شود و درخت­‌های بدست آمده توسط روش اثربخشی هزینه، هرس می­‌شوند.

یکی از ویژگی‌­های این الگوریتم، توانایی در تولید درخت­‌های رگرسیون است. در این نوع از درخت­‌ها برگ‌ها به جای کلاس مقدار واقعی را پیش­بینی می‌­کنند. الگوریتم برای تفکیک کننده‌­ها، میزان مینیمم مربع خطا را جستجو می­‌کند. در هر برگ، مقدار پیش­بینی بر اساس میانگین خطای گره‌­ها می­‌باشد.

CHID

این الگوریتم درخت تصمیم به جهت در نظرگرفتن مشخصه­‌های اسمی در سال 1981 توسط Kass طراحی شده است. الگوریتم برای هر مشخصه ورودی یک جفت مقدار که حداقل تفاوت را با مشخصه هدف داشته باشد، پیدا می ‌کند.

مزایای درخت تصمیم

  1. درخت تصمیم بدیهی است و نیاز به توصیف ندارد.
  2. هر دو مشخصه اسمی و عددی را می‌­تواند مورد توجه قرار دهد.
  3. نمایش درخت تصمیم به اندازه کافی برای نشان دادن هرگونه طبقه‌­بندی غنی است.
  4. مجموعه داده‌­هایی که ممکن است دارای خطا باشند را در نظر می‌­گیرد.
  5. مجموعه داده­‌هایی که دارای مقادیر مفقوده هستند را شامل می­‌شود.
  6. درخت­‌های تصمیم روش­‌های ناپارامتری را نیز مورد توجه قرار می­‌دهد.
1199 بازدید