الگوریتم درخت تصمیم چیست؟
الگوریتم درخت تصمیم مدل های طبقه بندی یا رگرسیون را به شکل ساختار درخت می سازد. درخت تصمیم ، مجموعه داده را به زیر مجموعه های کوچکتر و کوچکتر تجزیه می کند و یک درخت تصمیم مرتبط به صورت تدریجی توسعه می یابد. نتیجه نهایی یک درخت با گره های تصمیم گیری و گره های برگ است. یک گره تصمیم (به عنوان مثال ، Outlook) دارای دو یا چند شاخه (به عنوان مثال ، آفتابی ، ابر و بارانی) است. گره برگ (به عنوان مثال ، بازی) یک طبقه بندی یا تصمیم را نشان می دهد. بالاترین گره تصمیم گیری در یک درخت که مطابق با بهترین پیش بینی کننده به نام گره ریشه است. درختان تصمیم گیری می توانند داده های دسته ای و عددی را کنترل کنند.
الگوریتم ID3 و ساختار Entropy و Gain
این الگوریتم، درختانِ تصمیمِ از بالا به پایین میسازد و با طرح این سوال که چه صفتی باید در ریشهی درخت آزمایش شود آغاز میکند. برای پاسخ به این سوال، با استفاده از یکی از انواع آزمایشهای آماری برای تعیین مناسبترین صفت برای دستهبندی مثالهای آموزشی، تصمیم براساس هر صفت نمونه را ارزیابی میکند.
سپس بهترین صفت را انتخاب کرده و به عنوان تست در گرهی ریشهی درخت استفاده میکند. برای هر مقدار ممکن صفت تست شده در ریشه، یک گرهی متناظر ایجاد شده و مثالهای آموزشی براساس مقادیر صفت تست، بین این گرهها افراز میشوند.
تمام فرآیند ذکر شده، با استفاده از مثالهای آموزشی نسبت داده شده به هر گره، برای انتخاب بهترین صفت برای آزمایشی در آن گرهی درخت تکرار میشود. این روش جستجویی حریصانه را برای یک درخت تصمیم قابل قبول ارائه میدهد که در این الگوریتم، هیچگاه برای در نظر گرفتن دوبارهی انتخابهای قبلی، به عقب برگشت نمیشود.