الگوریتم طبقه بندی درخت تصمیم CHAID

درخت تصمیم ابزاری برای اتخاذ تصمیم مناسب‌تر است بطوری که شکل و ساختاری درختی (Tree Structure) یا سلسله مراتبی (Hierarchical) به تصمیمات و نتایج آن‌ها می‌بخشد. ساختار این درخت می‌تواند برمبنای شانس و احتمال نیز باشد، بطوری که انتخاب هر تصمیم به طور تصادفی می‌تواند ریسک یا مزایایی به همراه داشته باشد.

گاهی اوقات برای نمایش گزاره‌های شرطی و نتایج حاصل از ترکیب آن‌ها از درخت تصمیم نیز استفاده می‌شود. امروزه از درخت تصمیم برای نمایش عملیات سلسله مراتبی (Hierarchical Operators) و بخصوص تحلیل تصمیمات صورت گرفته برای رسیدن به هدف (Hierarchical Decision Making) استفاده می‌شود. به این ترتیب می‌توان درخت تصمیم را یکی از ابزارهای مناسب در حوزه یادگیری ماشین و حتی مدیریت سطح بالا، در نظر گرفت.

درخت تصمیم شبیه یک نمودار گردش عملیات (Flow Chart) است که در آن هر گره (node) به صورت یک آزمایش (Experiment) در نظر گفته می‌شود. از طرفی هر شاخه نیز بیانگر نتایج حاصل از این آزمایش است. به این ترتیب برگ‌های هر شاخه نیز شامل شماره تصمیم اتخاذ شده یا برچسب کلاس‌بندی در خوشه‌بندی یا طبقه‌بندی خواهد بود. مسیری که از ریشه به برگ‌ها طی می‌شود، بیانگر قوانین طبقه‌بندی یا رده‌بندی (Rules) است. این اجزا نیز هنگام ایجاد درخت‌ تصمیم در SPSS‌ نیز تولید می‌شوند و به خوبی قابل مشاهده هستند.

روش‌های رشد درخت تصمیم

یکی دیگر از اصطلاحات به کار رفته در درخت تصمیم، مفهوم رشد درخت است. به این ترتیب با طی کردن یک مسیر از ریشه به هدف خواهیم رسید. این مسیر به عنوان نحوه رشد درخت در نظر گرفته می‌شود. به منظور توسعه و رشد درخت، تکنیک‌های مختلفی وجود دارد که در ادامه به برخی از آن‌ها اشاره می‌شود. توجه داشته باشید که درخت تصمیم در این متن به منظور تعیین ارتباط بین دو یا چند متغیر کمی و کیفی به کار رفته است. هر چند این مدل ارتباطی می‌تواند به صورت یک تحلیل رگرسیونی نیز ارائه شود ولی در اینجا مدل رگرسیونی را برای هر طبقه یا سطح از درخت تصمیم جداگانه در نظر می‌گیریم.

روش CHAID

در روش CHAID، که به «شناسایی اثرات متقابل خودکار کای ۲» (Chi-squared Automatic Interaction Detection) نیز شهرت دارد، در هر گام، متغیر پیشگویی که بیشترین میزان ارتباط با متغیر وابسته را دارد در مدل و درخت تصمیم به کار می‌رود. سطوح یا طبقه‌های هر متغیر پیشگو ممکن است در این حالت با یکدیگر ادغام شوند زیرا سطح معنی‌داری ممکن است در هر طبقه کمتر از مقدار مورد انتظار باشد. محاسبه آماره کای ۲ و محاسبه سطح معنی‌داری و رد فرض صفر در آزمون با سطح α ، باعث ایجاد گره جدید خواهد شد. به این ترتیب شاخه‌ها تولید شده و درخت تصمیم رشد می‌کند.

2117 بازدید