یادگیری درخت تصمیم (Decision tree learning) گروهی از الگوریتمهای یادگیری ماشین هستند که در طبقهبندی آماری کاربرد دارند. درختهای تصمیم به گروه الگوریتمهای یادگیری تحت نظارت تعلق دارند و بیشتر آنها بر اساس حداقلسازی کمیتی به نام آنتروپی ساخته میشوند. هرچند توابع دیگری هم برای یادگیری درخت تصمیم وجود دارند. نمونههای قدیمی درخت تصمیم تنها قادر به استفاده از متغیرهای گسسته بودند، اما الگوریتمهای جدیدتر هردو نوع متغیر گسسته و پیوسته را در یادگیری به کار میبرند. یکی از مزایای مهم الگوریتم درخت تصمیم قابلیت فهم و تفسیر آسان است که محبوبیت این الگوریتم را بالا برده است.از معایب آن عدم استواری و دقت ناکافی است.
الگوریتم C4.5
الگوریتم C4.5 یک دستهبندی (classifier) را در قالب یک درخت تصمیم تولید میکند که دارای ۲ نوع گره است. یک گره بهصورت برگ که یک دسته را مشخص میکند و یک گره تصمیم که آزمونهایی روی یک صفت انجام میدهد تا یک شاخه یا زیر درخت به ازای هر خروجی آزمون تولید میکند. حالا
classifier چیست؟
واژه classifier مفهومی فراتر و کلی تر از کلاس را دارد که علاوه بر کلاس، واسط ها و انواع داده ای را نیز پوشش می دهد.
الگوریتم C4.5 بهینه شده الگوریتم ID3 می باشد که از قانون هرس بعدی بهره می برد و می تواند صفاتی را که داده های نویزی و مقدار و همچنین صفات گسسته ندارند، استفاده نماید. در C4.5 فرض بر این است که کل داده های آموزشی در داخل حافظه باشند.
به جهت ساخت درخت تصمیم، فرض می کنیم که مجموعه داده های آموزشی که دارای برچسب کلاس مربوطه و بردار ویژگی ها هستند، در دسترس می باشند. معیارهای گوناگونی برای تقسیم بندی گره ها در درخت تصمیم وجود دارد که از عمومی ترین آنها، معیار ضریب بهره اطلاعات است که در C4.5 به کار می رد.
درخت تصمیم بر پایه آنالیز داده های ورودی و برای یافتن یک ویژگی بر مبنای تصمیم گیری برای هر نود استفاده می شود. ویژگی های گوناگونی از داده در هر نود بررسی می شود و یک ویژگی که اگر انتخاب شود، باعث خواهد شد که بی نظمی (آنتروپی) کاهش یابد، گزینش می شود. مبنای فعالیت نیز بر این اساس ایجاد شده است.
الگوریتم C4.5 بهینه شده الگوریتم ID3 می باشد که از قانون هرس بعدی بهره می برد و می تواند صفاتی را که داده های نویزی و مقدار و همچنین صفات گسسته ندارند، استفاده نماید. در C4.5 فرض بر این است که کل داده های آموزشی در داخل حافظه باشند.
به جهت ساخت درخت تصمیم، فرض می کنیم که مجموعه داده های آموزشی که دارای برچسب کلاس مربوطه و بردار ویژگی ها هستند، در دسترس می باشند. معیارهای گوناگونی برای تقسیم بندی گره ها در درخت تصمیم وجود دارد که از عمومی ترین آنها، معیار ضریب بهره اطلاعات است که در C4.5 به کار می رد.