هنگامی که قصد تحلیل یک سری بزرگ از داده ها وجود دارد طبقه بندی به ما کمک خواهد کرد، زیرا که طبقه بندی روشی استاندارد برای نظم دادن به داده ها می باشد. می توان گفت که با این کار، داده ها به شکل قابل استفاده و ساده تر بیان می شوند و اعضای مشابه در کنار هم قرار می گیرند. در این فصل به روش هایی برای طبقه بندی کردن داده ها با دیدگاه آماری و مکانی پرداخته شده است.
دنبالهای از دادهها که در یک محدود زمانی جمعآوری شدهاند، یک سری زمانی را تشکیل میدهند. این دادهها تغییراتی که پدیده در طول زمان دچار شده را منعکس میکنند. بنابراین میتوانیم این مقدارها را یک بردار وابسته به زمان بدانیم. در این حالت اگر X یک بردار باشد، سری زمانی را میتوان به صورت زیر نشان داد؛ که در آن t، بیانگر زمان و X نیز یک متغیر تصادفی است.
بیگ دیتا یا کلان داده درواقع اصطلاحی است که برای حجم زیادی از دادهها استفاده میشود که خیلی سریع و پیچیده هستند و پردازش آنها با استفاده از روشهای سنتی، سخت و غیرممکن است. بهطور کلی ما با علم داده، دادهکاوری، تحلیل دادهها و یادگیری ماشین روبهرو هستیم. دسترسی و نگهداری حجم زیادی از اطلاعات و دادهها برای تحلیلهایی بعدی کاری زمانبر و پرهزینه است.
طبقهبندهای ترکیبی از ترکیبِ چندین طبقهبند (classifier) استفاده میکنند. در واقع این طبقهبندها، هر کدام مدلِ خود را بر روی دادهها ساخته و این مدل را ذخیره میکنند. در نهایت برای طبقهبندیِ نهایی یک رایگیری در بین این طبقهبندها انجام میشود و آن طبقهای که بیشترین میزانِ رای را بیاورد، طبقهی نهایی محسوب میشود.
الگوریتم KNN نوعی از الگوریتم های یادگیری ماشین تحت نظارت است که هم در مسائل طبقه بندی و هم در مسائل رگرسیون پیشگویانه مورد استفاده قرار می گیرد. اگرچه، غالبا در مسائل طبقه بندی پیشگویانه، در صنعت از آن استفاده می شود.
یکی از محبوب ترین و در عین حال از ساده ترین درخت های تصمیم، درخت تصمیم CART است که کاربردهای زیادی در طبقه بندی و رگرسیون دارد. CART که خود مخفف Classification And Regression Tree است بر اساس درخت های دودویی(باینری) بنا نهاده شده است. در این درس میخواهیم بیشتر با نحوه ساخت درخت CART آشنا شویم. این درخت میتواند پایه ای برای الگوریتم های پیچیده تر مانند جنگل تصادفی(Random Forest) باشد.
یادگیری درخت تصمیم (Decision tree learning) گروهی از الگوریتمهای یادگیری ماشین هستند که در طبقهبندی آماری کاربرد دارند. درختهای تصمیم به گروه الگوریتمهای یادگیری تحت نظارت تعلق دارند و بیشتر آنها بر اساس حداقلسازی کمیتی به نام آنتروپی ساخته میشوند. هرچند توابع دیگری هم برای یادگیری درخت تصمیم وجود دارند. نمونههای قدیمی درخت تصمیم تنها قادر به استفاده از متغیرهای گسسته بودند، اما الگوریتمهای جدیدتر هردو نوع متغیر گسسته و پیوسته را در یادگیری به کار میبرند. یکی از مزایای مهم الگوریتم درخت تصمیم قابلیت فهم و تفسیر آسان است که محبوبیت این الگوریتم را بالا برده است.از معایب آن عدم استواری و دقت ناکافی است.
در یادگیری ماشین، هسته تابع پایه شعاعی، یا هسته RBF، یک تابع هسته محبوب است که در الگوریتمهای یادگیری مختلف هسته ای استفاده میشود. بهطور خاص، معمولاً در دستهبندی ماشین بردار پشتیبانی استفاده میشود. هسته RBF در دو نمونه x و x ‘، به عنوان بردارهای ویژگی در برخی از فضای ورودی، به صورت زیر تعریف میشود:
پرسپترون یک الگوریتم یادگیری ماشین است که در دسته یادگیری با نظارت قرار میگیرد. الگوریتم پرسپترون یک الگوریتم دستهبندی دودویی (نوعی از دستهبندی که میتواند با توجه به بردار ورودی تصمیم بگیرد که این ورودی متعلق به یک کلاس هست یا خیر) است. این الگوریتم یک دستهبند خطی است، بهاین معنا که پیشبینیهایش را باتوجه به ترکیب خطی وزن دار ورودی الگوریتم انجام میدهد. همچنین این الگوریتم به دلیل اینکه ورودیهایش را به صورت تک تک در زمان بررسی میکند، یک الگوریتم برخط میباشد. الگوریتم پرسپترون در سال ۱۹۵۷ در لابراتوار کرنل آرونوتیکال به وسیلهٔ فرانک روزنبلت ابداع شد. در واقع این الگوریتم جزء اولین شبکههای عصبی مصنوعی است که بهکار گرفته شدهاست.
یادگیری شبکه عصبی بر اساس نمونه ای از جمعیت مورد مطالعه صورت می گیرد. در طول زمان یادگیری ، مقدار ارائه شده توسط واحد خروجی با مقدار واقعی مقایسه می شود. پس از آن ، وزن همه واحدها طوری تنظیم شده تا پیش بینی اصلاح شود. الگوریتم های شبکه عصبی زیادی برای آموزش شبکه عصبی مصنوعی وجود دارند.
ماشين بردار پشتيبان يک روش يادگيري نسبتا جديد است که اغلب براي کلاسبندي باينري مورد استفاده واقع مي شود. فرض کنيد L مشاهده داريم که هر مشاهده مشتمل بر زوج هاي است که در آن . بردار ورودي و يک مقدار دو وضعيتي (1- يا 1+) است. ايده ي ماشين بردار پشتيبان مي کوشد، ابرصفحاتي در فضا رسم کند که عمل تمايز نمونه هاي کلاس هاي مختلف داده ها را بطور بهينه انجام دهد. مي توان يک ابرصفحه را از طريق رابطه زير نشان داد:
ماشین بردار پشتیبان دستهبندی کنندهای است که جزو روشهای بر پایه هسته در یادگیری ماشین محسوب میشود. SVM در سال 1992 توسط وپنیک معرفی شده و بر پایه نظریه آماری یادگیری بنا گردیده است. الگوریتم SVM یکی از الگوریتمهای معروف در زمینه یادگیری با نظارت است که برای دستهبندی و رگرسیون استفاده میشود. این الگوریتم به طور همزمان حاشیههای هندسی را بیشینه کرده و خطای تجربی دستهبندی را کمینه میکند لذا به عنوان دستهبندی حداکثر حاشیه نیز نامیده میشود.
یادگیری ماشین (Machine Learning) یکی از زیر مجموعه های هوش مصنوعی است که به سیستم ها این امکان را می دهد تا به صورت خودکار یادگیری و پیشرفت داشته باشند بدون اینکه به برنامه نویسی صریحی برای آن داشته باشند. تمرکز اصلی یادگیری ماشینی بر توسعه برنامه های رایانه ای است که بتوانند به داده ها دسترسی پیدا کنند و از آن برای یادگیری خود استفاده کنند.
قبل از پیدایش شبکه عصبی mlp ، در سال 1958 فرانک روزنبلات یک شبکه عصبی به نام پرسپترون ابداع کرد. روزنبلات یک لایهای از نورونها را تشکیل داد و شبکه حاصل را پرسپترون نامید. اما پرسپترون روزنبلات نیز مشکلات فراوانی داشت. مینسکی و پپرت در سال 1969 کتابی به نام پرسپترون نوشتند. آنها تمامی تواناییها و مشکلات پرسپترون را در این کتاب مورد بررسی قرار دادن. مینسکی و پپرت در کتاب خود ثابت کردند که پرسپترون فقط مسائلی را میتواند حل کند که به صورت خطی تفکیکپذیر باشند. همین امر باعث شد تا محققان از حوزه شبکه عصبی نا امید شوند! ساختار پرسپترون در شکل زیر نشان داده شده است:
طبقه بندی کننده های Naive Bayes ،مجموعه ای از الگوریتم های طبقه بندی بر اساس تئوری Bayes است. Naive Bayes یک الگوریتم تنها نیست بلکه یک خانواده از الگوریتمهاست که در یک اصل مشترک میباشند. هر جفت ویژگی طبقه بندیشده در الگوریتمهای بیز مستقل از یکدیگر است.
بهطور خلاصه میتوان گفت شبکه بیزین، نمایش بامعنی روابط نامشخص ما بین پارامترها در یک حوزه میباشد. شبکه بیزین گراف جهت دار غیر حلقوی از نودها برای نمایش متغیرهای تصادفی و کمانها برای نمایش روابط احتمالی مابین متغیرها بهشمار میرود.