یادگیری نیمه نظارت

یادگیری نیمه‌نظارتی دسته‌ای از روش‌های یادگیری ماشین است که در آن از داده‌های بدون برچسب و داده‌های برچسب‌دار به صورت هم‌زمان برای بهبود دقت یادگیری استفاده می‌شود.

تفاوت یادگیری بانظارت و بدون نظارت - هوشیو

انواع اصلی

روش‌های یادگیری نیمه‌نظارتی را در یک دسته‌بندی کلی به دسته‌های زیر می‌توان تقسیم کرد.

روش‌های مبتنی بر فرض جداسازی کم‌چگالی

همان‌طور که در این مطلب گفته شد، فرض خوشه با فرض جداسازی کم چگالی معادل است. با توجه به این نکته می‌توان عبارت‌های منظم‌سازی تعریف کرد که وجود مرز طبقه‌بندی در نقاط پرچگالی را جریمه می‌کنند. به این ترتیب الگوریتم‌های زیادی برای یادگیری نیمه‌نظارتی مطرح می‌شوند. معروف‌ترین الگوریتم در این دسته از روش‌ها، الگوریتم TSVM است، که در سال ۱۹۹۸ توسط وپنیک ارائه شد. وپنیک از مفهوم ابعاد VC و قاعدهٔ SRM، برای طراحی یک مسئله بهینه‌سازی مشابه مسئلهٔ بهینه‌سازی SVM بهره گرفته‌است. مسئلهٔ بهینه‌سازی TSVM، مسئله‌ای پیچیده‌است و تاکنون الگوریتمی کارا برای یافتن جواب بهینهٔ عمومی آن ارائه نشده‌است. روش‌های دیگری هم در حوزهٔ استفاده صرف از فرض خوشه استفاده شده‌اند که شامل می‌شوند. همهٔ این روش‌ها در دو خاصیت مشترکند، یکی اینکه برای طبقه‌بندی طراحی شده‌اند و اینکه طراحی آن‌ها حول مفهوم مرز جداساز و اندازه مرز بوده‌است.

هر آنچه که باید در مورد یادگیری ماشین بدانید - وینفون

روش‌های مبتنی بر گراف

این روش‌ها در صورتی مؤثر هستند که فرض همواری نیمه‌نظارتی و فرض خمینه در حالت ضعیف، هم‌زمان برقرار باشد. برای استفاده از فرض خمینه به‌طور صریح، باید ساختار خمینه به نحوی بیان شود. یکی از راه‌های بیان کردن ساختار خمینه در فضای با بعد بالا، استفاده از گراف‌های همسایگی است. در گراف همسایگی، رئوس همان نقاط هستند و میان نقاط نزدیک به هم روی خمینه یال با وزن متناسب قرار داده می‌شود.

در روش‌های نیمه‌نظارتی مبتنی بر گراف، ابتدا گراف همسایگی روی نقاط ساخته می‌شود، سپس از روشی برای تعیین برچسب نقاط بدون برچسب استفاده می‌شود. به عبارت دیگر، هر الگوریتم نیمه‌نظارتی مبتنی بر گراف شامل گام‌های کلی زیر است:

1- پیش‌پردازش داده‌ها، که شامل استخراج ویژگی‌ها، کاهش بعد، حذف نویز و موارد دیگر می‌باشد.
2- ایجاد گراف همسایگی مناسب روی نقاط که معمولاً لازمهٔ آن محاسبهٔ فاصلهٔ بین نقاط است.
3- استنتاج برچسب نقاط بدون برچسب با یکی از روش‌های استنتاج برچسب.

1491 بازدید