مقدمه
DBSCAN یک روش خوشهبندی است که توسط مارتین اِستر، هانس-پتر کریگل، یورگ ساندر و شیائووی شو در ۱۹۹۶ میلادی (۱۳۷۵ شمسی) ارائه گردیدهاست. مزیت این روش به نسبت روشهای دیگری خوشهبندی مانند خوشهبندی کی-میانگین این است که نسبت به شکل دادهها حساس نمیباشد و میتواند اشکال غیر منظم را نیز در دادهها تشخیص دهد.
الگوریتم DBSCAN
این الگوریتم نیز به مانند دیگر روشهای خوشه بندی نیازمند روشی برای یافتن نزدیکی دادهها است. میتوان از فاصله اقلیدسی جهت اندازهگیری فاصله (شباهت) استفاده نمود. برای تشریح الگوریتم، نیازمند آشنایی با پارامترهای ε و μ میباشد که توضیح داده میشود:
هر نقطه از داده با نقاط دیگر فاصلهای دارد. هر نقطهای که فاصله اش با یک نقطه مفروض کمتر از (ε (EPS باشد به عنوان همسایه آن نقطه حساب میشود.
هر نقطه مفروض که (μ (MinPoints همسایه داشته باشد، یک نقطه مرکزی است.
نام کامل این الگوریتم، «خوشهبندی فضایی مبتنی بر چگالی در کاربردهای دارای نویز» (Density Based Spatial Clustering of Applications with Noise) است که به اختصار به آن DBSCAN گفته میشود. در الگوریتم DBSCAN نیازی به این نیست که تعداد خوشهها از ابتدا تعیین شود. این الگوریتم میتواند خوشههای دارای اشکال پیچیده را کشف کند. همچنین، میتواند نقاط دادهای که بخشی از هیچ خوشهای نیستند (نقاط دورافتاده یا ناهنجار) را شناسایی کند. این قابلیت برای تشخیص ناهنجاری بسیار مفید است. DBSCAN با شناسایی نقاطی که در نواحی شلوغ (چگال) از «فضای ویژگی» (Feature Space) قرار دارند کار میکند. منظور از نواحی چگال، قسمتهایی است که نقاط داده بسیار به یکدیگر نزدیک هستند (نواحی چگال در فضای ویژگی). برخی از نکات کلیدی پیرامون الگوریتم DBSCAN در ادامه آمدهاند.
مزایا و معایب
مزایای الگوریتم DBSCAN :
1- سریع برای دادههای با بعد کم
2- یافتن خوشهها برای اشکال نا منظم و کروی
3- تشخیص نقاط نویز
معایب الگوریتم DBSCAN :
1- نقاط مرزی که میتوانند در دو خوشه نیز باشند، ممکن است به هریک از خوشهها تعلق گیرند.
2- این روش بنابه تغییرات در μ و ε رفتار غیرقابل پیش بینی میتواند داشته باشد.