داده کاوی با IBM SPSS modeler یکی ازبرندهای روز حوزه هوش مصنوعی است که هر روز به تعداد علاقمندان به یادگیری آن افزوده می شود. داده کاوی به معنای کاوش معادن داده هاست. داده کاوی به شما کمک می کند تا رفتار کسب و کار خود در گذشته را به دقت بررسی کنید و بر اساس آن رفتار آینده را با ضریب دقت بالایی پیش بینی کنید !
داده کاوی یا دیتا ماینینگ به شما کمک می کند تصمیماتی صحیح و واقع بینانه در مورد کسب و کار خود اتخاذ کنید و استراتژی های مناسبی را بر اساس اهداف سازمانی طراحی کنید.
با توجه به اینکه اکثر کسب و کارهای امروزی مبتنی بر داده و هوش مصنوعی هستند، وجود یک فرد متخصص داده کاوی در این کسب و کارها بسیار ضروری است. فرقی نمی کند که کسب و کار شما در چه حوزه ای قرار دارد اگر کسب و کار شما با داده ها سر و کار دارد قطعا شما به داده کاوی برای پیشرفت نیاز خواهید داشت.
آی. بی. ام اس پی اس اس مادلر ( SPSS Modeler)
نرمافزار IBM SPSS Modeler یک نرم افزار کاربردی برای داده کاوی و تجزیه و تحلیل متن است که توسط شرکت IBM توسعهیافته است.
نرمافزار IBM SPSS Modeler دارای رابط کاربری گرافیکی مناسبی است که به کاربران امکان میدهد بدون نیاز به برنامهنویسی، الگوریتم های دادهکاوی و آماری را در پژوهشهای خود بهکارگیرند. این نرمافزار فرآیند اجرای پروژه های داده کاوی را بر اساس استاندارد CRISP-DM از ابتدا تا انتها پشتیبانی نموده و زمان آماده سازی داده و تحلیل های داده کاوی را نسبت به سایر نرمافزارها کاهش میدهد.
IBM SPSS Modeler تمام پیچیدگی های غیرضروری را حذف می کند و درعینحال منجر به ساده سازی فرآیند تحلیل داده ها میگ ردد. سهولت استفاده از این نرم افزار محبوبیت خاصی را در بین کاربران ایجاد نموده است.
داده کاوی با IBM SPSS modeler
نرم افزار SPSS Modeler که توسط کمپانی IBM تولید شده یک نرم افزار کاربردی برای داده کاوی و تجزیه و تحلیل متن هاست که برای ایجاد مدل های پیش بینی کننده و انجام سایر امور مرتبط با تجزیه و تحلیل مورد استفاده قرار می گیرد. نام اولیه این نرم افزار کلمنتاین Clementine بود که بعده ها به SPSS Clementine معروف شد و در نهایت به IBM SPSS Modeler تغییر نام پیدا کرد.
IBM SPSS Modeler دارای رابط کاربری ساده و مناسبی است و به کاربر این امکان را می دهد که بدون داشتن دانش برنامه نویسی، الگوریتم های داده کاوی و آماری را در پژوهش های خود به کار گیرد.
تفکیک فایل داده کاوی در SPSS
در نرمافزار SPSS، مجموعه داده (Dataset) به جدولی گفته میشود که شامل اسامی متغیرها و مقادیر آنها است. معمولا یک مجموعه داده، جدولی است که سطرها نمایانگر مشاهدات (Cases) و ستونها نیز متغیرها (Variables) را نشان میدهد. نوع متغیرها در نرمافزار SPSS یا به صورت کمی (Quantitative) است یا کیفی (Qualitative). البته متغیرهای کیفی به دو دسته اسمی (Nominal) و ترتیبی (Ordinal) طبقهبندی و متغیرهای کمی نیز با مقیاس (Scale) در SPSS شناخته میشوند.
اغلب از متغیرهای اسمی و ترتیبی برای تفکیک جامعه آماری و یا نمونهها استفاده میشود. به این ترتیب ممکن است گاهی اوقات آنها را متغیرهای طبقهای (Categorical Variable) نیز بنامیم. بر همین اساس میتوانیم تحلیلها را برای دستههای خاصی از جامعه آماری به تفکیک انجام دهیم. برای تفکیک فایل داده در SPSS به بخشهای جداگانه روشهای مختلفی وجود دارد. در این نوشتار به بررسی سه روش عمده در این مورد میپردازیم. این روشها در فهرست زیر معرفی شدهاند.
- انتخاب مشاهدات: به کمک دستور Select Cases قادر هستیم که بعضی از مشاهدات را انتخاب کرده و محاسبات و تحلیلهای آماری را روی این گروه خاص اجرا کنیم.
- تعیین متغیر تفکیکی: به کمک دستور Split File، از یک یا چند متغیر طبقهای برای تفکیک جامعه استفاده کرده و میتوانیم با یکبار اجرای دستورات تحلیلی، برای همه گروههای تفکیک شده، نتایج تحلیلها را بدست آوریم.
- تفکیک فایل داده: روش دیگر، تفکیک مجموعه داده به چندین فایل است که با دستور Split Into Files صورت میگیرد. در نتیجه میتوان روی هر یک از مجموعه دادهها، تحلیل یا روش خاصی را اجرا کرد.
بازارکار داده کاوی در ایران و جهان چگونه است؟
در حال حاضر علوم داده (Data Science) یکی از گران ترین تخصص ها در کشورهای پیشرفته ای مانند آمریکا، کانادا، آلمان، سوئیس و انگلیس به حساب می آید و افراد متخصص در این حوزه درآمدهای چشم گیری نسبت به دیگر تخصص ها دارند.
در ایران نیز شرکت ها و سازمان ها با مشکل کمبود شدید افراد متخصص در زمینه دیتا ماینینگ مواجه هستند و به همین دلیل نمی توانند تصمیماتی به موقع، هوشمندانه و استراتژیک در مورد سازمان یا شرکت خود بگیرند. بنابراین تسلط بر این حوزه موقعیت های شغلی بسیار عالی و فراوانی را پیش پای شما قرار خواهد داد.
مزایای داده کاوی (data mining) :
1- بازاریابی / خرده فروشی
داده کاوی به شرکت های بازاریابی کمک میکند تا مدلهایی را بر اساس داده های تاریخی بسازند. و پیشبینی کنند چه کسی به فعالیتهای بازاریابی جدید مانند نامههای مستقیم، کمپین بازاریابی آنلاین و غیره پاسخ خواهد داد. از طریق نتایج هدف بازاریابان رویکرد مناسبی در فروش محصولات سودآور برای مشتریان است.
داده کاوی همانند بازاریابی برای شرکتهای خرده فروشی مزایای زیادی به همراه دارد. از طریق تجزیه و تحلیل سبد بازار، یک فروشگاه میتواند یک ترتیب تولید مناسب داشته باشد. به گونهای که مشتریان بتوانند خرید مکرر محصولات را همراه با تجربهای دلپذیر تهیه کنند. علاوه بر این به شرکتهای خردهفروشی کمک میکند تا تخفیفهای خاصی را برای محصولات خاص ارائه دهند تا مشتریان بیشتری را به خود جلب کند.
2- امور مالی / بانکی
داده کاوی به موسسات مالی اطلاعاتی در مورد اطلاعات وام و گزارشگری اعتبار میدهد. با ساخت یک مدل از داده های مشتری تاریخی، بانک و موسسه مالی میتوانند وامهای خوب و بد را تعیین کنند. علاوه بر این داده کاوی به بانکها کمک میکند تا معاملات جعلی کارت اعتباری را برای محافظت از صاحب کارت اعتباری شناسایی کنند.
3- ساخت و عملیات
یکی دیگر از مزایای داده کاوی با استفاده از داده کاوی در دادههای مهندسی عملیاتی است. تولیدکنندگان میتوانند تجهیزات معیوب را شناسایی کرده و پارامترهای کنترل بهینه را تعیین کنند.
به عنوان مثال، تولیدکنندگان نیمههادی این چالش را دارند که حتی شرایط محیطهای تولید در کارخانههای مختلف تولید ویفر مشابه است. کیفیت ویفر کاملاً یکسان است و برخی به دلایل نامعلوم حتی دارای نقص هستند. داده کاوی برای تعیین دامنه پارامترهای کنترلی که منجر به تولید ویفر طلایی میشود مورد استفاده قرار گرفته است. سپس از آن پارامترهای کنترل بهینه برای تولید ویفر با کیفیت مطلوب استفاده میشود.
4- دولت ها
از دیگر مزایای داده کاوی در سیاست و اقتصاد این است که داده کاوی با حفر و تجزیه و تحلیل سوابق معاملات مالی به سازمانهای دولتی کمک میکند تا الگوهایی را ایجاد کنند که بتوانند پولشویی یا فعالیتهای جنایی را تشخیص دهند.
معایب داده کاوی :
1- مسائل خصوصی
نگرانی در مورد حریم خصوصی، از معایب داده کاویست که اخیراً بسیار زیاد شده است، به خصوص هنگامی که اینترنت با شبکه های اجتماعی، تجارت الکترونیکی، انجمنها، وبلاگها و غیره رونق مییابد. به دلیل مسائل مربوط به حریم خصوصی، مردم از اینکه اطلاعات شخصی آنها جمعآوری شده و به روشی غیراخلاقی استفاده شود که به طور بالقوه باعث دردسرهای زیادی برای آنها میشود میترسند.
مشاغل برای درک روند رفتارهای خرید آنها از بسیاری جهات اطلاعاتی در مورد مشتریان خود جمع میکنند. با این وجود مشاغل برای همیشه دوام ندارند، بعضی از روزها ممکن است توسط دیگران خریداری شوند یا از بین رفته باشند. در این زمان اطلاعات شخصی که آنها دارند احتمالاً به اطلاعات دیگری فروخته میشود یا نشت میکند.
2- مسائل امنیتی
امنیت مسئله بزرگی است. مشاغل دارای اطلاعاتی در مورد کارمندان و مشتریان خود از جمله شماره تأمین اجتماعی، روز تولد، حقوق و دستمزد و غیره هستند. با این وجود چگونگی مراقبت صحیح از این اطلاعات هنوز جای سوال دارد. موارد زیادی وجود داشته است که هکرها با داشتن اطلاعات شخصی و مالی بسیار زیاد، کارت اعتباری سرقت شده و سرقت هویت به یک معضل بزرگ دسترسی پیدا کرده و دادههای کلیدی مشتریان شرکت بزرگ مانند شرکت اعتبار فورد موتور ، سونی را دزدیدهاند.
3- سوءاستفاده از اطلاعات / اطلاعات نادرست
اطلاعات جمع آوری شده از طریق داده کاوی در نظر گرفته شده برای اهداف اخلاقی میتواند مورد سوءاستفاده قرار گیرد که از معایب داده کاوی به شمار میرود. ممکن است افراد غیراخلاقی یا مشاغل از این اطلاعات برای بهرهمندی از افراد آسیب پذیر یا تبعیض علیه گروهی استفاده کنند. علاوه بر این روش داده کاوی کاملاً دقیق نیست. بنابراین، اگر از اطلاعات نادرست برای تصمیمگیری استفاده شود پیامدهای جدی ایجاد میکند.
خلاصه و جمعبندی
در این نوشتار با شیوههای مختلف تفکیک فایل داده در SPSS به منظور اجرای تحلیلهای آماری در این نرمافزار آشنا شدیم. هر یک از این روشها مناسب برای انجام عملیات خاصی هستند و در نتیجه بهتر است از همه آنها اطلاع داشته باشیم تا به موقع از آنها بهره ببریم.