داده کاوی چیست؟ + کاربردها و مزایای Data Mining (جامع)
داده کاوی یا دیتا ماینینگ Data Mining فرآیندی است که برای تبدیل داده های خام به اطلاعات مفید مورد استفاده کمپانی های نوین قرار می گیرد. امروز در داناپ قصد داریم مفهوم داده کاوی، کاربردها، فواید و چالش های آن را به طور کامل مورد بررسی قرار دهیم.
داده کاوی چیست؟
داده کاوی به معنی کاوش و تحلیل داده های بزرگ (Big Data) با هدف کشف الگوها و قوانین معنادار در آنهاست. داده کاوی یکی از اصول رشته علوم داده (Data Science) محسوب می شود و با تحلیل پیش نگر (Predictive Analytic) متفاوت است. در حقیقت دیتا ماینینگ سعی بر پیش بینی آینده دارد در حالی که مدل تحلیل پیش نگر فقط به بررسی سوابق داده ها می پردازد.
علاوه بر این از تکنیک داده کاوی در ساخت مدل یادگیری ماشین (Machine Learning) نیز استفاده می شود که در اپلیکیشن های هوش مصنوعی (AI) مدرن نظیر الگوریتم های موتورهای جستجوگر و سیستم های دیگر مورد استفاده قرار می گیرد.
کاربردهای داده کاوی
با توجه به اهمیت بسیار زیاد داده ها در دنیای امروز، داده کاوی در طیف وسیعی از حوزه ها مورد استفاده قرار می گیرد. در ادامه به بررسی مهم ترین حوزه ها می پردازیم:
1- دیتابیس مارکتینگ (بازاریابی مستقیم) و هدف گذاری (Targeting)
فروشگاه های اینترنتی از داده کاوی برای درک بهتر مشتریان خود استفاده می کنند. داده کاوی امکان بخش بندی بازار و اجرای تبلیغات را در اختیار صاحبان کسب و کار قرار می دهد، این فرآیند همچنین امکان نمایش تبلیغات سفارشی سازی شده را به مشتریان مختلف ایجاد می کند.
2- مدیریت ریسک اعتباری و نمرات اعتباری (Credit Scoring)
بانک ها و موسسات اعتباری برای پیش بینی توانایی وام گیرندگان در پرداخت اقساط از مدل دیتا ماینینگ استفاده می کنند. چنین مدل هایی با استفاده از اطلاعات جمعیتی (Demographic) و فردی، یک نرخ بهره را بر اساس میزان ریسک به طور خودکار به مشتریان اختصاص می دهند.
مدل داده کاوی از نمره اعتباری برای ارزیابی مشتریان استفاده می کند. به عبارت دیگر متقاضیانی که نمرات اعتباری بهتری دارند، نرخ بهره کمتری در پرداخت اقساط وام به آنها تعلق خواهد گرفت.
3- شناسایی تقلب (Fraud Detection) و پیشگیری از کلاهبرداری
موسسات مالی و اعتباری برای شناسایی و توقف معاملات جعلی از مدل داده کاوی استفاده می کنند. این جرم یابی دیجیتالی در پشت پرده معاملات اتفاق می افتد و برخی اوقات مشتری نیز از آن باخبر نخواهد شد. در حقیقت این مدل با پیگیری پرداختی ها، معاملات مشکوک را نشانه گذاری کرده و از انجام آنها جلوگیری خواهد کرد تا جایی که مشتریان خرید را تایید کنند.
الگوریتم های فرآیند داده کاوی به صورت مستقل از مشتریان در برابر معاملات جعلی محافظت می کند به گونه ای که با ارسال پیام یا ایمیل تاییدیه خرید را شخصاً از آن ها دریافت خواهد کرد.
4- بیوانفورماتیک بهداشت و درمان
متخصصان بهداشت و درمان از مدل های آماری استفاده می کنند تا شرایط سلامتی بیماران را بر اساس فاکتورهای پرخطر پیش بینی کنند. متخصصان برای تغییر یا جلوگیری از شرایط ناسالم سلامتی بیماران می توانند اطلاعات جمعیتی، خانوادگی و ژنتیکی آنها را مدل سازی کنند. اخیرا از چنین مدل هایی برای کمک به تشخیص بیماری و اولویت بندی بیماران قبل از ملاقات با پزشک در کشورهایی در حال توسعه استفاده شده است.
5- اسپم فیلترینگ
داده کاوی همچنین در زمینه مبارزه با ایمیل های اسپم و بد افزارها (Malware) مورد استفاده قرار می گیرد. سیستم ها ویژگی های مشترک میلیون ها پیام آلوده را تجزیه و تحلیل کرده و اطلاعات آن را به تیم امنیتی توسعه نرم افزار اطلاع رسانی می کنند. البته موضوع فقط به شناسایی محدود نمی شود بلکه نرم افزارهای فوق تخصصی از ورود چنین پیام هایی به صندوق ورودی کاربر نیز جلوگیری خواهند کرد.
6- سامانه سیستم های توصیه دهنده (Recommender Systems)
سامانه سیستم های پیشنهاد دهنده در کسب و کارهای آنلاین مورد استفاده قرار می گیرد. در حال حاضر الگوی پیش بینی رفتار مصرف کننده، تمرکز اصلی بسیاری از سازمان ها به شمار می رود و عنصر ضروری برای رقابت در بازار محسوب می شود به گونه ای که کمپانی هایی نظیر آمازون مدل داده کاوی اختصاصی طراحی کرده اند که با استفاده از آن میزان تقاضا را پیش بینی کرده و تجربه تعامل با مشتریان را بهبود می دهند.
کمپانی نتفلیکس در ازای نوشتن الگوریتمی برای افزایش دقت سامانه توصیه کننده فیلم به هر کارب، یک جایزه یک میلیون دلاری پیشنهاد داده بود و نکته جالب اینکه الگوریتم برنده موفق شد که دقت این سامانه را فقط 8% افزایش دهد.
7- عقیده کاوی (Sentiment Analysis)
عقیده کاوی در داده های رسانه های مجازی یکی از کاربردهای رایج مدل دیتا ماینینگ محسوب می شود که از تکنیکی به نام متن کاوی (Text Mining) استفاده می کند. این متد در حقیقت برای درک کردن احساس گروهی از مردم نسبت به یک موضوع خاص مورد استفاده قرار می گیرد. تکنیک متن کاوی برای ترجمه الگوهای آماری از ورودی کانال های رسانه اجتماعی یا اشکال دیگری از محتوای عمومی استفاده می کند.
علاوه بر این عقیده کاوی پای خود را فراتر گذاشته و با استفاده از تکنیک های پردازش زبان طبیعی (NLP)، معنای نهفته در پشت زبان انسان را شناسایی خواهد کرد.
8- داده کاوی کیفی (QDM)
تحقیقات کیفی را می توان پس از مرتب سازی توسط تکنیک متن کاوی مورد تجزیه و تحلیل قرار داد به گونه ای که با این کار، مجموعه های بزرگی از داده های بدون ساختار نیز قابل درک خواهند شد.
نحوه انجام داده کاوی
فرآیند انجام داده کاوی شامل 6 مرحله مختلف می شود که در ادامه به توضیح این مراحل می پردازیم:
1- درک کسب و کار
اولین قدم هدف گذاری پروژه است و اینکه چگونه فرآیند داده کاوی شما را در رسیدن به این اهداف کمک خواهد کرد. در این مرحله باید یک برنامه ریزی شامل جدول زمانی، اقدامات و تعیین نقش تدوین شده باشد.
2- درک داده
در این مرحله داده ها از تمام منابع موجود جمع آوری می شوند؛ ابزارهای تصویرسازی داده اغلب برای نمایش خصوصیات داده ها مورد استفاده قرار می گیرند تا از دستیابی به اهداف مربوطه اطمینان حاصل شود.
3- آماده سازی داده
در این مرحله داده ها پاک سازی می شوند و داده هایی که از قلم افتاده اند نیز برای تجزیه و تحلیل آماده خواهند شد. پردازش دیتا با توجه به میزان داده های تحلیل شده و تعداد منابع ممکن است فرآیند زمان گیری باشد. بنابراین به جای یک سیستم واحد، می توان از سیستم های توزیع شده ای که در سیستم های مدیریت دیتابیس (DBMS) مدرن استفاده می شوند برای بهبود سرعت این فرآیند استفاده کرد.
استفاده از چنین سیستم هایی در مقایسه با ذخیره تمام دیتای سازمان در یک پایگاه داده، امنیت بیشتری برای متخصصان نیز به ارمغان خواهد آورد. البته برای اینکه داده ها به طور دائم از بین نروند باید از اقدامات خود ایمنی (failsafe) در مرحله بازیابی داده ها استفاده کنید.
4- مدل سازی داده
در این مرحله برای شناسایی الگوی داده ها از مدل های ریاضی موجود در ابزارهای پیشرفته استفاده خواهد شد.
5- ارزیابی
نتیجه فرآیند داده کاوی ارزیابی شده و با اهداف کسب و کار مقایسه خواهد شد تا درباره استفاده یا عدم استفاده از آنها در سازمان تصمیم گیری شود.
6- استقرار
در مرحله نهایی داده کاوی، نتیجه فرآیند در تمام عملیات روزانه یک کسب و کار اعمال خواهد شد. همچنین می توانید از یک پلتفرم هوش تجاری به عنوان یک منبع موثق برای کاوش داده های سرویس خود استفاده کنید.
مزایای داده کاوی
استفاده از مدل داده کاوی مزایای بسیاری برای شما در پی خواهد داشت که در ادامه مهم ترین آنها را معرفی خواهیم کرد:
1- تصمیم گیری خودکار
داده کاوی به سازمان ها اجازه می دهد تا داده های مربوطه را به طور مداوم مورد تجزیه و تحلیل قرار دهند، همچنین سازمان ها می توانند تصمیم گیری های مهم یا روتین خود را به طور خودکار و بدون تاخیر انجام دهند.
همچنین بانک ها می توانند با استفاده از این مدل، تراکنش های جعلی را شناسایی کرده و از اطلاعات شخصی مشتریان در برابر سارقین محافظت کنند. این مدل ها در الگوریتم های عملیاتی یک سازمان مستقر هستند و می توانند برای کمک به تصمیم گیری هر چه بهتر سازمان، به صورت مستقل داده ها را جمع آوری و تجزیه تحلیل کنند.
2- پیش بینی دقیق
برنامه ریزی مهم ترین فرآیند هر سازمان محسوب می شود و داده کاوی با بررسی روند گذشته و شرایط کنونی، پیش بینی قابل اعتمادی در اختیار مدیران سازمان قرار می دهد. برای مثال کمپانی Macy از این مدل برای پیش بینی میزان تقاضای انواع مختلف پوشاک در هر فروشگاه استفاده کرده و بدین ترتیب فهرستی از کالاهای مورد نیاز برای برآورده کردن نیاز بازار تهیه کرد.
3- کاهش هزینه
داده کاوی امکان استفاده کارآمد و تخصیص منابع بهتر را فراهم می کند. سازمان ها با استناد به این مدل می توانند به کمک یک پیش بینی دقیق تصمیم های خود را به صورت خودکار ابلاغ کنند که این امر موجب کاهش چشمگیر هزینه خواهد شد.
برای مثال کمپانی Delta، با استفاده از مدل داده کاوی، مشکلات تراشه های RFID خود در چمدان های مسافران را شناسایی کرد که در نهایت موجب شد تا اشتباه در تحویل چمدان به مسافران به طرز چشم گیری کاهش یابد؛ به عبارت دیگر این موضوع در نهایت باعث افزایش رضایت مشتریان شد و هزینه های مربوطه به پیدا کردن چمدان های گم شده را تا حد زیادی کاهش داد.
4- بینش مشتری (Customer Insight)
سازمان ها به منظور شناسایی خصوصیات و تفاوت های کلیدی مشتریان از مدل داده کاوی استفاده می کنند. مدل داده کاوی در واقع برای ایجاد پرسونا و شخصی سازی تجربه مشتریان مورد استفاده قرار می گیرد. برای مثال کمپانی دیزنی در سال 2017 حدود 1 میلیارد دلار در پروژه دست بندهای جادویی سرمایه گذاری کرد. دست بند جادویی رابطه همزیستی با مصرف کنندگان داشت و به طور همزمان برای بهبود تجربه مشتریان، داده های مربوط به فعالیت آنها را نیز برای کمپانی دیزنی جمع آوری می کرد.
چالش های داده کاوی
فرآیند داده کاوی علیرغم موفقیت های بسیاری که تاکنون کسب کرده، نسبت به برخی از مشکلات بسیار آسیب پذیر است که در ادامه به برخی از آنها اشاره خواهیم کرد:
1- داده های بزرگ (Big Data)
چالش داده های بزرگ به صورت همه جانبه است به گونه ای که در تمامی مراحل جمع آوری، ذخیره سازی و تجزیه و تحلیل داده نفوذ می کند. مشکل داده های بزرگ شامل چهار چالش عمده به نام های حجم، تنوع، صحت و سرعت داده است و هدف اصلی داده کاوی نیز در واقع غلبه بر همین مشکلات به شمار می رود.
2- مدل بیش برازش (Over-Fitting Models)
بیش برازش زمانی رخ می دهد که مدل داده کاوی به جای روندهای اساسی جمعیت، خطاهای طبیعی موجود در نمونه را توضیح دهد. چنین مدلی بیش از حد پیچیده است و از چندین متغیر مستقل برای تولید یک پیش بینی استفاده می کند. به عبارت دیگر افزایش حجم و تنوع داده باعث می شود که ریسک بیش برازش نیز افزایش یابد.
3- هزینه مقیاس (Cost of Scale)
از آنجایی که سرعت داده به صورت مداوم به افزایش حجم و تنوع داده منجر می شود، کمپانی ها باید این مدل ها را مقیاس پذیر کرده و در کل سازمان به کار گیرند. بهره مندی از مزایای مدل داده کاوی مستلزم سرمایه گذاری در زیر ساخت های محاسباتی و قدرت پردازشی است؛ به عبارت دیگر سازمان ها برای رسیدن به چنین مقیاسی باید سیستم های کامپیوتری، سرور و نرم افزارهای قدرتمندی را تهیه کنند.
4- حریم خصوصی و امنیت (Privacy and Security)
سازمان ها برای ذخیره و پردازش حجم عظیمی از داده باید از سرویس های ابری (Cloud) استفاده کنند. اگرچه چنین سرویس هایی مجهز به مدرن ترین سیستم های داده کاوی هستند اما ماهیت آنها به گونه ای است که در برابر تهدید های امنیتی آسیب پذیر خواهند بود. بنابراین سازمان برای جلب اعتماد مشتریان و شرکای خود موظف است از داده ها در برابر حملات مخرب محافظت کند.
انواع داده کاوی
داده کاوی شامل دو فرآیند کلی به نام های یادگیری تحت نظارت (Supervised Learning) و یادگیری بدون نظارت (Unsupervised Learning) است که هر کدام از آنها نیز شامل زیر مجموعه های دیگری هستند:
1- یادگیری تحت نظارت
مدل های تحلیلی متداول در رویکرد داده کاوی تحت نظارت عبارتند از:
- رگرسیون خطی (Linear Regressions)
- رگرسیون لجستیک (Logistic Regressions)
- سری زمانی (Time Series)
- طبقه بندی یا رگرسیون درختی (Regression Trees)
- الگوریتم K- نزدیکترین همسایه (K-Nearest Neighbor)
2- یادگیری بدون نظارت
مدل های تحلیلی رایج در فرآیند داده کاوی بدون نظارت عبارتند از:
- تجزیه و تحلیل خوشه بندی (Clustering)
- تجزیه و تحلیل انجمن (Association Analysis)
- تحلیل مولفه های اصلی (Principal Component Analysis)
می توانید با مراجعه به دسته بندی کلان داده و هوش مصنوعی بهترین دوره های فارسی داده کاوی را تهیه و مشاهده فرمایید.
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.