داده کاوی

دادهکاوی چیست؟ دادهکاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از دادهها به منظور کشف الگوها و قوانین پنهان و معنیدار درون دادهها اطلاق میشود. اگرچه به جهت ایجاد درکی آسانتر، مثالها و نمونههای عملی ذکر شده در این متن از مقولۀ بازاریابی و مدیریت ارتباط با مشتریان انتخاب شده است و فرض حاضر این است که هدف دادهکاوی، قادر ساختن یک شرکت به بهبود بازاریابی، فروش و عملکردهای پشتیبانی از مشتریان از طریق درک بهتر مشتریانش میباشد؛ ولی پرواضح است که ابزارها و تکنیکهای دادهکاوی بیان شده در این متن، در همۀ زمینه های دیگر نیز بصورت یکسان و توانمند عمل میکنند و کافی است شما آن را به موضوعات حوزه کاری و تخصصی خود مرتبط سازید. بر اساس اعلام دانشگاه MIT[1]امروزه مرز و محدودیتی برای دانش دادهکاوی متصور نبوده و مرز آن را از اعماق اقیانوسها تا بیکران فضا میدانند. بعبارت دیگر کاربرد دانش دادهکاوی در تمامی حوزههای برخوردار از داده بوده و تنها محدودیت دانش دادهکاوی نبود داده است. در حقیقت هیچ کدام از الگوریتمهای دادهکاوی، در ابتدا با کاربردهای تجاری در ذهن به وجود نیامدند. دادهکاوهای تجاری از یک سری تکنیکهای وام گرفته شده از آمار و علوم کامپیوتر[2] استفاده میکنند. انتخاب مجموعهای از تکنیکها برای به کارگیری در موقعیت خاص بستگی به سه عامل "ماهیت عمل دادهکاوی"، "ماهیت دادههای موجود" و "مهارتها و ترجیحات دادهکاوان" دارد. دادهکاوی در دو نوع هدایت شده[3] و غیرهدایت شده[4] ظاهر میشود. دادهکاوی هدایت شده، دارای متغیر هدفی خاص و از پیش تعیین شده است که به دنبال الگویی خاص میگردد در حالیکه هدف دادهکاوی غیر هدایت شده، یافتن الگوها یا تشابهات بین گروههایی از اطلاعات، بدون داشتن متغیر هدفی خاص و یا مجموعهای از دستهها و الگوهای از پیش تعیین شده میباشد. هر دو نوع دادهکاوی در فصول بعدی تشریح خواهد شد. دادهکاوی عمدتاً با ساختن مدلها مرتبط است. یک مدل اساساً به الگوریتم یا مجموعهای از قوانینی گفته میشود که مجموعهای از ورودیها را(معمولاً به شکل زمینههایی در پایگاه دادههای سازمان) با هدف یا مقصد خاصی مرتبط مینماید. تکنیکهای دادهکاوی برای مدلسازی هستند. یک مدل تحت شرایط درست میتواند منجر به بینش درست شود. به طور مثال از مدلها برای ایجاد امتیازها استفاده میشود. امتیاز، نوعی بیان یافتههای یک مدل به صورت عددی است. از امتیازها میتوان برای تهیۀ فهرستی از مشتریان از محتملترین تا کم احتمالترین فرد در پاسخ به تبلیغات یک محصول جدید و یا از محتملترین تا کم احتمالترین فرد برای عدم باز پرداخت وام استفاده کرد. حال سؤال اینجاست که با دادهکاوی چه کارهایی میتوان انجام داد؟ دادهکاوی با همه عظمت و بزرگی خود که امروزه در تمامی موضوعات جهان ورود پیدا کرده است شامل شش عمل و وظیفه مهم است که میتوان بسیاری از مسائل محیط اطراف خود را در قالب یکی از این شش عمل و وظیفه زیر گنجاند: · دستهبندی[5] · تخمین[6] · پیشبینی[7] · گروهبندی شباهت[8] · خوشهبندی[9] · توصیف و نمایهسازی[10] سه مورد اول همگی دادهکاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. گروهبندی شباهت و خوشهبندی جزو دادهکاوی غیر هدایت شده هستند که در آن هدف، یافتن ساختار پنهان درون دادهها بدون توجه به یک متغیر هدف خاص است. نمایهسازی عملی توصیفی است که میتواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به هر کدام به صورت مختصر پرداخته میشود. دستهبندی به نظر میرسد دستهبندی که یکی از معمولترین کارکردهای دادهکاوی است، یکی از واجبات بشر باشد. تمامی خلقت خداوند بر پایه دستهبندی ایجاد گردیده است. ما برای شناخت و برقراری رابطه دربارۀ دنیا، بطور مداوم دستهبندی، طبقهبندی[11] و درجهبندی[12] میکنیم. ما موجودات زنده را به شاخههاو گونهها، مواد را به عناصر وحیوانات و انسان را به نژادها تقسیم میکنیم. دستهبندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از مجموعههای از قبل تعیین شده میباشد. عمل دستهبندی با تعریف درستی از دستهها و مجموعهای از ویژگیها که حاوی موارد از پیش دستهبندی شده هستند مشخص میگردد؛ این عمل شامل ساختن مدلی است که بتوان از آن برای دستهبندی کردن دادههای دستهبندی نشده، استفاده نمود. اشیایی که باید دستهبندی شوند، معمولاً به وسیلۀ اطلاعاتی در جدول پایگاه دادهها یا یک فایل ارائه میشوند و عمل دستهبندی شامل افزودن ستون جدیدی با کد دستهبندی خاصی است. مثالهایی از دستهبندی که با استفاده از تکنیکهای توصیف شده در این کتاب به دست آمدهاند، در زیر ارائه شده است: · دستهبندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر · انتخاب محتویات یک صفحۀ وب برای قرار دادن در شبکۀ اینترنت · تعیین شماره تلفنهای متصل به دستگاههای فکس · تشخیص مدعیان غیر واقعی دریافت خسارت از بیمه در همۀ این مثالها تعداد محدود و از پیش تعیین شدهای از دستهها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آنها تخصیص دهیم. تکنیکهای درخت تصمیم و نزدیکترین همسایه[13] از جمله تکنیکهای دستهبندی میباشند؛ شبکههای عصبی و تحلیل پیوند[14] نیز در شرایط خاصی عمل دستهبندی را انجام میدهند. تخمین تخمین، با نتایج مجزایی که با ارقام پیوسته نشان داده شدهاند، سروکار دارد. در تخمین، دادههای ورودی در قالب متغیرهای ورودی مختلف به سیستم داده میشود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری میباشد. در عمل، تخمین اغلب برای انجام دستهبندی استفاده میشود. یک شرکت کارتهای اعتباری که مایل است یک فضای تبلیغاتی را در پاکتهای صورتحساب به یک تولید کنندۀ پوتین اسکی بفروشد، باید مدل دستهبندی تهیه کند که همۀ دارندگان کارتها را در یکی از دو دستۀ اسکیباز یا غیر اسکیباز قرار دهد. روش دیگر ایجاد مدل تخمین این است که به هر دارندۀ کارت، یک امتیاز تمایل به اسکی تخصیص میدهد؛ این ارقام میتواند صفر و یک باشد که نشانگر احتمال تخمین زده شده برای اسکیباز بودن یا نبودن دارندۀ کارت است. عمل دستهبندی، اکنون به ایجاد امتیازی آستانهای[15] منجر میگردد. هر کسی که امتیازی بیشتر یا مساوی با امتیاز آستانه داشته باشد به عنوان اسکیباز قلمداد میشود و هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکیباز محسوب نمیگردد. روش تخمین فواید زیادی دارد که مهمترین آن این است که در آن اطلاعات را میتوان مطابق تخمین به دست آمده مرتب نمود. برای پیبردن به اهمیت آن فرض کنید که شرکت تولید پوتینهای اسکی، برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجهریزی نموده است. فرض کنید از روش دستهبندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شدهاند، پس به راحتی میتوان به صورت تصادفی، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالیکه اگر مدل تخمین، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصدهزار از محتملترین کاندیداها فرستاد. پر واضح است که احتمال پاسخگیری از ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات میباشد. برخی دیگر از مثالهای تخمین در زیر آمده است: · تخمین تعداد فرزندان در یک خانواده · تخمین درآمد کل یک خانواده · تخمین دوره عمر یک مشتری · تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمۀ عمر مدلهای رگرسیون و شبکههای عصبی از جمله تکنیکهای مناسب دادهکاوی برای تخمین میباشند. پیشبینی پیشبینی مانند دستهبندی یا تخمین است با این تفاوت که اطلاعات، مطابق برخی از رفتارهای پیشبینی شدۀ آینده یا ارقام تخمینزدۀ آینده دستهبندی میشوند. در عمل پیشبینی، تنها روش برای بررسی صحت دستهبندی، انتظار دیدن آینده است. هر یک از تکنیکهای استفاده شده در دستهبندی و تخمین را میتوان برای استفاده در پیشبینی تطبیق داد، جایی که متغیری که باید پیشبینی شود از قبل معلوم است و دادههای پیشین برای آن وجود دارد. از دادههای پیشین برای تهیۀ یک مدل که بیانگر رفتار مشاهده شدۀ کنونی است استفاده میشود؛ وقتی این مدل برای ورودیهای کنونی به کار رفت؛ نتیجۀ کار، پیشبینی رفتار آینده خواهد بود. مثالهایی از پیشبینی که از طریق تکنیکهای دادهکاوی بحث شده در این کتاب به آنها پرداخته میشود، از این قرارند: · پیشبینی اینکه کدام مشتریان در طول 6 ماه آینده، بازار محصول ما را ترک خواهند کرد. · پیشبینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمۀ سه جانبه یا پیغامگیر خواهند شد. بیشتر تکینکهای دادهکاوی که در این کتاب بیان شدهاند در صورت وجود دادههای مناسب، برای استفاده در پیشبینی مناسبند. انتخاب تکنیک به ماهیت دادههای ورودی و نوع متغیری که باید پیشبینی شود بستگی دارد. گروهبندی شباهت یا قوانین وابستگی[16] عمل گروهبندی شباهت برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. بعبارت دیگرعمل گروهبندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین مینماید. بعبارت سادهتر عمل گروهبندی شباهت تعیین میکند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار میگیرند، چیزی که آن را تحلیل سبد بازار[17] مینامیم. فروشگاههای زنجیرهای خردهفروشی میتوانند از گروهبندی شباهت برای تعیین چیدمان کالاها در قفسههای فروشگاه، در یک کاتالوگ و یا صفحه وب فروش اینترنتی استفاده کنند، تا اقلامی که اغلب با هم خریده میشوند در کنار هم قرار گیرند. از گروهبندی شباهت میتوان برای تعیین شرایط فروشهای متقابل و همزمان و همچنین برای طراحی بستهبندیهای جذاب و یا دستهبندی محصولات و خدمات استفاده کرد. گروهبندی شباهت یک روش ساده برای ایجاد قوانین از دادههاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، میتوان دو قانون وابستگی ایجاد کرد: · افرادی که شیر خشک نوزاد میخرند همچنین با احتمال P1 پوشک نوزاد را هم میخرند. · افرادی که پوشک نوزاد میخرند همچنین با احتمال P2 شیر خشک نوزاد را هم میخرند. قوانین وابستگی در فصول آینده به صورت مفصل مورد بحث قرار میگیرد. خوشهبندی خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعهها یا خوشههای همگن گفته میشود. وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد. در دستهبندی بر اساس یک مدل هر کدام از دادهها به دستهای از پیش تعیین شده اختصاص مییابد؛ این دستهها یا از ابتدا در طبیعت وجود داشتهاند(مثل جنسیت، رنگ پوست و مثالهایی از این قبیل) یا از طریق یافتههای پژوهشهای پیشین تعیین گردیدهاند. در خوشهبندی هیچ دستۀ از پیش تعیین شدهای وجود ندارد و دادهها صرفاً براساس تشابه گروهبندی میشوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد. به طور مثال خوشههای علائم بیماریها ممکن است بیماریهای مختلفی را نشان دهند و خوشههای ویژگیهای مشتریان ممکن است حاکی از بخشهای مختلف بازار باشد. خوشهبندی معمولاً به عنوان پیش درآمدی برای بکارگیری سایر تحلیلهای دادهکاوی یا مدلسازی به کار میرود. به عنوان مثال، خوشهبندی ممکن است اولین گام در تلاش برای تقسیمبندی بازار باشد؛ برای ایجاد یک قانون که در همۀ موارد کاربرد داشته باشد و به این سؤال پاسخ دهد که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ میدهند اول باید مشتریان را به خوشههای متشکل از افرادی با عادات مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل میکند. به تکنیکهای یافتن خوشهها در فصول بعدی به طور مفصل پرداخته میشود. نمایهسازی گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده درجریان است. نتایج نمایهسازی درک ما را از مردم، محصولات یا فرآیندهایی که دادهها را در مرحلۀ اول تولید کردهاند افزایش میدهد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد؛ یک توصیف خوب حداقل نشان میدهد چه زمانی میتوان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا، مثالی از این دست است که چگونه این توصیف ساده که " تعداد زنان حامی حزب دموکرات بیش از مردان است" میتواند توجه بیشتر و مطالعات تکمیلی را برای روزنامهنگاران، جامعهشناسان، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند. درختهای تصمیم ابزار مفیدی برای نمایهسازی میباشد؛ قوانین وابستگی و خوشهبندی را نیز میتوان برای نمایهسازیها استفاده نمود. چرا حالا؟ بیشتر تکنیکهای دادهکاوی حداقل به عنوان الگوریتمهای آکادمیک از سالها یا دهههای قبل وجود داشتهاند. با این وجود، تنها در دهه اخیر است که دادهکاوی تجاری[18] نقش عمدهای را در جهان بازی کرده است؛ این مسئله به خاطر رخ دادن همزمان عوامل زیر است: · دادهای که ایجاد شده است. · دادهای که ذخیره شده است. · توان محاسباتی بالایی که قابل دسترسی است. · علاقه به مدیریت روابط با مشتریان، فراوان است. · محصولات نرمافزاری دادهکاوی تجاری وجود دارند. اکنون به هر یک از این عوامل نگاهی میاندازیم. دادهای که ایجاد شده است دادهکاوی هنگامی بیشترین معنی را پیدا میکند که دادههای زیادی وجود داشته باشد؛ در حقیقت، اغلب الگوریتمهای دادهکاوی برای تولید مدلهای دستهبندی، تخمین، پیشبینی و سایر کارکردهای دادهکاوی نیازمند میزان زیادی از دادهها هستند. صنایعی نظیر مخابرات و کارتهای اعتباری، به مدت طولانی روابط تعاملی و اتوماتیک با مشتریان داشتهاند و اطلاعات تعاملی زیادی را جمعآوری نمودهاند، ولی دادههای برگرفته از بیشتر صنایع، امروزه مرهون اتوماتیک شدن زندگی روزمره در تمامی زمینهها است. در شرایط حاضر افزایش ثبت الکترونیکی فروش فروشگاهها، ماشینهای اتوماتیک سخنگو، کارتهای اعتباری، خرید آنلاین، انتقال پول الکترونیکی، پردازشهای سفارش اتوماتیک، خرید بلیط الکترونیکی و سایر موارد مشابه، دادهها را به صورت انبوه تولید کرده و به صورت بینظیری آنها را جمعآوری مینماید. دادهای که ذخیره شده است در فرآیند ذخیرهسازی داده، دادهها از منابع بسیار متفاوت اما به شکل واحد و با تعاریف ثابت جمعآوری میگردد. انباره داده باید به صورت عمده به گونهای طراحی شود که عمل دادهکاوی را تسهیل نماید. توان محاسباتی بالایی که قابل دسترسی است الگوریتمهای دادهکاوی معمولاً نیازمند عبور چندگانه از حجم عظیم دادههاست؛ بیشتر آنها دارای محاسباتی زیاد و فشرده هستند. کاهش شدید و مداوم در قیمت کامپیوتر، انجام تکنیکهایی را که زمانی فقط توسط کامپیوترهای بزرگ امکان پذیر بود، با کامپیوترهای معمولی عملی ساخته است. ارائۀ موفق نرمافزارهای مدیریتی پایگاه دادهها از جانب تولیدکنندگان عمده مانند اوراکل[19]، مایکروسافت[20]، ترادیتا[21] و آیبیام[22]، این توان را ایجاد کرده که فرآیندهای موازی در بسیاری از مراکز دادهای شرکتها برای اولین بار انجام شود. این برنامۀ سرور پایگاه دادههای موازی، فراهم کنندۀ محیطی عالی برای دادهکاوی در مقیاس بزرگ میباشد. پیچیده شدن محیط و نیاز و ضرورت انکارناپذیر به یافتن دانش پنهان امروزه محیط اطراف ما روز به روز پیچیده تر شده و دیگر نمی توان با روش های ساده موضوعات را تحلیل نمود. بطور خاص در زمینه ارتباط مشتریان امروزه در طیف وسیعی از صنایع، شرکتها به این بینش رسیدهاند که مشتریان برای سازمان حیاتی هستند و بالطبع اطلاعات تحلیلی دربارۀ آنها یکی از داراییهای اساسی سازمان میباشد. باید توجه داشت که پیچیدگی فضای کسب و کار و رقابت امروزه ضرورت بکارگیری دانش دادهکاوی را بیش از پیش کرده است. اگرچه در حوزه مدیریت روابط مشتریان، این ضرورت باعث رشد و توسعه دانش دادهکاوی در حال حاضر شده است ولی در سایر حوزه ها نیاز به یافتن دانش پنهان ضرورتی انکارناپذیر گشته است که یکی از عوامل رشد امروزی دانش دادهکاوی محسوب میگردد.
[1]Massachusetts Institute Of Technology [2]Statistics and Computer Science [3]Directed [4] Undirected [5] Classification [6]Estimation [7] Prediction [8] Affinity Grouping [9] Clustering [10]Profiling [11]Categorization [12]Ranking [13]Nearest Neighbor [14] Link Analysis [15]Threshold [16]Association Rules [17]Market Basket Analysis (MBA) [18]Commercial Data Mining [19]Oracle [20]Microsoft [21] Teradata [22] IBM

داده کاوی

مطالب مشابه :

بیوگرافی و معرفی دکتر استفان کاوی

داده کاوی

دانلود کتاب آموزش داده کاوی در پایگاه داده های بزرگ

کتاب TAN و مباحثی در خصوص داده کاوی

داده کاوی در تجارت الکترونیک : فواید ، چالش ها و راهکارها

پروژه مدیریت فروشگاهی #C

داده کاوی

جزوه فارسی داده کاوی

داده کاوی Datamining

داده کاوی (Data Mining) چیست ؟