داده کاوی ، مفهوم و کاربرد آن
از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پايگاه داده ها دو برابر شد. ولي پس از گذشت دو دهه و همزمان با پيشرفت فن آوري اطلاعات(IT) هر دو سال يکبار حجم داده ها، دو برابر شد. همچنين تعداد پايگاه داده ها با سرعت بيشتري رشد نمود. اين در حالي است که تعداد متخصصين تحليل داده ها و آمارشناسان با اين سرعت رشد نكرد. حتي اگر چنين امري اتفاق مي افتاد، بسياري از پايگاه داده ها چنان گسترش يافته اند که شامل چندصد ميليون يا چندصد ميليارد رکورد ثبت شده هستند و امکان تحليل و استخراج اطلاعات با روش هاي معمول آماري از دل انبوه داده ها مستلزم چند روز کار با رايانه- هاي موجود است. حال با وجود سيستم هاي يکپارچه اطلاعاتي، سيستم هاي يکپارچه بانکي و تجارت الکترونيک، لحظه به لحظه به حجم داده ها در پايگاه داده هاي مربوط اضافه شده و باعث به وجود آمدن انبارهاي ( توده هاي ) عظيمي از داده ها شده است به طوري که ضرورت کشف و استخراج سريع و دقيق دانش از اين پايگاه داده ها را بيش از پيش نمايان کرده است (چنان که در عصر حاضر گفته مي شود « اطلاعات طلاست» ).
هم اکنون در هر کشور، سازمان ها، شرکت ها و . . . براي امور بازرگاني، پرسنلي، آموزشي، آماري و . . . پايگاه داده ها ايجاد يا خريداري شده است، به طوري که اين پايگاه داده ها براي مديران، برنامه ريزان، پژوهشگران و . . . جهت تصميم گيري هاي راهبردي، تهيه گزارش هاي مختلف، توصيف وضعيت جاري خود و . . . مي تواند مفيد باشد. داده کاوي[1] يا استخراج و کشف سريع و دقيق اطلاعات با ارزش و پنهان از اين پايگاه داده ها از جمله اموري است که هر کشور، سازمان و شرکتي به منظور توسعه علمي، فني و اقتصادي خود به آن نياز دارد.
در کشور ما نيز سازمان ها، شرکت ها و مؤسسات دولتي و خصوصي به طور فزاينده ولي آهسته در حال ايجاد يا خريد نرم افزارهاي پايگاه داده ها و مکانيزه کردن سيستم هاي اطلاعات خود هستند، همچنين با توجه به فصول دهم و يازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهاي الکترونيکي و همچنين تأکيد بر برخورداري کشور از فن آوري هاي جديد اطلاعات براي دستيابي آسان به اطلاعات داخلي و خارجي، دولت مکلف شده است امکانات لازم براي دستيابي آسان به اطلاعات، زمينه سازي براي اتصال کشور به شبکه هاي جهاني و ايجاد زير ساخت هاي ارتباطي و شاهراه هاي اطلاعاتي فراهم کند. واضح است اين امر باعث ايجاد پايگاه هاي عظيم داده ها شده و ضرورت استفاده از داده کاوي را بيش از پيش نمايان مي سازد.
سابقه داده کاوي
داده کاوي و کشف دانش در پايگاه داده ها از جمله موضوع هايي هستند که همزمان با ايجاد و استفاده از پايگاه داده ها در اوايل دهه 80 براي جستجوي دانش در داده ها شکل گرفت.
شايد بتوان لوول (1983) را اولين شخصي دانست که گزارشي در مورد داده کاوي تحت عنوان « شبيه سازي فعاليت داده کاوي » ارائه نمود. همزمان با او پژوهشگران و متخصصان علوم رايانه، آمار، هوش مصنوعي، يادگيري ماشين و . . . نيز به پژوهش در اين زمينه و زمينه هاي مرتبط با آن پرداخته اند.
پژوهش جدي روي موضوع داده کاوي از اوايل دهه 90 شروع شد. پژوهش ها و مطالعه هاي زيادي در اين زمينه صورت گرفته، همچنين سمينارها، دوره هاي آموزشي و کنفرانس هايي نيز برگزار شده است. نتايج پايه هاي نظري داده کاوي در تعدادي از مقاله هاي پژوهشي آورده شده است. مثلاً سال 1991 پياتتسکي و شاپيرو [2] « استقلال آماري قاعده ها در داده کاوي» را بررسي نموده اند. سال 1995 هافمن و نش استفاده از داده کاوي و داده انبار[3] توسط بانک هاي آمريکا را بررسي نموده و بيان کردند که چگونه اين سيستم ها براي بانک هاي آمريکا قدرت رقابت بيشتري ايجاد مي کنند. چت فيلد مشکلات ايجاد شده توسط داده کاوي را بررسي نمود و همچنين مقاله اي تحت عنوان « مدل هاي خطي غير دقيق داده کاوي و استنباط آماري » ارايه نمود. هندري نيز ديدگاه اقتصاد سنجي روي داده کاوي را تهيه کرد. در اين سال انجمن داده کاوي همزمان با اولين کنفرانس بين المللي «کشف دانش و داده کاوي» شروع به کار کرد. اين کنفرانس توسعه يافته چهار دوره آموزشي بين المللي در پايگاه هاي داده درسال 1989 تا 1994 بود. انجمن مذكور، يک سازمان علمي به نام ACM- SIGKDD را ايجاد نمود. سال 1996 ايميلنسکي[4] و منيلا[5] ديدگاهي از داده کاوي به عنوان «پرس و جو کننده از پايگاه هاي استنتاجي[6]» را پيشنهاد کردند. فاياد، پياتتسکي – شاپيرو، اودوراُسامي پيشرفت هاي کشف دانش و داده کاوي را عنوان کردند. در سال 1997 منيلا خلاصه اي از مطالعه روي اساس داده کاوي ارايه نمود. باربارا و همکاران نيز ديدگاه کاهش داده ها روي داده کاوي را در گزارش کاهش داده هاي نيوجرسي ارايه نمودند. همچنين مي توان براي كاربرد داده کاوي
در مديريت مالي مي توان، تحليل داده هاي مالي و مدل سازي مالي بنينگاه و چاچ کز و هيگينز [7] را ملاحظه کرد فريدمن نيز مقاله اي در ارتباط با مفهوم آمار و داده کاوي ارايه نمود. سال 1998 هند [8] مقاله اي تحت عنوان « داده کاوي : آمار يا بيشتر؟ » ارائه نمود. کلينبرگ[9] پائوديميتريو و راغان [10] ديدگاه اقتصاد سنجي روي داده کاوي و عملکرد داده کاوي به عنوان يک مسئله بهينه را ارايه نمودند. در اين سال نيز کنفرانس هاي ناحيه اي و بين المللي در مورد داده کاوي برگزار شد که از جمله مي توان به کنفرانس آسيا و اقيانوسيه درباره کشف دانش و داده کاوي اشاره کرد. سال 2000 هند و همکاران و اسميت بحث هاي مقايسه اي بين آمار و داده کاوي را ارايه کردند. سري و استاوا، کولي، رش پاند و تن استفاده از وب در کاوش داده ها و کاربردهاي آن را ارايه کردند. سال 2002 کلاديو کانورسانو و همکاران « مدل آميخته چندگانه جمع پذير تعميم يافته » براي داده کاوي را بررسي نمودند. پائلو و گيانلوکاپاسرون، « داده کاوي ساختارهاي پيوند براي مدل رفتار مصرف کننده » را ارايه نمودند.
مفهوم داده کاوي
عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها[11] (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است. اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD بيشتر استفاده مي کنند. در ادامه چند تعريف از داده کاوي ارائه مي شود.
1- «داده کاوي يا به تعبير ديگر کشف دانش در پايگاه داده ها، استخراج غير بديهي اطلاعات بالقوه مفيد از روي داده هايي است که قبلاً، ناشناخته مانده اند. اين مطلب برخي از روش هاي فني مانند خوشه بندي، خلاصه سازي داده ها، فراگيري قاعده هاي رده بندي، يافتن ارتباط شبکه ها، تحليل تغييرات و کشف بي قاعدگي را شامل مي شود » ( پياتتسکي شاپيرو، ماتئوس کريستوفر)
2- « داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998)
3- « داده کاوي فرآيند کشف رابطه ها، الگوها و روندهاي جديد معني داري است که به بررسي حجم وسيعي از اطلاعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو ( مانند رياضي و آمار ) مي پردازد». ( سايت[12] http://www.spss.com)
کشف دانش در پايگاه داده ها در جهت کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعده اي باشد تا ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف مي کند.
يک کاربر سيستم KDD بايستي درک بالايي از قلمرو داده ها به منظور انتخاب زير مجموعه صحيحي از داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار. لذا کشف دانش از پايگاه داده ها بايد مثل يک فرآيند شامل گام هاي زير باشد:
1- درک قلمرو
2- آماده کردن مجموعه داده ها
3- کشف الگوها (داده کاوي)
4- پردازش بعد از کشف الگو
5- استفاده از نتايج .
فرآيند دادهكاوي
ميتوان فرآيند دادهكاوي را طي مراحل زير به صورت نمودار نشان داد.
منابع دادههاي خام |
دادههاي مهيا شده |
انبار دادهها |
الگوي كشف شده |
طرح يك فرضيه، پيشگويي |
استخراج، ترجمهو فراخواني |
مهيا كردن دادهها |
كشف الگو |
تجزيه و تحليل الگو بو بهبود آن |
در فرآيند بالا، دادههاي خام از منابع مختلفي جمعآوري ميشوند و از طريق استخراج، ترجمه و فرآيندهاي بازخواني به انبار دادهها وارد ميشوند. در بخش مهياسازي دادهها، دادهها از انبار خارج شده و به صورت يك فرمت مناسب براي دادهكاوي درميآيند. در بخش كشف الگو با روشهاي دادهكاوي براي پاسخ به سؤالهاي خاصي كه به ذهن ميرسند، الگوريتمهايي را استخراج ميكنند و از اين الگوريتمها براي ساخت الگو استفاده ميشود. در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل ميشوند و پس از بهبود آنها، الگوهايي كه كارا محسوب ميشوند در يك سيستم اجرايي به كار گرفته خواهند شد.
نرمافزارهاي دادهكاوي
طي سالهاي گذشته جريان سريعي از تمايل به دادهكاوي در بازارهاي نرمافزاري به وجود آمده است. بيشتر كاربران نرمافزارهاي دادهكاو با تفكر استفاده تجاري از اين نرمافزارها، خواهان استفاده از آن شدهاند. نرمافزارهاي دادهكاو معمولاً سه روش مختلف را براي استفاده از دادهكاوي به كار ميبرند. 1) اكتشاف 2) استفاده از مدلهاي پيشگويي 3) استفاده از آناليز بحث و جدل.
اكتشاف، فرآيند جستجو در دادههاست تا الگوهاي مخفي موجود در دادهها را بدون هيچ ايدة از پيش تعيين شدهاي مشخص نمايد. در نرمافزارهاي دادهكاوي مبتني بر مدلهاي پيشگويي، الگوهايي كه از يك بانك داده كشف ميشوند، براي پيشبيني آينده به كار ميروند. مدلهاي پيشبيني به كاربر اجازه ميدهند تا دادههاي نامشخص را به كار ببرد و اين مقادير نامشخص توسط نرمافزار كشف شود.
در مدلهاي جدلي نيز الگوهاي يافت شده از دادهها براي تعيين مقادير غيرعادي به كار ميرود. براي تعيين مقادير غير عادي، ابتدا ميبايست مقادير عادي شناخته شود تا بر اين اساس مقادير غيرعادي و منحرف شناخته شوند.
نرمافزارهاي دادهكاو در حال حاضر از فعاليت كمتري نسبت به ساير نرمافزارهاي هوشمند برخوردار هستند. با اين وجود فعاليت تجاري اين نرمافزار را ميتوان در شش بخش كلي، دستهبندي دادهها، برآورد مقادير نامشخص، پيشبيني مقادير نامشخص, گروهبندي تقريبي دادهها، خوشهبندي دادهها و تشريح روابط بين دادهها تقسيم كرد.
دادهكاوي و مديريت دانش
اگر چه دانش به طور انحصاري محصول فناوري اطلاعات نيست، ولي فناوري اطلاعات به طور لاينفكي در ايجاد دانش و فرآيند مديريت دانش از سال هاي اول مشاركت داشته است. امروزه مديريت دانش از مسئوليت هاي فناوري اطلاعات به شمار ميرود. زيرا در جمعآوري، تبديل دانش و انتقال دادهها، اطلاعات و دانش نقش كليدي دارد.
از منظر مديريت دانش، هدف دادهكاوي، كشف دانش سازماني پنهان در اطلاعات خام است. اينگونه نيست كه هر بينش حاصل از دادهكاوي دانش ميسازد، بلكه در عوض بسياري از نتايج به دست آمده، اطلاعات مديريت، يا هوش سازماني است. مثلاً در سازمانهاي تجاري، دانش با ارزش
مورد مشتري، محصول و بازار را ميتوان از طريق دادهكاوي به دست آورد. دادهكاوي ابزار مفيدي براي مديران دانش است كه كشف را با تحليل تلفيق ميكنند. تلفيقي كه اغلب منجر به ايجاد دانش ميشود.
كاربرد دادهكاوي در آموزش عالي
با توجه به اينكه آموزش عالي همواره با دادهها و اطلاعات بسيار زيادي در مورد دانشگاهها، دانشجويان، اعضاي هيئت علمي، پرسنل، منابع مادي و... روبروست و در اكثر مواقع اين دادهها ميتواند حامل اطلاعات و الگوهاي باارزشي باشند، لذا به نظر ميرسد يكي از مهمترين كاربردهاي دادهكاوي در آموزش عالي است. امروز بانكهاي اطلاعاتي وسيعي از ويژگيهاي دانشجويان موجود است كه اطلاعات مربوط به ويژگيهاي خانوادگي، تحصيلي و ... را شامل ميشود. پيدا كردن الگوها و دانش نهفته در اين اطلاعات ميتواند به تصميمگيرندگان عرصه آموزش عالي كمك شاياني بكند. استفاده از تكنيكهاي پيشرفته دادهكاوي مانند خوشهبندي، طبقهبندي، و ... ميتواند در طبقهبندي دانشگاهها، يافتن الگوهاي خاص و با ارزش در مورد دانشجويان موفق، يافتن يك برنامه يا روش موفق تدريس، يافتن نقاط بحراني در مديريت مالي دانشگاهها و موارد ديگر كاربرد داشته باشد.
نتيجه گيري
شركتها، سازمانها، دانشگاهها و مؤسسات آموزش عالي امروزي غرق در انبوه دادهها و اطلاعاتي هستند كه استفاده از آنها در بيشتر موارد محدود به انجام كارهاي جاري ميباشد و هنوز از دادهها در تصميمگيري استراتژيك استفاده نميشود. دادهكاوي كه استفاده از آن روز به روز توسعه مييابد ميتواند به استفاده از اطلاعات موجود در مؤسسات و مراكز آموزش عالي در زمينههاي
تصميمگيري استراتژيك منجر شود.
منابع:
1- مهريزي، حائري، علي اصغر ، «دادهكاوي: مفاهيم، روشها و كاربردها» (1382) پاياننامه كارشناسي ارشد آمار اقتصادي و اجتماعي، دانشكده اقتصاد، دانشگاه علامه طباطبائي.
2- زعفريان، رضا و زعفريان،قاسم، «مروري بر دادهكاوي» (1380) فصلنامه صنايع، شماره 29
3- شاهسمندي، پرستو «دادهكاوي در مديريت ارتباط با مشتري» (1384)، مجله تدبير شماره 156.
4- گودرزي، حميدرضا، مترجم «دادهكاوي چيست»، نشريه گزيده مطالب آماري، مركز آمار ايران، شماره 52.
5) Hand. D.J (1998): "Review of Data mining", The American statistician, 52, 112-118.
[1] - Data mining
[2] - piatetsky-shapiro
[3]- Data warehouse
[4]- Imielnski
[5] - Mannila
[6] - Inductive databases
[7] - Benninga, Czaczkes, Higgins
[8] - Hand
[9] - Kleinberg
[10] - Paodimitriou , Raghavan
[11] - Knowledge Discovery of Database
1- اين سايت يکي از معتبرترين سايت ها در زمينه آمار و داده کاوي است.
مطالب مشابه :
آموزش نرم افزار داده کاوی وکا weka
پروژه های داده کاوی انجام پروژه های داده کاوی با نرم افزار rapidminer ،clementine12، weka
انجام پروژه های داده کاوی با نرم افزار وکا weka
انجام پروژه های داده کاوی با نرم افزار weka clementine12 spss modeler14.2 rapidminer توسط مهندس حسینی در کوتاه
آشنایی با نرم افزار های داده کاوی
انجام پروژه های داده کاوی كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب
انجام پروژه های داده کاوی
انجام پروژه های داده کاوی با قیمت مناسب و ارزان و با کیفیت بالا انجام می شود:-پروژه با موضوع
داده کاوی ، مفهوم و کاربرد آن
از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها
آشنایی با داده کاوی
الگوريتمهاي وابستگي با بررسي دادهها و محاسبهي اطمينان و پشتيباني، و با مرتب كردن آنها
سیستم مدیریت پایگاه داده
اجزای سیستم مدیریت پایگاه داده. وظایف dbms توسط تعدادی مولفه نرم افزاری انجام می شود.
دادهكاوي در مديريت ارتباط با مشتري
انجام پروژه های داده کاوی نظير تحليلهايي كه برحسب كالاهاي خريداري شده انجام ميشود.
جايگاه دادهكاوي در مديريت دانش
انجام پروژه های داده کاوی براي انجام دادهكاوي از ابزار مختلف نظير:
برچسب :
انجام پروژه داده کاوی