آشنایی با داده کاوی
توصيف دادهها براي دادهكاوي
پيش از ساخت مدلهايي براي پيشبيني، اطلاعات و دادهها بايد «توصيف» شوند. اين كار در جهت فهم دادهها و برقراري ارتباط بيشتر با دادهها ضروري است. در ابتدا اين كار ميتواند با ابزاري نظير ميانگينگيري، انحراف معيار و آمار توصيفي انجام گيرد. همچنين ميتوان با بررسي توزيع دادهها و يا ساخت جداول متقاطع، ديد مناسبتري را از دادهها ايجاد كرد.
در مسائل مختلف، دادهها به شكلهاي متفاوتي وجود دارند. گاهي دادهها پيوسته هستند و ميتوانند هر مقداري داشته باشند (مثل مقدار فروش يك محصول)؛ گاهي نيز ميتوان دادهها را در گروههايي دستهبندي كرد (مثل آبي، قرمز و سبز)؛ برخي از دادهها قابل ترتيبگذاري هستند (مثل بالا / وسط / پايين)؛ دادههايي نيز به صورت اسمي و بدون ترتيب و نظم منطقي وجود دارند (مثل كد پستي).
ترسيم گراف و نمايش گرافيكي دادهها، ابزاري بسيار مهم و حياتي در آمادهسازي دادهها هستند و اهميت آنها در فرايند تحليل دادهها قابل صرف نظر نيست. نمايش گرافيكي دادهها به افراد مختلف در بسياري اوقات منجر به فهم جنبههاي جديدي از اطلاعات ميشود. برخي از روشهاي متداول و مفيد نمايش اطلاعات عبارتند از نمايش هيستوگرام و نمايش جعبهاي كه توزيع مقادير را نمايش ميدهند. همچنين ميتوان دادهها را به صورت پراكنده در گرافهاي دوبعدي و سهبعدي ارائه كرد. گرافهاي چند بعدي كه با روشهاي خاصي اطلاعات بيشتري را در يك گراف نمايش ميدهند، به ميزان قابل توجهي در فهم دادهها مؤثرند. نمايش گرافيكي اطلاعات به مخاطبين اين امكان را ميدهد كه در جنگلي از اطلاعات روي يك درخت متمركز شوند. استفاده از نمايش گرافيكي اطلاعات همچنين در كشف الگوها و روابط حاكم بر اطلاعات و يافتن مقادير استثنايي و مقادير مفقود بسيار راهگشاتر از جداول اعداد و متن هستند.
البته نمايش گرافيكي حجم زيادي از اطلاعات كار دشواري است؛ زيرا ما به صفحات دوبعدي رايانه و يا كاغذ محدوديم. به عنوان مثال فرض كنيد بخواهيم رابطهي بين قابليت اطمينان به اعتبار مالي افراد (مثل چك) را با سن، جنسيت، وضعيت تأهل و نوع كار آنها پيدا كنيم. اگر در اين كار هوشمندي خوبي به خرج دهيم، ميتوانيم اين اطلاعات چند بعدي را در گرافهاي دو بعدي ارائه كنيم. اما از طرفي مخاطبان ما نيز بايد براي استفاده و نتيجهگيري از اين گرافها به خوبي آموزش ببينند. همچنين اگر در گرافها از رنگ استفاده شده باشد، افراد كور رنگ در استفاده از آن مشكل خواهند داشت!
خوشهبندي
خوشهبندي، دادهها را به گروههاي مختلفي تقسيم ميكند. هدف اصلي در خوشهبندي اطلاعات، يافتن گروههايي است كه با يكديگر بسيار متفاوتند و اعضاي آنها بسيار شبيه به يكديگر هستند. در اين كار بر خلاف «طبقهبندي اطلاعات»، مشخصات هر گروه در شروع كار براي ما ناشناخته است. از اين رو خوشهبندي اطلاعات بايد توسط افراد آگاه و كساني كه در آن زمينه بينش خوبي دارند صورت گيرد. گاهي اوقات نيز لازم است تا برخي از دادهها را به دليل ناهمخواني با ساير دادهها در خوشهبندي وارد نكرد. پس از اينكه با استفاده از دادههاي اوليه، خوشهها شكل گرفتند و دادهها افراز شدند، ميتوان از اين خوشهها براي «طبقهبندي» دادههاي جديد استفاده كرد. برخي از روشهاي معمولي براي خوشهبندي عبارتند از «نقشههاي كوهن» و «ابزار كا».
به ياد داشته باشيد كه نبايد خوشهبندي را با افراز اشتبـاه گرفت. افراز به معناي تشخيص گروههاي است كه ويژگيهاي خاصي را دارند در حالي كه خوشهبندي روشي براي افراز دادهها به گروههايي است كه پيشتر تعريف نشدهاند. همچنين طبقهبندي نيز به معناي اختصاص دادهها به گروههايي است كه قبلاً ويژگيهاي آنها مشخص شده است.
تحليل پيوند
«تحليل پيوند» رويكردي توصيفي براي بررسي دادههاست كه ميتواند براي تشخيص ارتباطات بين دادهها به كار گرفته شود. دو روش معمولي براي تحليل پيوند عبارتند از «كشف وابستگي» و «كشف تسلسل». كشف وابستگي، قوانيني را در مورد مسائلي مييابد كه در يك واقعه، با هم رخ ميدهند. تحليل «سبد خريد»، يكي از روشهاي شناخته شده در «كشف وابستگي» است. «كشف تسلسل» نيز چيزي شبيه به «كشف وابستگي» است، با اين تفاوت كه ارتباطات را در طول زمان بررسي ميكند.
ارتباط دو داده به صورت A=>B نمايش داده ميشود. A فرض يا طرف چپ و B حكم يا طرف راست خوانده ميشود. به عنوان مثال در عبارت «اگر كسي چكش بخرد، ميخ هم ميخرد»، فرض «خريد چكش» است و حكم «خريد ميخ».
تشخيص تناسب و وابستگيها در سبد خريد كار دشواري نيست. بررسي تعداد زيادي سبد خريد، به سادگي ميتواند ارتباطات را در خريد نشان دهد. كالاهايي كه در تعداد زيادي سبد خريد در كنار يكديگر ديده شدهاند گوياي «وابستگي» اين كالاها هستند (مثل چكش و ميخ). تعداد دفعات وقوع يك رويداد در مقايسه با كل جامعهي آماري «پشتيباني» ناميده ميشود. اگر پشتياني يك رويداد كم باشد (مثلاً يك در ميليون) دادههاي مربوطه براي نتيجهگيري و بررسي مناسب نيستند.
براي كشف قوانين معنيدار در ارتباطات دادهها، گاهي از عبارات «تناسب» و «اطمينان» استفاده ميشود. «تناسب» به اين معني است كه يك واقعه و تركيب آن با وقايع ديگر چند بار اتفاق ميافتد. به عنوان مثال بررسي اينكه از بين مشتريان اين فروشگاه، چند نفر چكش خريدهاند و از اين ميان چند نفر چكش و ميخ را با هم خريدهاند؟ اين بررسي به ما كمك ميكند كه بدانيم "وقتي كسي چكش ميخرد، چقدر امكان دارد ميخ هم بخرد؟". راه ديگري براي بررسي اين مسأله استفاده از تعريف «اطمينان» است. اطمينان با استفاده از رابطهي زير محاسبه ميشود:
(تعداد وقوع A به تنهايي) / (تعداد وقوع همزمان A و B) = اطمينان
براي توضيح بيشتر اين مسأله از يك مثال استفاده ميكنيم:
- تعداد كل معاملات فروشگاه: 1000
- مواردي كه شامل چكش بوده: 50
- مواردي كه شامل ميخ بوده: 80
- مواردي كه شامل تخته الوار بوده: 20
- مواردي كه شامل ميخ و چكش بوده: 15
- مواردي كه شامل ميخ و تخته الوار بوده: 10
- مواردي كه شامل چكش و تخته الوار بوده: 10
- مواردي كه شامل هر سه بوده: 5
با توجه به اين موارد ميتوان گفت:
- پشتيباني "ميخ و چكش" % 5/1 = 1000/15
- پشتيباني "ميخ و چكش و تخته الوار" % 5/0 = 1000/5
- اطمينانِ "چكش =>ميخ" % 30 = 50/15
- اطمينانِ "ميخ => چكش" % 19 = 80/15
- اطمينانِ "چكش و ميخ => تخته الوار" % 33 = 15/5
- اطمينانِ "تخته الوار => چكش و ميخ" % 25 = 20/5
«برآ» معياري ديگر در بررسي وابستگي دادهها است. هر قدر برآ بزرگتر باشد، اثر رويداد A در وقوع B بيشتر است. «برآ» به اين صورت محاسبه ميشود:
(تعداد وقوع B) / (اطمينان A=>B ) = برآ
در مورد مثال قبلي داريم:
- برآ ي "چكش => ميخ" 75/3 = % 8 / % 30
- برآ ي "چكش و ميخ => تخته الوار" 5/16 = % 2 / % 33
الگوريتمهاي وابستگي با بررسي دادهها و محاسبهي اطمينان و پشتيباني، و با مرتب كردن آنها قوانين حاكم بر دادهها را مييابند. بازده الگوريتمهاي مختلف در انجام اين محاسبات، معياري براي مقايسهي اين الگوريتمهاست. برخي از الگوريتمها، مجموعهاي بزرگ از قوانين، ضرايب اطمينان و پشتيباني مختلف را مييابند كه ميتوانند مورد بررسي قرار بگيرند (به عنوان مثال ميتوان از آنها خواست كه "تمامي وابستگيهايي كه در آنها «بستني» به عنوان حكم است و ضريب اطميناني بيش از %80 و پشتيباني بيش از %2 را دارند" نمايش دهد).
يكي ديگر از تواناييهاي مولدين قوانين وابستگي، مشخص كردن سلسلهمراتب يك موضوع است. در مثال قبلي ما تمامي ميخها و چكشها را صرف نظر از نوع آنها بررسي كرديم. اگر ما اطلاعات هر كدام از انواع اين محصولات را جداگانه بررسي كنيم، ميتوانيم نتايج دقيقتري را براي هر سطح استخراج نماييم.
به ياد داشته باشيد كه قوانين وابستگي يا تسلسل، قوانيني واقعي نيستند و فقط براي توصيف روابطي كه در يك مجموعه داده وجود دارد به كار ميروند. تا كنون روشي رسمي براي ارزيابي مدلها ارائه نشده كه بتوان با استفاده از آن قدرت پيشبيني اين قوانين را افزايش داد. اما پيشفرض اين است كه روندي كه از گذشته تا كنون وجود داشته در آينده نيز ادامه خواهد يافت.
روشهاي گرافيكي براي نمايش پيوندهاي ميان دادهها نيز ميتواند به كار گرفته شود. در شكل 3 هر كدام از دايرهها معرف يك رويداد است. خطوطي هم كه بين اين دايرهها وجود دارد نشاندهندهي ارتباط بين آنهاست. خطوط ضخيمتر نشاندهندهي ارتباط بيشتر و قويتر بين آن رويدادهاست.
شكل 1- دياگرام پيوند
مطالب مشابه :
آموزش نرم افزار داده کاوی وکا weka
پروژه های داده کاوی انجام پروژه های داده کاوی با نرم افزار rapidminer ،clementine12، weka
انجام پروژه های داده کاوی با نرم افزار وکا weka
انجام پروژه های داده کاوی با نرم افزار weka clementine12 spss modeler14.2 rapidminer توسط مهندس حسینی در کوتاه
آشنایی با نرم افزار های داده کاوی
انجام پروژه های داده کاوی كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب
انجام پروژه های داده کاوی
انجام پروژه های داده کاوی با قیمت مناسب و ارزان و با کیفیت بالا انجام می شود:-پروژه با موضوع
داده کاوی ، مفهوم و کاربرد آن
از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها
آشنایی با داده کاوی
الگوريتمهاي وابستگي با بررسي دادهها و محاسبهي اطمينان و پشتيباني، و با مرتب كردن آنها
سیستم مدیریت پایگاه داده
اجزای سیستم مدیریت پایگاه داده. وظایف dbms توسط تعدادی مولفه نرم افزاری انجام می شود.
دادهكاوي در مديريت ارتباط با مشتري
انجام پروژه های داده کاوی نظير تحليلهايي كه برحسب كالاهاي خريداري شده انجام ميشود.
جايگاه دادهكاوي در مديريت دانش
انجام پروژه های داده کاوی براي انجام دادهكاوي از ابزار مختلف نظير:
برچسب :
انجام پروژه داده کاوی