آشنایی با داده کاوی

توصيف داده‌ها براي داده‌كاوي

 

پيش از ساخت مدل‌هايي براي پيش‌بيني، اطلاعات و داده‌ها بايد «توصيف» شوند. اين كار در جهت فهم داده‌ها و برقراري ارتباط بيشتر با داده‌ها ضروري است. در ابتدا اين كار مي‌تواند با ابزاري نظير ميانگين‌گيري، انحراف معيار و آمار توصيفي انجام گيرد. همچنين مي‌توان با بررسي توزيع داده‌ها و يا ساخت جداول متقاطع، ديد مناسب‌تري را از داده‌ها ايجاد كرد.

در مسائل مختلف، داده‌ها به شكل‌هاي متفاوتي وجود دارند. گاهي داده‌ها پيوسته هستند و مي‌توانند هر مقداري داشته باشند (مثل مقدار فروش يك محصول)؛ گاهي نيز مي‌توان داده‌ها را در گروه‌هايي دسته‌بندي كرد (مثل آبي، قرمز و سبز)؛ برخي از داده‌ها قابل ترتيب‌گذاري هستند (مثل بالا / وسط / پايين)؛ داده‌هايي نيز به صورت اسمي و بدون ترتيب و نظم منطقي وجود دارند (مثل كد پستي).

ترسيم گراف و نمايش گرافيكي داده‌ها، ابزاري بسيار مهم و حياتي در آماده‌سازي داده‌ها هستند و اهميت آنها در فرايند تحليل داده‌ها قابل صرف نظر نيست. نمايش گرافيكي داده‌ها به افراد مختلف در بسياري اوقات منجر به فهم جنبه‌هاي جديدي از اطلاعات مي‌شود. برخي از روش‌هاي متداول و مفيد نمايش اطلاعات عبارتند از نمايش هيستوگرام و نمايش جعبه‌اي كه توزيع مقادير را نمايش مي‌دهند. همچنين مي‌توان داده‌ها را به صورت پراكنده در گراف‌هاي دوبعدي و سه‌بعدي ارائه كرد. گراف‌هاي چند بعدي كه با روش‌هاي خاصي اطلاعات بيشتري را در يك گراف نمايش مي‌دهند، به ميزان قابل توجهي در فهم داده‌ها مؤثرند. نمايش گرافيكي اطلاعات به مخاطبين اين امكان را مي‌دهد كه در جنگلي از اطلاعات روي يك درخت متمركز شوند. استفاده از نمايش گرافيكي اطلاعات همچنين در كشف الگوها و روابط حاكم بر اطلاعات و يافتن مقادير استثنايي و مقادير مفقود بسيار راهگشاتر از جداول اعداد و متن هستند.

البته نمايش گرافيكي حجم زيادي از اطلاعات كار دشواري است؛ زيرا ما به صفحات دوبعدي رايانه و يا كاغذ محدوديم. به عنوان مثال فرض كنيد بخواهيم رابطه‌ي بين قابليت اطمينان به اعتبار مالي افراد (مثل چك) را با سن، جنسيت، وضعيت تأهل و نوع كار آنها پيدا كنيم. اگر در اين كار هوشمندي خوبي به خرج دهيم، مي‌توانيم اين اطلاعات چند بعدي را در گراف‌هاي دو بعدي ارائه كنيم. اما از طرفي مخاطبان ما نيز بايد براي استفاده و نتيجه‌گيري از اين گراف‌ها به خوبي آموزش ببينند. همچنين اگر در گراف‌ها از رنگ استفاده شده باشد، افراد كور رنگ در استفاده از آن مشكل خواهند داشت!

 

خوشه‌بندي

خوشه‌بندي، داده‌ها را به گروه‌هاي مختلفي تقسيم مي‌كند. هدف اصلي در خوشه‌بندي اطلاعات، يافتن گروه‌هايي است كه با يكديگر بسيار متفاوتند و اعضاي آنها بسيار شبيه به يكديگر هستند. در اين كار بر خلاف «طبقه‌بندي اطلاعات»، مشخصات هر گروه در شروع كار براي ما ناشناخته است. از اين رو خوشه‌بندي اطلاعات بايد توسط افراد آگاه و كساني كه در آن زمينه بينش خوبي دارند صورت گيرد. گاهي اوقات نيز لازم است تا برخي از داده‌ها را به دليل ناهمخواني با ساير داده‌ها در خوشه‌بندي وارد نكرد. پس از اينكه با استفاده از داده‌هاي اوليه‌، خوشه‌ها شكل گرفتند و داده‌ها افراز شدند، مي‌توان از اين خوشه‌ها براي «طبقه‌بندي» داده‌هاي جديد استفاده كرد. برخي از روش‌هاي معمولي براي خوشه‌بندي عبارتند از «نقشه‌هاي كوهن» و «ابزار كا».

به ياد داشته باشيد كه نبايد خوشه‌بندي را با افراز اشتبـاه گرفت. افراز به معناي تشخيص گروه‌هاي است كه ويژگي‌هاي خاصي را دارند در حالي كه خوشه‌بندي روشي براي افراز داده‌ها به گروه‌هايي است كه پيشتر تعريف نشده‌اند. همچنين طبقه‌بندي نيز به معناي اختصاص داده‌ها به گروه‌هايي است كه قبلاً ويژگي‌هاي آنها مشخص شده است.

 

تحليل پيوند

«تحليل پيوند» رويكردي توصيفي براي بررسي داده‌هاست كه مي‌تواند براي تشخيص ارتباطات بين داده‌ها به كار گرفته شود. دو روش معمولي براي تحليل پيوند عبارتند از «كشف وابستگي» و «كشف تسلسل». كشف وابستگي، قوانيني را در مورد مسائلي مي‌يابد كه در يك واقعه، با هم رخ مي‌دهند. تحليل «سبد خريد»، يكي از روش‌هاي شناخته شده در «كشف وابستگي» است. «كشف تسلسل» نيز چيزي شبيه به «كشف وابستگي» است، با اين تفاوت كه ارتباطات را در طول زمان بررسي مي‌كند.

ارتباط دو داده به صورت A=>B نمايش داده مي‌شود. A فرض يا طرف چپ و B حكم يا طرف راست خوانده مي‌شود. به عنوان مثال در عبارت «اگر كسي چكش بخرد، ميخ هم مي‌خرد»، فرض «خريد چكش» است و حكم «خريد ميخ».

تشخيص تناسب و وابستگي‌ها در سبد خريد كار دشواري نيست. بررسي تعداد زيادي سبد خريد، به سادگي مي‌تواند ارتباطات را در خريد نشان دهد. كالاهايي كه در تعداد زيادي سبد خريد در كنار يكديگر ديده شده‌اند گوياي «وابستگي» اين كالاها هستند (مثل چكش و ميخ). تعداد دفعات وقوع يك رويداد در مقايسه با كل جامعه‌ي آماري «پشتيباني» ناميده مي‌شود. اگر پشتياني يك رويداد كم باشد (مثلاً يك در ميليون) داده‌هاي مربوطه براي نتيجه‌گيري و بررسي مناسب نيستند.

براي كشف قوانين معني‌دار در ارتباطات داده‌ها، گاهي از عبارات «تناسب» و «اطمينان» استفاده مي‌شود. «تناسب» به اين معني است كه يك واقعه و تركيب آن با وقايع ديگر چند بار اتفاق مي‌افتد. به عنوان مثال بررسي اينكه از بين مشتريان اين فروشگاه، چند نفر چكش خريده‌اند و از اين ميان چند نفر چكش و ميخ را با هم خريده‌اند؟ اين بررسي به ما كمك مي‌كند كه بدانيم "وقتي كسي چكش مي‌خرد، چقدر امكان دارد ميخ هم بخرد؟". راه ديگري براي بررسي اين مسأله استفاده از تعريف «اطمينان» است. اطمينان با استفاده از رابطه‌ي زير محاسبه مي‌شود:

(تعداد وقوع A به تنهايي) / (تعداد وقوع همزمان A و B) = اطمينان

براي توضيح بيشتر اين مسأله از يك مثال استفاده مي‌كنيم:

  • تعداد كل معاملات فروشگاه: 1000
  • مواردي كه شامل چكش بوده: 50
  • مواردي كه شامل ميخ بوده: 80
  • مواردي كه شامل تخته الوار بوده: 20
  • مواردي كه شامل ميخ و چكش بوده: 15
  • مواردي كه شامل ميخ و تخته الوار بوده: 10
  • مواردي كه شامل چكش و تخته الوار بوده: 10
  • مواردي كه شامل هر سه بوده: 5

با توجه به اين موارد مي‌توان گفت:

  • پشتيباني "ميخ و چكش" % 5/1 = 1000/15
  • پشتيباني "ميخ و چكش و تخته الوار" % 5/0 = 1000/5
  • اطمينانِ "چكش =>ميخ" % 30 = 50/15
  • اطمينانِ "ميخ => چكش" % 19 = 80/15
  • اطمينانِ "چكش و ميخ => تخته الوار" % 33 = 15/5
  • اطمينانِ "تخته الوار => چكش و ميخ" % 25 = 20/5

«برآ» معياري ديگر در بررسي وابستگي داده‌ها است. هر قدر برآ بزرگ‌تر باشد، اثر رويداد A در وقوع B بيشتر است. «برآ» به اين صورت محاسبه مي‌شود:

(تعداد وقوع B) / (اطمينان A=>B ) = برآ

در مورد مثال قبلي داريم:

  • برآ ي "چكش => ميخ" 75/3 = % 8 / % 30
  • برآ ي "چكش و ميخ => تخته الوار" 5/16 = % 2 / % 33

الگوريتم‌هاي وابستگي با بررسي داده‌ها و محاسبه‌ي اطمينان و پشتيباني، و با مرتب كردن آنها قوانين حاكم بر داده‌ها را مي‌يابند. بازده الگوريتم‌هاي مختلف در انجام اين محاسبات، معياري براي مقايسه‌ي اين الگوريتم‌هاست. برخي از الگوريتم‌ها، مجموعه‌اي بزرگ از قوانين، ضرايب اطمينان و پشتيباني مختلف را مي‌يابند كه مي‌توانند مورد بررسي قرار بگيرند (به عنوان مثال مي‌توان از آنها خواست كه "تمامي وابستگي‌هايي كه در آنها «بستني» به عنوان حكم است و ضريب اطميناني بيش از %80 و پشتيباني بيش از %2 را دارند" نمايش دهد).

يكي ديگر از توانايي‌هاي مولدين قوانين وابستگي، مشخص كردن سلسله‌مراتب يك موضوع است. در مثال قبلي ما تمامي ميخ‌ها و چكش‌ها را صرف نظر از نوع آنها بررسي كرديم. اگر ما اطلاعات هر كدام از انواع اين محصولات را جداگانه بررسي كنيم، مي‌توانيم نتايج دقيق‌تري را براي هر سطح استخراج نماييم.

به ياد داشته باشيد كه قوانين وابستگي يا تسلسل، قوانيني واقعي نيستند و فقط براي توصيف روابطي كه در يك مجموعه داده وجود دارد به كار مي‌روند. تا كنون روشي رسمي براي ارزيابي مدل‌ها ارائه نشده كه بتوان با استفاده از آن قدرت پيش‌بيني اين قوانين را افزايش داد. اما پيش‌فرض اين است كه روندي كه از گذشته تا كنون وجود داشته در آينده نيز ادامه خواهد يافت.

روش‌هاي گرافيكي براي نمايش پيوندهاي ميان داده‌ها نيز مي‌تواند به كار گرفته شود. در شكل 3 هر كدام از دايره‌ها معرف يك رويداد است. خطوطي هم كه بين اين دايره‌ها وجود دارد نشان‌دهنده‌ي ارتباط بين آنهاست. خطوط ضخيم‌تر نشان‌دهنده‌ي ارتباط بيشتر و قوي‌تر بين آن رويدادهاست.

Fig1.jpg

شكل 1- دياگرام پيوند

 


مطالب مشابه :


آموزش نرم افزار داده کاوی وکا weka

پروژه های داده کاوی انجام پروژه های داده کاوی با نرم افزار rapidminer ،clementine12، weka




انجام پروژه های داده کاوی با نرم افزار وکا weka

انجام پروژه های داده کاوی با نرم افزار weka clementine12 spss modeler14.2 rapidminer توسط مهندس حسینی در کوتاه




آشنایی با نرم افزار های داده کاوی

انجام پروژه های داده کاوی كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب




انجام پروژه های داده کاوی

انجام پروژه های داده کاوی با قیمت مناسب و ارزان و با کیفیت بالا انجام می شود:-پروژه با موضوع




داده کاوی ، مفهوم و کاربرد آن

از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها




آشنایی با داده کاوی

الگوريتم‌هاي وابستگي با بررسي داده‌ها و محاسبه‌ي اطمينان و پشتيباني، و با مرتب كردن آنها




سیستم مدیریت پایگاه داده

اجزای سیستم مدیریت پایگاه داده. وظایف dbms توسط تعدادی مولفه نرم افزاری انجام می شود.




داده‌كاوي در مديريت ارتباط با مشتري

انجام پروژه های داده کاوی نظير تحليل‌هايي كه برحسب كالاهاي خريداري شده انجام مي‌شود.




جايگاه داده‌كاوي در مديريت دانش

انجام پروژه های داده کاوی براي انجام داده‌كاوي از ابزار مختلف نظير:




برچسب :