چیستي آمار
آمار چیست
از واژه آمار 3 معنی می توان برداشت کرد :
الف- اطلاعات عددی :مجموعه اعدادی که به روش خاصی از جامعه تحت مطالعه، جمع آوری وبه صورت جدول ونمودار باشاخه های عددی ارائه می شود .
ب – تئوری اعداد : منظور اصول وقواعدریاضی و احتمالی برای ساختن فرمولها ومحاسبه پارامترهاست .
ج – روشهای آماری : روشهایی که در جمع آوری،تنظیم وتجزیه وتحلیل وتفسیر اطلاعات عددی مورد استفاده قرار می گیرد .
آمار تعریف واحدو روشنی ندارد زیراهر شاخه ای از علوم، آنرا وابسته به خودمی داند . اما اکثر آمار شناسان عبارت زیر را در تعریف آمار باز گو می کنند :
آمار علمی است که پیرامون جمع آوری وتنظیم وتحلیل وتفسیر اطلاعات عددی سخن می گوید.
آمار امروزه یک تکنولوژی(فناوری) از روشهای علمی است زیرا ابزار وتکنیک لازم را برای محققین آماده می کند . هر تحقیق بر پایه سه مرحله بنا می شود :
1- آماده سازی زمینه تحقیق وطرح آزمایش
2- اجرای طرح تحقیق و مشاهده نتایج و تحلیل مشاهدات وکشف اطلاعاتی تازه نسبت به موضوع یا فرضیات تحقیق
3- ساختن قانونی جدید وتوصیف آن وکاربرد آن در آزمایشهای دیگر
آمار توصیفی، تحلیل وتوصیف نمونه ونتایج حاصل از آن است وآمار استنباطی، تعمیم نتایج این نمونه به کل جامعه تحت مطالعه .
مختصری از تاریخچه علم آمار
واژه آمار از کلمه لاتین Status سرچشمه گرفته است که به معنای حالت, وضع یا موقعیت می باشد.از این واژه به عنوان ریشه واژه های Stato (دولت)، Statista (دولت شناسی یا کسی که اطلاعات راجع به دولت دارد)، Statistica (آمار)، که مجموعه معین راجع به دولت می باشد، به وجود آماده است.
علم آمار همانند هر علم دیگر، در نتیجه نیازهای بشر بوجود آمده است و تاریخی غنی دارد بطوریکه از دورانهای گذشته تا کنون رشد و تکامل آن ادامه یافته آست.
سرشماریهای بسیار ابتدایی که به هیچ رو با آمار دموگرافی و سرشماریهای امروزی قیاس شدنی نیست، بنای آمار کنونی را پی ریزی کرده و آغاز نموده است.
با ظهور سرمایه داری و گسترش تجارت، آمار در مقابل مسائل مرکب تر و پیچیده تری قرار می گیرد و حجم اطلاعات جمع آوری شده افزایش می یابد و در نتیجه کارهای آماری نیز توسعه می یابد. بطوریکه از نظر ماهیت عمیق تر، از نظر موضوع مورد مطالعه وسیع تر و از نظر وسائلی که به کار گرفته می شود کاملتر میگردد.
در تحقیق های علمی بیش از همه این فکر که آمار در قرن هفدهم به خود شکل یک علم می گیرد طرفدار پیدا کرده است. در اواسط قرن هفدهم در انگلستان یک جریان علمی پدید امد که نام” حساب سیاسی“ به خود گرفت. این جریان علمی را ویلیام پتی و جان گرانت آغاز کردند و بعد از آنها بنام کتب ” حسابدانهای سیاسی “ نامیده شد. این دانشمندان در برسی های خود از مشخص کننده های آمار همچون کمیت های نسبی و متوسط استفاده می کردند. همزمان با ظهور این مکتب، در آلمان مکتب ” آمار توصیفی “ یا ”دولت شناسی“ توسعه یافت. ظهور این علم به سالهای 1660 مربوط میگردد. دانشمندان این مکتب سعی وافر داشتند که به طور همه جانبه ای با استفاده از اعداد، دولتها و کشورها را تشریح و تفسیر کنند. بین داشمندان دولت شناس، بیش از همه ” آخن وال“ استاد دروس حقوق بین الملل و آمار در دانشگاه گوتینگن جلب نظر میکند. بعضی از آمار دانان آخن وال را پدر آمار می دانند. البته از بنیانگذاران علم آمار، قبل از دیگران می توان از ” کتله“ نام برد.
تاریخچه رشد علم آمار:
آمار چیست
از واژه آمار 3 معنی می توان برداشت کرد :
الف- اطلاعات عددی :مجموعه اعدادی که به روش خاصی از جامعه تحت مطالعه، جمع آوری وبه صورت جدول ونمودار باشاخه های عددی ارائه می شود .
ب – تئوری اعداد : منظور اصول وقواعدریاضی و احتمالی برای ساختن فرمولها ومحاسبه پارامترهاست .
ج – روشهای آماری : روشهایی که در جمع آوری،تنظیم وتجزیه وتحلیل وتفسیر اطلاعات عددی مورد استفاده قرار می گیرد .
آمار تعریف واحدو روشنی ندارد زیراهر شاخه ای از علوم، آنرا وابسته به خودمی داند . اما اکثر آمار شناسان عبارت زیر را در تعریف آمار باز گو می کنند :
آمار علمی است که پیرامون جمع آوری وتنظیم وتحلیل وتفسیر اطلاعات عددی سخن می گوید.
آمار امروزه یک تکنولوژی(فناوری) از روشهای علمی است زیرا ابزار وتکنیک لازم را برای محققین آماده می کند . هر تحقیق بر پایه سه مرحله بنا می شود :
1- آماده سازی زمینه تحقیق وطرح آزمایش
2- اجرای طرح تحقیق و مشاهده نتایج و تحلیل مشاهدات وکشف اطلاعاتی تازه نسبت به موضوع یا فرضیات تحقیق
3- ساختن قانونی جدید وتوصیف آن وکاربرد آن در آزمایشهای دیگر
آمار توصیفی، تحلیل وتوصیف نمونه ونتایج حاصل از آن است وآمار استنباطی، تعمیم نتایج این نمونه به کل جامعه تحت مطالعه .
مختصری از تاریخچه علم آمار
واژه آمار از کلمه لاتین Status سرچشمه گرفته است که به معنای حالت, وضع یا موقعیت می باشد.از این واژه به عنوان ریشه واژه های Stato (دولت)، Statista (دولت شناسی یا کسی که اطلاعات راجع به دولت دارد)، Statistica (آمار)، که مجموعه معین راجع به دولت می باشد، به وجود آماده است.
علم آمار همانند هر علم دیگر، در نتیجه نیازهای بشر بوجود آمده است و تاریخی غنی دارد بطوریکه از دورانهای گذشته تا کنون رشد و تکامل آن ادامه یافته آست.
سرشماریهای بسیار ابتدایی که به هیچ رو با آمار دموگرافی و سرشماریهای امروزی قیاس شدنی نیست، بنای آمار کنونی را پی ریزی کرده و آغاز نموده است.
با ظهور سرمایه داری و گسترش تجارت، آمار در مقابل مسائل مرکب تر و پیچیده تری قرار می گیرد و حجم اطلاعات جمع آوری شده افزایش می یابد و در نتیجه کارهای آماری نیز توسعه می یابد. بطوریکه از نظر ماهیت عمیق تر، از نظر موضوع مورد مطالعه وسیع تر و از نظر وسائلی که به کار گرفته می شود کاملتر میگردد.
در تحقیق های علمی بیش از همه این فکر که آمار در قرن هفدهم به خود شکل یک علم می گیرد طرفدار پیدا کرده است. در اواسط قرن هفدهم در انگلستان یک جریان علمی پدید امد که نام” حساب سیاسی“ به خود گرفت. این جریان علمی را ویلیام پتی و جان گرانت آغاز کردند و بعد از آنها بنام کتب ” حسابدانهای سیاسی “ نامیده شد. این دانشمندان در برسی های خود از مشخص کننده های آمار همچون کمیت های نسبی و متوسط استفاده می کردند. همزمان با ظهور این مکتب، در آلمان مکتب ” آمار توصیفی “ یا ”دولت شناسی“ توسعه یافت. ظهور این علم به سالهای 1660 مربوط میگردد. دانشمندان این مکتب سعی وافر داشتند که به طور همه جانبه ای با استفاده از اعداد، دولتها و کشورها را تشریح و تفسیر کنند. بین داشمندان دولت شناس، بیش از همه ” آخن وال“ استاد دروس حقوق بین الملل و آمار در دانشگاه گوتینگن جلب نظر میکند. بعضی از آمار دانان آخن وال را پدر آمار می دانند. البته از بنیانگذاران علم آمار، قبل از دیگران می توان از ” کتله“ نام برد.
تاریخچه رشد علم آمار:
منشا ظهور آمار به صورت توصیف اطلاعات را می توان سرشماریهایی که حدود 4000 سال قبل از میلاد مسیح توسط بابلی ها و مصری ها و بعداُ توسط امپراتوریهای روم و ایران دربارة اطلاعات مربوط به زاد و ولد و دارائی های افراد جامعه زیر سلطه خود انجام می گرفته، به حساب آورد.
در آن زمان بود که روشهایی برای جمع آوری، تنظیم و تلخیص داده ها ابداع گردید. در قرن چهاردهم برای محاسبه نرخ بیمه، جمع آوری اطلاعات دربارة تولد و وفات، تصادفات و حوادث رایج گردید.
در اواسط قرن شانزدهم اولین کتاب احتمال توسط کاردن با عنوان ”بازیها و شانس” نوشته شد، او در این کتاب روشهای تقلب در بازیهای قمار را ارائه داد. بعلاوه ، موضوع پیش بینی در نتایج حاصل از انجام ازمایشهارا مطرح نمود. یکی از کارهای او پیش بینی روز وفات خودش بود که برای اثبات صحت پیش بینی در آن روز خودکشی نمود.
در اواسط قرن هفدهم پاسکال و فرما اولین کسانی بودند که مطالعه احتمال را به طور علمی شروع نمودند. در همین سالها به طور همزمان مطالعات آماری به صورت توصیفی انجام می گرفت. مثلاً گرونت با مطالعه تعداد متولدین کشف نمود که تعداد پسرها از دخترها کمی بیشتر است، اما سالهای اول زندگی تعداد بیشتری از پسرها فوت می کنند.
استفاده از احتمال در آمار، در اواخر قرن هفدهم شروع شد، که در این باره می توان به مطالعات مندل در مورد قانون وراثت، گالتون در بکارگیری همبستگی و ارتباط بین صفات، و به ویژه فیشر در ابداع روشهای مختلف استنباط آماری اشاره نمود.
از شروع قرن بیستم همه ساله روشهای متعددی برای جمع آوری، تجزیه و تحلیل اطلاعات ارایه گردیده که هچنان ادامه دارد.
کاربرد علم آمار در داده کاوی
مقدمه و مقا یسه
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
تهیه کننده : مهرداد حمیدی
کاربرد آمار دا داده کاوی
مقدمه و مقا یسه
آمار شاخه ای از علم ریاضی است که به جمع آوری توضیح و تفسیر داده ها می پردازد.[3 ] این مبحث به گونه ای است که روزانه کاربرد زیادی دارد. در مقایسه این عام با data mining قدمت بیشتری دارد و جزء ورشهای کلاسیک داده کاوی محسوب می شود،وجه اشتراک تکنیکهای آماری وdata mining بیشتر درتخمین وپیش بینی است.[2]البته از آزمونهای آماری در ارزیابی نتایج داده کاوی نیزاستفاده می شود. درکل ا گر تخمین و پیش بینی جزء وظایف data mining در نظر گرفته شوند،تحلیل های آماری،data mining را بیش از یک قرن اجرا کرده است.به عقیده بعضی DM ابتدا ازآمار و تحلیل های آماری تحلیل شروع شد. [ 2] می توان تحلیل های آماری از قبیل فاصله اطمینان،رگرسیون و... را مقدمه و پیش زمینه DMرا دانست که بتدریج در زمینه های دیگر ومتد های دیگررشد و توسعه پیدا کرد. پس در واقع متدهای آماری جزو روشهای کلاسیک و قدیمی DM محسوب می شوند.در جایی اینگونه بحث می شود که با تعریف دقیق ، آماریا تکنیکهای آماری جزء داده کاوی(data mining) نیستند.این روشها خیلی قبل تر از data mining استفاده می شدند.با این وجود، تکنیکها آماری توسط داده ها بکار برده می شوند و برای کشف موضوعات و ساختن مدلهای پیشگویانه مورد استفاده قرار می گیرند.[3]
همانگونه که واضح و مشخص است با گذشت زمان علم نیز پیشرفت می کند،هر چه به جلوتر می رویم روشهای جدید تر و بهترمورد استفاده قرار می گیرد،علم امروز نسبت به دیروز جدیدتر است.روشهای جدید علمی در پی کشف محدودیتهای روشهای قدیمی ایجاد می شود،و از آنجایی که روشهای آماری جزء روشهای قدیمیData miningمحسوب می شوند،از این قاعده کلی که دارای محدودیت هستند مستثنی نیستند.داشتن فرض اولیه در مورد داده ها، یکی از این موارد است.در اینجا به تشریح بیشتر تفاوتهای بین مباحث و متدهای آماری و دیگر متدهای داده کاوی که در کتابهای مختلف بحث شده است می پردازیم.
تکنیکهای داده کاوی و تکنیکهای آماری در مباحثی چون تعریف مقدار هدف برای پیش گویی،ارزشیابی خوب و داده های دقیق (تمیز)(clean data) خوب عمل می کنند،همچنین این موارد در جاهای یکسان برای انواع یکسا نی از مسایل (پیش گویی ،کلاس بندی و کشف)استفاده می شوند، بنابراین تفاوت این دو چیست؟چرا ماآنچنان که علاقه مند بکاربردن روشهای دا ده کاوی هستیم علاقه مند روشهای آماری نیستیم؟ برای جواب این سوال چندین دلیل وجود دارد اول اینکه روشها ی کلاسیک داده کاوی از قبیل شبکه های عصبی،تکنیک نزدیک ترین همسایه روشهای قوی تری برای داده های واقعی به ما می دهند و همچنین استفاده از آنها برای کاربرانی که تجربه کمتری دارند راحت تر است و بهتر می توانند از آن استفاده کنند.دلیل دیگر اینکه بخاطر اینکه معمولاُ داده ها اطلاعات زیادی در اختیار ما نمی گذارند،این روشها با اطلاعات کمتر بهتر می توانند کار کنند وهمچنین اینکه برای داده ها وسیع کابرد دارند.[3]
در جایی دیگر اینگونه بیان شده که داده ها ی جمع آوری شده نوعاُ خیلی از فرضهای قدیمی آماری را در نظر نمی گیرند،از قبیل اینکه مشخصه ها باید مستقل باشند،تعیین توزیع داده ها،داشتن کمترین همپوشانی در فضا و زمان اغلب داده ها هم پوشانی زیاد می دارند،تخلف کردن از هرکدام از فرضها می توان مشکلات بزرگی ایجاد کند،زمانی که یک کاربر(تصمیم گیرنده) سعی می کند که نتیجه ای را بدست آورد. داده های جمع آوری شده بطورکلی تنها مجموعه ای از مشاهدات چندی بعد است بدون توجه به اینکه چگونه جمع آوری شده اند[5].
در جایی پایه و اساس Data mining به دو مقوله آمار و هوش مصنوعی تقسیم شده است که روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند.فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین (machine learning) بر اساس فرضها و یا طبیعت داده هایی که پردازش می شوند.بعنوان یک قانون کلی فرضها تکنیکهای آماری بر این اساس است که توزیع داده ها مشخص است که بیشتر موارد فرض بر این است که توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است.در مقابل روشهای یادگیری یادگیری ماشین از هیچ فرض در مورد داده ها استفاده نمی کند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
به هر حال ذکر این نکته ضروری به نظر می رسد که بسیاری از روشهای یادگیری ماشین برای ساخت مدل dataset از حداقل چند استنتاج آماری استفاده می کنندکه این مساله بطور خاص در شبکه عصبی دیده می شود.[1]
بطور کلی روشهای آماری روش های قدیمی تری هستند که به حالت های احتمالی مربوط می شوند.Data mining جایگاه جدید تری دارد که به هوش مصنوعی یادگیری ماشین سیستمهای اطلاعات مدیریت (MIS) و متدلوژی Database مربوط می شود.
روشهای آماری بیشتر زمانی که تعداد دادهها کمتر است و اطلاعات بیشتری در مورد داده ها می توان بدست آورد استفاده می شوند به عبارت دیگر این روشها با مجموعه داده ها ی کوچک تر سر و کار دارند همچنین به کاربران ابزارهای بیشتری برای امتحان کردن داده ها با دقت بیشتر فهمیدن ارتباطات بین داده ها می دهد. بر خلاف روشهایی از قبیل شبکه عصبی که فرآیند مبهمی دارد. پس به طور کلی این روش در محدوده مشخصی از داده های ورودی بکار می رود.بکار بردن این روشها مجموعه داده های مجموعه داده های زیاد احتمال خطا در این روشها را زیاد می کند.چون در داده ها احتمالnoise وخطا بیشتر می شود و نیز روشهای آماری معمولابه حذف noiseمی پردازند، بنابراین خطای محاسبات در این حالت زیاد می شود.[7]،[8]
در بعضی از روشهای آماری نیازداریم که توزیع داده ها را بدانیم. اگر بتوان به آن دسترسی پیدا کرده با بکار بردن روش آماری می توان به نتایج خوبی رسید.
روشهای آماری چون پایه ریاضی دارندنتایج دقیق تری نسبت به دیگر روشها ی Data miningاریه می دهند ولی استفاده از روابط ریاضی نیازمند داشتن اطلا عات بیشتری در مورد داده ها است.
مزیت دیگر روشهای آماری در تعبیر و تفسیر داده ها است.هر چند روشهای آماری به خاطر داشتن ساختار ریاضی تفسیر سخت تری دارند ولی دقت نتیجه گیری و تعبیر خروجی ها در این روش بهتر است بطور کلی روشهای آماری زمانی که تفسیر داده ها توسط روشهای دیگر مشکل است بسیار مفید هستند.
همچنین می توان گفت که درDM داده ها اغلب بر اساس همپوشانی نمونه هاست،نسبت به اینکه بر اساس احتمال داده ها باشد.همپوشانی نمونه ها برای آشنایی همه انواع پایه ها برای تخمین پا را مترها مشهور است. وهمچنین اغلب استنتاج های آماری نتایج ممکن است مشارکتی باشد تا اینکه سببی باشند.
تکنیکهای ماشین را به سادگی می توان تفسیر کرد .مثلاَُ روش شبکه عصبی بر اساس یک مدل ساده بر اساس مغز انسان استوار است.یعنی همان ساختار مغز انسان را اجرا می کنند ولی خروجی های بسیاری از روشهای آماری ساختار ریاضی دارند،مثلاَُ یک معادله است که تعبیر و تفسیر آن مشکل تر است.در مورد روش های آماری بایداین مطلب را گفت بدون توجه به اینکه مدل کاربردی،مدل آماری است یا خیر،تستهای آماری می تواند برای تحلیل نتایج مفید باشد.
با ارایه توضیحات داده شده درباره های تفاوتهای روشهای آماری و دیگر روشهای DM در ادامه به کابردهای روش روشهای آماری و بحثهای مشترک آما روDM می پردازیم .
کاربردهای روشهای آماری:
Data mining معمولا وظایف یا به عبارت بهتر استراتژهای زیر را در داده ها بکار می برد:
- توضیح و تفسیر (description)
- تخمینestimation) )
- پیش بینیprediction) )
- کلاس بندیclassification) )
- خوشه سازی (clustering)
- وابسته سازی وایجاد رابطه (association)
البته باید گفت که روشهای data mining تنها به یک استراتژی خاص محدود نمی شوندو نتایج یک را همپوشانی بین روشها نشان می دهد. برای مثال درخت تصمیم ممکن است که درکلاس بندی تخمین وپیش بینی کاربرد داشته باشد. بنابراین این جدول را نباید به عنوان تعریف تعریف تقسیم بندی از وظایف در نظرگرفته شود بلکه به عنوان یک خروجی از آنچه که ما به عنوان وظایف dataminig آشنایی پیدا کردیم در نظر گرفته می شود.
همانگونه که ازجدول پیداست روشهای آماری در مباحث تخمین وپیش بینی کاربرد دارند. در تحلیل آماری تخمین وپیش بینی عناصری از استنباطهای آماری هستند.استنباطهای آماری شامل روشهایی برای تخمین وتست فرضیات درباره جمعیتی از ویژگیها براساس اطلاعات حاصل از نمونه است .یک جمعیت شامل مجموعه ای از عناصر از قبیل افراد ایتم یاداده ها یی که دریک مطالعه خاص آمده است. بنابراین در اینجا به توضیح این دواستراتژی می پردازیم.
1- تخمین:
در تخمین به دنبال این هستیم که مقدار یک مشخصه خروجی مجهول را تعیین کنیم،مشخصه خروجی در مسا یل تخمین بیشتر عددی هستند تا قیاسی [1] .بنابراین مواردی که بصورت قیاسی هستند باید به حالت عددی تبدیل شوند.مثلا موارد بلی،خیر به 0 و1 تبدیل می شود.
تکنیکهای نظارتیDM قادرند یکی از دو نوع مسایل کلاس بندی یا تخمین را حل کنند، نه اینکه هر دو
را.یعنی اینکه تکنیکی که کار تخمین را ا نجام می دهد، کلا س بندی نمی کند.
روشهای آماری مورد استفاده دراین مورد بطورکلی شامل تخمین نقطه و فا صله اطمینان میباشد. تحلیل های آماری تخمین وتحلیل های یک متغیره و...از این جمله می باشند.
در توضیح اینکه چرا به سراغ تخمین می رویم باید گفت که مقدار واقعی پارامترها برای ما ناشناخته است.مثلا مقدار واقعی میانگین یک جامعه مشخص نیست.داده ها ممکن است که بطور رضایت بخشی جمع آوری نشده باشد یا به عبارتی warehouse نشده باشد. به همین دلیل تحلیل گران از تخمین استفاده میکنند.
در خیلی از موارد تعیین میانگین مجموعه ای از داده ها برای ما مهم است.مثلا میانگین نمرات درسی یک کلاس،میانگین تعداد نفراتی که در یک روز به بانک مراجعه می کنند،متوسط مقدار پولی که افراد دریک شعبه خاص از بانک واریز می کنند وموارد اینچنینی.
زمانی که مقدار یک آماره را برای براورد کردن پارامتر یک جامعه به کار ببریم،آن پارامتر را تخمین زده ایم،وبه مقدار این آماره برآورد نقطه ای پرامتر اطلاق می کنیم.در واقع از کلمه نقطه برای تمایز بین براورد کننده های نقطه ای و فاصله ای استفاده می کنیم.از مهمترین تخمین زننده ها است که به ترتیب برآورد واریانس و میانگین جامعه هستند.خود برآورد کننده ها دارای خاصیت هایی چون ناریبی، کارایی،ناسازگاری،بسندگی و... هستند،که هر یک به بیان ویژگی خاصی از آنها می پردازندو میزان توانایی آنها را در تخمین درست و دقیق یک پارامترتعیین می کنند.
در خیلی از موارد تعیین نقطه دقیق یک پارامتر ممکن نیست،ولی فاصله اطمینان ،اطمینان ما را از قرار گرفتن مقدار پارامتر در یک بازه تضمین می کند.فاصله اطمینان را می توان برای اکثر توزیع ها از جمله توزیع خی دو،توزیع t استودنت وتوزیع F و ...بدست آورد.
2- پیش بینی) prediction ( :
هدف از انجام پیش بینی تعیین ترکیب خروجی با استفاده از رفتار موجود می باشد. یعنی در واقع رسیدن به یک نتیجه بوسیله اطلاعات موجود از داده ها. مشخصه های خروجی در این روش هم می توانند عددی باشند وهم قیاسی.[1] این استراتژی در بین استراتژی های data mining از اهمییت خاصی بر خوردار است، و مفهوم کلی تری را نسبت به موارد دیگر دارد.خیلی از تکنیکهای نظارتی data mining که برای کلاس بندی و تخمین مناسب هستند در واقع کار پیش بینی انجام می دهند.
آنچه از کتابهای آماری وdata minig تحت عنوان پیش بینی برمی آید رگرسیون و مباحث مر بوط به آن است .در واقع در اکثر این کتابها هدف اصلی از انجام تحلیل های آماری برای داده کاوی، رگرسیون داده هاست واین بعنوان وظیفه اصلی متد های آماری معرفی می شود.
اهداف تحلیل رگرسیون:
با انجام رگرسیون می خواهیم اهداف زیررا دنبال کنیم:
1- بدست آوردن رفتار متغییرy توسط متغییر x ،یعنی اینکه متغیرy با تغییرx در نمونه ها چه رفتاری را از خود نشان می دهد.مثلا در نمونه ای این رفتار خطی است یا اینکه شکل منحنی خواهد داشت.
2- پیش بینی بر اساس دادهها برای نمونه های آینده،که هدف اصلی در داده کاوی از طریق متدهای آماری است.مثلا از روی اطلاعاتی مثل داشتن کارت اعتباری یک فرد جدید،نوع جنسیت او،سن فرد،میزان درآمد سالیانه او بتوان حدس زد که این فرد از بیمه عمر استفاده می کند یا خیر. ویا اینکه با داشتن اطلاعات در مورد داشتن یا نداشتن کارت اعتباری و بیمه عمر، سن فردبتوان جنسیت فرد را تعیین کرد.
3- استنباط استنتاجی یا تحلیل حساسیت، تعیین اینکه اگرx به اندازه خاصی تعییر کندy تا چه اندازه تغییر خواهد کرد.هدف از فهمیدن اینکه چگونه تغییرات y تابعی ازx است. باید توجه داشت که نوع تغییرات مدل گرسیونی خاصی را می دهد.
اهداف مدلسازی برای تشریح ارتباط بین x وy استفاده از نتایج مدل برای پیش بینی کاربردهای تخمین عبارت است.اما استنباط استنتاجی یک مقوله ظریف تری است.زمانی که به استنباط آماری فکر میکنیم در واقع درباره متغییر رفتاری و متغییر های کنترل فکر می کنیم.
- Bayse classsifire
این مقدار یکی از روشهای ساده یادگیری نظارتی است،که در آن فرض می شود که تمام متغیرها ی ورودی به یک اندازه مهم هستند و مستقل از هم می باشند و نیز ا گریکی از شرایط هم برقرار نباشد این روش در شرایطی کاربرد دارد این روش بر اساس تئوری بیز بنا شده است.که این تئوری به صورت زیر است:
ابزار رگرسیون خطی : (توضیح تابع LINEST)
برای اجرای رگرسیون خطی می توان از نرم افزار Excelاستفاده کرد.در قسمت توابع Excle،تابع LINEST برای اجرای یک رگرسیون خطی ایجاد شده است.در اینجا به چگونگی کار با این تابع و استفاده از نتایج بدست آمده اجرای آن می پردازیم.
1- روش کار با نرم افزار: بعد از باز کردن Excel داده هایی را که می خواهیم بوسیلهُ آنها رگرسیون خطی را اجرا کنیم،وارد می کنیم و نیز محلی را که می خواهیم داده ها خروجی نشان داده شوندتعیین می کنیم سپس از منوی Insert، furctionرا انتخاب می کنیم.در قسمت select a cotegoryمقولهُ statistical را انتخاب می کنیم.با انجام این کار تابع های آماری در قسمت پایین همین پنجره نمایش داده می شود.از بین تابع ها تابع LINESTرا انتخاب می کنیم و OK می کنیم.
در پنجره LINEST چهار قسمت وجود دارد که باید پر شوند. در قسمت اول باید ستون متغیر وابسته (y) را مشخص می کنیم.مثلاُ اگر دادهای شما در ستونEاز ردیف 2تا12هستند،در این قسمت می نویسیم E2:E12، درقسمت دوم ستون متغیرهای مستقل ها را به همین ترتیب مشخص می کنیم.قسمت سوم مقدار عدد ثابت رگرسیون را به ما می دهد،اگر این مقدار True انتخاب کنیم ،مقدار عدد ثابت را بر میگرداندواگر False باشدمقدار عدد ثابت صفراست. درقسمت چهارم(state) اگر عبارتTure تایپ می شوداطلاعاتی را در مورد نتایج رگرسیون بدست می دهد که مفید است،مثلاُ ضریب همبستگی،بین مقدار تخمینی و مقدار واقعی متغیر وابسته،مقدار آماره Fو...که با مثال بیشتر توضیح داده می شودواگر این مقدار False باشد Excelاین نتایج را ارائه نمی دهد.پس از آنکه هر چهار قسمت پر شد،با نگه داشتن ctrl+shiftو زدنinter(یاokکردن) نتایج اجرای رگرسیون دیده می شود.برای فهم بهتر این ابزار در زیر مثالی آورده می شود.
متغییرهای رفتاری مشخصه هایی را ارایه میکنندکه تبحروتجربه خاصی دارندیا اینکه قابلیت آن نبحر را دارند.مثلا مقدار دز دارو که برای بیمار استفاده می شود در تجربه پزشکی .همچینین متغییرهای کنترل دیگر ویژگی ها در یک محیط آزمایشی را اندازه میگیرند،از قبیل وزن بیمار که قبل از رفتار اندازه گیری می شود.
اگر ما برای یکی از متغییر های رفتاری، کنترل انجام دهیم، رگرسیون ما احتمالا استنباط های استنتاجی را درست حدس میزند.و اگر ما علاقه مند به هر دو مورد پیش بینی انتخاب سهم وتخمین اثرات علتها باشیم تایید هر دومورد را بعنوان متغییرهای خروجی که همپوشانی دارند در نظر می گیریم.
روشهای مختلف رگرسیون برای داده کاوی وجود دارد .رگرسیون خطی بیشترین کاربردرا دارد وهمچنین مشتقات آن حایزاهمییت است.یک نمونه از آن مشتقات آن رگرسیون خطی سلسله مراتبی یا رگرسیون چند سطحی است. این روش یکی از ابزارهای تحلیل دادههای پیچیده از قبیل افزایش فر کانس در تحقیقات مقداری را شامل می شود.مدلهای رگرسیون چند سطحی برای حالتهایی که همپوشانی در سطوح مختلف وجود دارد مفید است. برای مثال اطلاعات آموزشی ممکن است اطلاعاتی از قبیل اطلاعات فردی دانش آموزان (نام، نام خانوادگی و در کل پیش زمینه خانوادگی)،اطلاعات سطح کلاس از قبیل ویژگی های معلم وهمچینین اطلاعات درباره مدرسه همانند سیاست آموزشی و... باشد. حالت دیگر مد لهای چند سطحی ،تحلیل دادههای بدست آمده از نمونه های خوشه بندی شده است. یک خانواده از مدلهای رگرسیون، به عنوان متغییرهای شاخص بری رتبه بندی یا خوشه بندی است علاوه بر اینکه همپوشانی را اندازه می گیرد. با نمونه خوشه بندی شده مدلسازی چند سطحی برای توسعه نمونه هایی که داخل خوشه نیستند،لازم است.[4]
در روش رگرسیون چند سطحی یا سلسله مراتبی محدودیتی برای تعداد سطوح تغییر که می تواند انجام شود،وجود نداردروشهای بیزی در تخمین پارامترهای مجهول کمک می کند،هرچند که محاسبات پیچیده ای دارد.ساده ترین توسعه از رگرسیون همپوشانی مجموعه ای از متغیرهای شاخص برای کلاس بندی نمونه های آموزشی یا رتبه بندی وخوشه بندی درنمونه های داده شده است.همچنین به عنوان توسعه رگرسیون خطی در نظر گرفته می شود،که در ادامه به توضیح آن می پردازیم[4]
1- رگرسیون خطیLinear regression))
یکی از هدفهای اصلی بسیاری از پژوهشهای آماری ا یجاد وابستگی هایی است تا پیش بینی یک یا چند متغیر را بر حسب سایرین ممکن می سازد.مثلاَُ مطالعاتی انجام می شودتا فروشهای بالقوهُ یک محصول جدید را بر حسب قیمت آن،وزن یک بیماررا بر حسب تعداد هفته هایی که پرهیز داشته است،پیش بینی کند.
در عمل مسایل متعددی وجود دارند که در آن ها مجموعه ای از داده ها زوج شده بر آن دلالت می کند که رگرسیون خطی است و در آن توزیع توأم متغیرهای تصادفی تحت بررسی رانمی دانیم اما با این حال می خواهیم که ضرایب رگرسیون را برآ ورد کنیم.
روش رگرسیون خطی یک تکنیک یادگیری نظارتی است که به وسیله آ ن می خواهیم تغییرات یک متغیر وابسته بوسیلهُ ترکیب خطی از یک یا چند متغیرمستقل مدل کنیم .حالت کلی معادله آن به این صورت است :
(1) f(x1+x2+…+xn)=a1x1+a2 x2+…+an xn+b
کهxها متغیر مستقل و aهاو b ضرایب ثابت هستند وf(x1.x1…xn) متغیر وابسته می باشند.حالت ساده این معادله بصورت (2) y=ax+b است که در اینجا yمتغیر وابسته است به حالت ساده شده معادله 1(یعنی معادله2) shope-intercept fromمی گویند.
یک روش برای تعیین ضرایب a,b روش حداقل مربعات است.ملاک کمترین مربعات این است که مجموع مربعات ا نحراف ها را مینیمم کنیم؛بنابراین اگر مجموعهای از داده های زوج شده مانند
2-Logistic Regression
این روش یکی از تکنیکهای یادگیری نظارتی و در حالتی که نتایج خروجی به صورت binaryهستند،مورد توجه قرار می گیرد.در کل زمانی نتایج خروجی به صورت binary هستند رگرسیون خطی خیلی کارا نیست،در این حالت استفاده از این تکنیک مناسب تر است.نکته دیگر اینکه این روش یک تکنیک رگرسیون غیر خطی است و لزومی ندارد که داده ها حالت خطی داشته باشند.ا گر بخواهیم دلیل استفاده Logistic regression را بیان کنیم باید اینگونه بحث کنیم در رگرسیون خطی علاوه بر اینکه نتایج خروجی باید به صورت عددی باشد،متغیر ها هم باید به صورت عددی باشد بنابراین حالتهایی که به صورت کتگوری ( قیاسی) هستند باید به حالت عددی تغییر شکل پیدا کنند.مثلاُ جنسیت افراد از حالت زن و مرد بوده به ترتیب به حالتهای 0 و1تغییر پیدا می کند.در این روش اگر نتایج خروجی(متغیر خروجی) بصورت binary باشد می تواند مفید باشد. چون اساس رگرسیون خطی در این حالت ایراد پیدا می کند و ارزش قیدی که بر روی متغیر وابسته قرار می گیرد توسط معادله رگرسیون در نظر گرفته نمی شود.
در وا قع چون رگرسیون خطی،معاد له یک خط را ترسیم می کند،نمی تواند حالت مثبت و منفی یا به عبارتی صفر و یک را در نظر بگیرد.
به همین دلیل برای اینکه بتوان حالتهای binary را هم در نظر گرفت،باید شکل معادله را تغییر داد.با این تغییر شکل معادله رگرسیون احتمال اتفاق افتادن یا اتفاق نیفتادن یک واقعه را بدست می دهد.
با تغییر شکل رگرسیون خطی به حالت Logistic regression این مشکل حل می شود.
http://khoy-pnu.mihanblog.com/post/47
مطالب مشابه :
آمار توصیفی، آمار استنباطی
دفتر تحلیل آماری خوارزمی - آمار توصیفی، آمار استنباطی - انجام تحلیل آماری با spss - lisrel - amos - pls
آمار استنباطی چیست؟
ماهیت آمار استنباطی نقش آمار توصیفی در واقع، جمعآوری، خلاصه کردن و توصیف اطلاعات کمّی به
آمار استنباطی چیست ؟
جامعه شناسی - آمار استنباطی چیست ؟ - دانشجويان ارشد جامعه شناسي 91 آزاد قوچان - جامعه شناسی
نرم افزار SPSS چیست؟
نرم افزار spss چیست شما به راحتی می توانید انواع آمار توصیفی و استنباطی را به وسیله این نرم
نمونه سوال آمار توصیفی
مطالعات جمعیتی - نمونه سوال آمار توصیفی - وبلاگی در زمینه جمعیت شناسی، آمار و روشهای تحقیق و
چیستي آمار
آمار توصیفی، تحلیل وتوصیف نمونه ونتایج حاصل از آن است تاریخچه رشد علم آمار: آمار چیست
برچسب :
آمار توصیفی چیست