مقدمه ای برلزوم استفاده از رگرسیون لوجستیک[1] در تحقیقات


مقدمه ای برلزوم استفاده از رگرسیون لوجستیک[1] در تحقیقات

آزمایش همانا مظهر روش علمی است.روش آزمایش بیش از انواع روش های دیگر تحقیق اجتماعی بر علیت متمرکز است.(بیکر،1377،ص242-241)تحقیق آزمایشی یا درآزمایشگاه صورت می گیردکه می توان درآن حداقل به لحاظ نظری تمامی متغیرهای مزاحم را کنترل کرد وبازهم حداقل به لحاظ نظری می توان مطمئن بود که تغییرات متغیر وابسته ناشی از تغییرات متغییر مستقل است.این آزمایش ها عمدتا از سوی روانشناسان اجتماعی وبرای مطالعه بس متمرکز انواع خاصی از رفتارهای اجتماعی بکار می رود.اما"طرح آزمایش]آزمایشگاهی[برای اکثر مسایل تحقیق  اجتماعی غیر عملی است."(دواس،1376،ص43)در تحقیقاتی که در آنها میدان مطالعه جامعه می باشد نمی توان تمام متغیر های مزاحم راآنگونه که درآزمایش های آزمایشگاهی کنترل می کنند، کنترل کرد.عمل کنترل کردن متغیرها در تحقیقات پیمایشی از طریق روش های آماری پیشرفته موسوم به تحلیل چند متغیره صورت می گیرد.از جمله این روش ها رگرسیون چند متغیره2 است. دراین روش مجموعه ای از متغیرهای مستقل تواما بر متغیر وابسته تاثیر می گذارند.بااستفاده از رگرسیون چند متغیره می توان اثر هریک از متغیرهای مستقل  بر متغیر وابسته را با کنترل آماری اثر سایر متغیرها سنجید.


اما در استفاده از هرگونه روش آماری باید به یک سری نکات توجه کنیم تا آزمونهای آماری بیشماری که وجوددارد در جای خود استفاده شود.استفاده جا بجای آزمونهای آماری باعث می شود نتایج به کلی دگرگون شده و غیر قابل تفسیر گردد.در واقع در خصوص انتخاب آزمون آماری مناسب در میان انبوه آزمونهای آماری معیارهایی وجودداردکه بر مبنای این معیارها ما آزمون مورد نظر را انتخاب می کنیم:


"حوزه آمار تا آنجا توسعه یافته است که اکنون ما تقریبا برای هرنوع طرح تحقیقی چند آزمون آماری دراختیار داریم که از هریک از آنها می توانیم برای آزمون کردن فرضیه خود استفاده نماییم.باتوجه به امکان چنین انتخابی باید در عین حال منطقی را نیز برای انتخاب خود رعایت کنیم...دراین انتخاب ماباید به ...نوع اندازه گیری و مقیاسی که در تعریف عملی متغیرها بکار برده ایم نیز توجه کنیم."(سیدنی،1383،صص9-23).


در واقع قبل از انتخاب هرگونه آزمون آماری پرسش در خصوص مقیاس اندازه گیری وسطح سنجش متغیرها بسیار تعیین کننده است.


سطح سنجشی که دررگرسیون چندگانه مورد نیاز است سطح سنجش فاصله ای است،یعنی متغیرهای مستقل ووابسته باید در سطح سنجش فاصله ای سنجیده شده باشند تا اجازه استفاده از آن را داشته باشیم.اما مسئله اینجاست که عمده متغیرها در حوزه علوم انسانی وپزشکی در سطح سنجش اسمی ویا ترتیبی است.بدین ترتیب امکان استفاده از رگرسیون چندگانه در خصوص این متغیرها منطقی نیست ونتایج بدست آمده غیرقابل تفسیر خواهد بود.منارد3(2001(اولین پیشفرض این نوع تحلیل رگرسیونی را این گونه خاطر نشان می سازد:


"بمنظور استفاده از روش4OLSدر برآورد واستنباط در خصوص ضرایب در تحلیل رگرسونی خطی یک سری پیش فرض ها باید مورد توجه قرار گیرند.پیش فرض های اساسی عبارتنداز:


1-سطح سنجش:همه متغیر های مستقل، فاصله ای ،نسبی،یا دایکاتومی اندومتغیر وابسته ،پیوسته،بی کران بوده ودر مقیاس فاصله ای یا نسبی سنجیده شده است."(p:4)


میرز5 ودیگران (2006)همین امر را به گونه دیگری مورد تاکید قرار داده اند:


"دررگرسیون چندگانه در خصوص پیش بین ها وهم درخصوص متغیر پیش بینی شده از متغیرهای کمی استفاده می شود.در حالیکه رگرسیون لوجستیک این ظرفیت را دارد که درآن متغیرهای مقوله ای این نقش را بازی کنند.


رگرسیون چند جمله ای لو جستیک به لحاظ مفهومی شبیه رگرسیون چندگانه است که درآن ما از مجموعه ای متغیر های مستقل توما برای پیش بینی متغیر وابسته استفاده می کنیم.در رگرسیون چند جمله ای لوجستیک متغیر پیش بینی شده در مقیاس کیفی یا مقوله ای سنجیده می شود ...پیش بین ها می توانند هر نوع ترکیبی از متغیر های مقوله ای وکمی را شامل شوند.(P:7-8)


استفاده ازرگرسیون لو جستیک در دهه اخیر بسیار چشمگیر شده است.بطوریکه هوزمر ولمشو[2] (2001)گزارش نموده انداستفاده از رگرسیون لو جستیک "در طول دهه گذشته رشد چشمگیری داشته است"(P:ix)تحلیل رگرسیون لو جستیک از خواستگاه آن در تحقیقات پزشکی شروع وبه زمینه هایی مثل بازرگانی ومالی،جرم شناسی،بوم شناسی،مهندسی،سیاست بهداشتی،زبان شناسی و زیست شناسی جانوری منتقل شده است.استفاده ازرگرسیون  لوجستیکی بسیار عام گشته است.تا جایی که هاک(2004) پیش بینی نموده است که"آن]رگرسیون لوجستیک[ بزودی از رگرسیون چندگانه سبقت گرفته وتبدیل به پر طرفدارترین ابزار رگرسیونی مورد استفاده گردد"(CF Meyers&etc:2006,P222)


رگرسیون لوجستیک بسیار انعطاف پذیرتر از رگرسیون چندگانه است چرا که نیازمند پیش فرض های کمتری نسبت به رگرسیون چندگانه است.وبه همین جهت برای استفاده مناسب تر است.با این وجود یک سری عملیات آماری وجود دارند که قبل از هر گونه تحلیل رگرسیو نی(چه رگرسیون چندگانه وچه رگرسیون لوجستیک)باید آنهارا انجام داد.این عملیات به عملیات خطایاب موسومند.پیش از هرگونه تحلیلی باید این خطاها بررسی واصلاح گردند وگرنه نتایج تحلیل رگرسیونی غیر قابل اتکا وبی استفاده خواهند بود.به تعدادی ازا ین خطاها در زیر پرداخته می شود:


1-مواردناهمساز: (outlier cases)


مواردی با مقادیر غیر معمول یا استثنایی دریک متغیر یادر ترکیبی از متغیرها(چندمتغیره)ناهمسازها نامیده می شوند.(Meyers&etc,2006,p65)نا همساز ها مواردی هستند که مقادیر آنها غیر معقول است.یکی از راههای ایجاد ناهمسازها خطاهای هنگام کدگزاری ویا هنگام ورود داده هابه کامپیوتراست.قبل از هر گونه تحلیل رگرسیونی "باید مطمئن شد که "اثر ناهمساز"در کار نباشد.موقعی که چند مورد یا گروه محدود کاملا غیر نماینده واستثنایی جزونمونه باشد ممکن است الگویی پدید آورند...اثر ناهمساز می تواند خط رگرسیون وضرایب رگرسیون را تحریف می کند.(دواس،1376،ص289-288)موارد ناهمساز باید مشخص واز جریان تحلیل کنار گذاشته شوند،درغیر اینصورت ضرایب رگرسیونی را تحریف خواهد کرد ونتایج تحقیق غیر قابل دفاع خواهد بود.عمده ترین تاثیر این موارد ناهمساز در مقدار Rاست که این مقدار را به شدت کاهش می دهد.برای چک کردن ناهمساز ها در متغیر های کمی از آماره"تفاوت ماهالانوبیس"[3]استفاده می شود.در رگرسیون لوجستیک چند جمله ای از آماره"تفاوت کوک"[4]استفاده می گردد.با کمک SPSSاین موارد ناهمساز مشخص واز تحلیل کنار گذاشته می شود.


2-چند هم خطی بودن(Multicollinarity)


هنگامی که 2متغیر پیش بین به شدت با هم همبسته باشند"چند هم خطی بودن" وجودارد.توجه کنید که ما تنها راجع به روابط بین متغیرهای پیش بین صحبت می کنیم ودرباره همبستگی هایی که بین هریک از متغیرهای پیش بین ومتغیر وابسته وجوددارد،سخن نمی گوییم. (Meyers&etc,2006,p180)


چند هم خطی بودن تفسیر نتایج رگرسیونی را تحریف می کند.برای مثال اگر دو متغیر بشدت با هم همبسته باشند وتادرجه زیادی در هم آمیخته شده یاشند،به لحاظ آماری یک مشخصه یکسان  را سنجیده اند.چند هم خطی بودن مقادیر ضرایب رگرسیونی متغیر هایی که بشدت همبسته اند را تحریف می کند.این متغیرها به معناداری آماری هم نمی رسند.بدین ترتیب اگر چنین رابطه ای بین دو متغیر وجودداشته باشدیکی ازآنها باید حذف شوند،چراکه صرفا حضور یکی ازآنها کفایت می کند. شناسایی وبر طرف کردن چند هم خطی بودن در تحلیل های چند متغیره کمی پیچیده تر از شناسایی سایر خطاهاست.اولا چنانچه ضریب همبستگی بین دو متغیر پیش بین بیش از8/.شود نگرانی جدی ماباید برانگیخته شود.برنامه های کامپیوتری به ما اجازه می دهند این چند هم خطی بودن رادربین متغیر های مستقل بررسی کنیم.اکثر برنامه های رگرسیونی پارامتری به نام تولرنس دارند که درآن تلاش می شود متغیر های پیش بینی را که بین آنها همبستگی های فوق العاده وجودداردرا شناسایی کند.به لحاظ مفهومی تولرنس مقدار واریانسی از متغیر وابسته ،بدون به احتساب درآوردن هم پوشانی آن متغیر وابسته با سایر متغیرها است.(درواقع R-1بین پیش بین ها(شاخص دیگری  که مرتبط با تولرنس است عامل تورم واریانس (VIF)می باشد.که با تقسیم 1بر تولرنس محاسبه مس شود. VIFهای کمتر از 1/.وچود چند هم خطی بودن را خاطر نشان می سازد


برخی دیگر از پیش فرضها هم هستند که در خصوص رگرسیون لوجستیک نیازی به بررسی آنها نیست،اما در خصوص رگرسیون خطی وچند گانه باید حتما بررسی شوند.آنها عبارتند از:تجانس واریانس ها و نرمال بودن توزیع خطاها .


 کدگذاری تصنعی(Dummy Codding)


همانطور که گفتیم برای تحلیل چند متغیره در سطوح سنجش غیر فاصله ای(برای مثال اسمی ویا ترتیبی)نیز می توان از رگرسیون سود جست.اما بدلیل سطح سنجش پایین این متغیرها "نمی توان رگرسیون را به شیوه معمولی(برای مثال رگرسیون خطی ویا چند گانه) بکار برد.اما می توان ازرگرسیون چند جمله ای لو جستیک 1سود جست. برای استفاده از این نوع رگرسیون در نحوه کدگذاری متغیرها باید به شیوه خاصی عمل کرد.به این شیوه کدگذاری ،کدگذازی تصنعی می گویند.در این روش کدگذاری متغیرهای اسمی وترتیبی را به تعدادی متغیر دوشقی تبدیل می شود."از آنجا که می توان با متغیر دو شقی به مثابه متغیر فاصله ای عمل کرد کاربرد تحلیل رگرسیونی کاملا مشروع ومجاز است." (دواس،1376،ص219)


همانطور که در بالا گفته شد از کدگذاری به شیوه معمول در رگرسیون لوجستیکی باید اجتناب کرد.فرض کنیم یکی از متغیر های ما سرمایه اجتماعی با کدهای1و2و3می باشد.کد 1برای سرمایه اجتماعی پایین،کد2برای سرمایه اجتماعی متوسط وکد3را برای سرمایه اجتماعی بالا در نظر بگیرید.اگر در فرایند رگرسیون چندگانه که مخصوص سطح سنجش فاصله ای ودایکاتومی است از این کدگذاری که در خصوص سرمایه اجتماعی ذکر کردیم استفاده شود،نرم افزار SPSSبااین نوع کدگذاری به مثابه مقیاس فاصله ای برخورد می کند.بدین ترتیب که دراین فرایند تصور می شود افرادی که کد3گرفته اند،سرمایه اجتماعی شان دقیقا 1واحد بیشتر از افرادی است که کد2گرفته ا ند.درنتیجه نحوه محاسبه ضرایب رگرسیونی نیز بر همین منطق خواهد بود وتمامی نتایج غیر قابل استفاده و مخدوش خواهند شد.


در سطح سنجش غیر فاصله ای ما صرفا می دانیم که پاسخگویانی که در قالب کد3طبقه بندی می شوند،دارای سرمایه اجتماعی بیشتری نسبت به کسانی که کد2گرفته اند می باشند.حال اینکه این مقدار بیشتر چقدر است،نمی دانیم. بدین ترتیب مانیازداریم که متغیر های موردنظر که در سطح سنجش غیر فاصله ای اند به شکل تصنعی به کدهای صفرویک تبدیل می کنیم.بدین ترتیب که به پاسخگویانی که صفت مورد نظر راداشته باشند کد1وبه کسانی که صفت  مورد نظر راندارندکدصفرمی دهیم.درخصوص مثالی که زدیم،کسانی که سرمایه اجتماعی پایین دارند کد1ودیگران کدصفرمی گیرند.کسانی که سرمایه اجتماعی متوسط دارند کد1ودیگران (کسانی که سرمایه اجتماعی بالاو پایین دارند) کد صفر می گیرند.بدین ترتیب ما مجموعه ای از کدهای صفر ویک را دراختیار خواهیم داشت.


در این نوع کدگذاری یکی از طیقات متغیر خذف می شود.البته"طبقه ای که از تحلیل حذف می شود هسته اصلی تحلیل خواهد بود..بااین طبقه به عنوان گروه مرجع که سایر طبقات با آن مقایسه خواهند شد برخورد می شود.این به این خاطر است که وزن های رگرسیونی سایر طبقات باتوجه به طبقه مرجع تفسیر خواهند شد". Meyers&etc,2006,p188))محقق باید آمار وروشهای آماری را بکار گیرد نه اینکه آمار محقق را بکارگیرد.


 


منابع:


-بیکر،ترزال(1377):نحوه انجام تحقیقات اجتماعی،ترجمه:هوشنگ نایبی،چاپ اول،انتشارات روش.


-دواس،دی.ای.د(1376):پیمایش در تحقیقات اجتماعی،ترجمه:هوشنگ نایبی،چاپ اول،نشر نی.


--سیدنی،سیگل(1383):آمار غیر پارامتریک برای علوم رفتاری،ترجمه:یوسف کریمی ،چاپ دوم،انتشارات دانشگاه علامه طباطبایی


 -Menard,Scott(2001):Applied logistic Regression Analysis,Second


 Publication,Sage Publication.


-Meyers S.Lawrence&Gamst Glene& Guarino A.J(2006):Applied Multivariate Research,Sage publication



[1]-logistic regression


-multiple regression2


Menard-3


-Ordinary least squres method4


-Meyers5


[2]Hosmer & Lemshow


Ma-[3]


[4]-Cook distance


-Multinomial logistic regression1

منبع: http://nadermehri.blogfa.com/post-12.aspx


مطالب مشابه :


رگرسیون چند متغیره

رگرسیون چند متغیره. در رگرسیون چند متغیری، یک متغیر را وابسته و متغیرهای دیگر را مستقل می




کاربرد رگرسیون چندگانه در اکتشافات ژئوشیمیایى

روش هاى آمارى چند متغیره با در نظر گرفتن در جدول ۱ نتایج آنالیز رگرسیون چند متغیره




رگرسيون

در رگرسیون ، صرف نظر از خاستگاه‌هاي اين تغييرات، به موجب تعريف بالسويه در چند




آموزش محاسبات آماري با نرم افزار مطلب

شده استفاده کرد در ادامه به تابع رگرسیون اشاره شده رگرسیون چند متغیره، یکی از




تحليل رگرسيون

در رگرسیون ، صرف نظر از خاستگاه‌هاي اين تغييرات، به موجب تعريف بالسويه در چند




تحلیل مسیر در spss

در تحلیل رگرسیون خطی چند متغیره قصد داریم رابطه خطی بین متغیرهای مستقل و متغیرهای وابسته را




مقدمه ای برلزوم استفاده از رگرسیون لوجستیک[1] در تحقیقات

بااستفاده از رگرسیون چند متغیره می توان اثر هریک تحلیل چند متغیره در سطوح




برچسب :