آموزش نحوه محاسبه مدل رگرسیون لجستیک Binomial logistic regression در نرم‌افزار SPSS

در بسیاری از پژوهش ها متغیر وابسته مورد مطالعه ماهیتا یک متغیر گسسته است که برای برآورد رخداد هر یک از سطوح نیازمند استفاده از رگرسیون های کیفی هستیم. رگرسیون های با متغیر وابسته گسسته دارای انواع مختلفی هستند که با توجه به ماهیت متغیر وابسته تعیین می شوند. اگر متغیر وابسته دو بعدی(dichotomous) باشد رگرسیون لجستیک Binomial (or binary) logistic regression برای بیان پیش بینی استفاده می شود.

منظور از دو وجهی بودن، رخ داد یک واقعه تصادفی در دو موقعیت ممکنه است. به عنوان مثال خرید یا عدم خرید، ثبت نام یا عدم ثبت نام، ورشکسته شدن یا ورشکسته نشدن و ... متغیر هایی هستند که فقط دارای دو موقعیت هستند و مجموع احتمال هر یک آنها در نهایت یک خواهد شد. کاربرد این روش عمدتا در ابتدای ظهور در مورد کاربرد های پزشکی برای احتمال وقوع یک بیماری مورد استفاده قرار می گرفت. لیکن امروزه در تمام زمینه های علمی کاربرد وسیعی یافته است. به عنوان مثال مدیر سازمانی می خواهد بداند در مشارکت یا عدم مشارکت کارمندان کدام متغیر ها نقش پیش بینی دارند؟ مدیر تبلیغاتی می خواهد بداند در خرید یا عدم خرید یک محصول یا برند چه متغیر هایی مهم هستند؟ یک مرکز تحقیقات پزشکی می خواهد بداند در مبتلا شدن به بیماری عروق کرنری قلب چه متغیر هایی نقش پیش بینی کننده دارند؟ تا با اطلاع رسانی از احتمال وقوع کاسته شود.

مشخصا در این موقعیت پژوهشی نمی توان از رگرسیون های معمولی برای پیش بینی رخداد این متغیر های وابسته استفاده نمود. در این نوع از رگرسیون از نسبت برتری odds که نسبت (p/(1-p) می باشد استفاده می شود و برای به دست آوردن مدل لوجیت از این رابطه باید از آن لگاریتم گرفت. لذا مدل عمومی رگرسیون لجستیک به شکل زیر خواهد بود.

Ln (p/ (1-p) = intercept + b1*X1 + b2*X2 + ... + bk*Xk.

از آنجائیکه رگرسیون لوجستیک از خاصیت حداکثر درستنمایی به جای حداقل مربعات مرسوم در رگرسیون خطی استفاده می کند، از روی این فرمول در نهایت می توان احتمالات پیش بینی شده را بر اساس قاعده زیر بیان نمود:

p = e intercept + b1*X1 + b2*X2 + ... + Bk*Xk / (1+ e intercept + b1*X1 + b2*X2 + ... + Bk*Xk)

معادله رگرسیون لجستیک در نرم افزار SPSS به شکل زیر برآورد می شود:

z = ln(odds(event)) = ln(prob(event)/prob(nonevent))
= ln(prob(event)/[1 - prob(event)]) = b0 + b1X1 + b2X2 + ..... + bkX

پیش شرط های انجام رگرسیون خطی مانند وجود رابطه خطی بین متغیر های مستقل و وابسته، همسانی واریانس متغیر وابسته و متغیر های مستقل(Homoscedastic)، توزیع نرمال متغیر وابسته و باقیمانده ها یا خطای اندازه گیری مدل را نیاز ندارد. لیکن موضوع همراستایی چند گانه در رگرسیون لجستیک نیز وجود دارد که به معنای عملکرد خطی هر یک از متغیر های مستقل نسبت به یکدیگر است. برای این منظور برای هر ضریب بتا باید مقدار standard errors جزیی باشد. اگر هر متغیر مستقلی دارای خطای استاندارد بالایی باشد نشان از وجود همراستایی چند گانه روی آن متغیر دارد.
در این جا سعی می شود تا با حل یک مساله نمونه در SPSS این موضوعات بررسی شود و نحوه محاسبات مربوط به رگرسیون دو دویی لجستیک بررسی شود. به عنوان مثال در نظر بگیرید یک موسسه مالی اعتباری می خواهد بداند در باز پرداخت به موقع چه متغیر هایی در جامعه مورد نظر دارای اثر پیش بینی کننده هستند؟ به این منظور با توجه به دو وجهی بودن متغیر وابسته (یعنی پرداخت یا عدم پرداخت)استفاده از مدل های لوجیت معنی پیدا می کند. داده های موجود از 850 نفر از کسانی که در این موسسه حساب دارند، در دسترس است که 700 نفر از آنها به موسسه بدهکار هستند و 150 نفر از آنها بدهی ندارند و فقط جهت اعتبار سنجی مدل داده های آنها را فعلا نگه می داریم.
با توجه به اینکه 700 نفر از این مشتریان بدهکار هستند ابتدا برای تفکیک آنها به کسانی که وام خود را به موقع خواهند پرداخت یا اینکه پرداخت منظمی نخواهد داشت؛ به مسیر زیر رفته تا پنجره اعداد رندوم باز شود.

در این پنجره Set Starting Point. را انتخاب و سپس Fixed Value را علامت زده و مقداری تصادفی مانند 9191972 را وارد می کنیم.
حال از منوی Transform گزینه Compute Variable... را انتخاب می کنیم. و نام متغیر جدید را Validate و Expression را روی rv.bernoulli(0.7) تنظیم می کنیم.

این دستور با پارامتر احتمالی 0.7 به دنبال ایجاد تصادفی دادهای تحت عنوان Validate است. از آنجائیکه در داده های موجود افرادی هستند که مشتریان قبلی موسسه نبوده اند یعنی وامی دریافت نداشته اند، لذا لازم است تا ابتدا فقط مشتریان بالفعل مورد ارزیابی قرار گیرند. لذا در این پنجره گزینه If را زده و مقدار MISSING(default) = 0 را در زیر گزینه Include if case satisfies condition فعال شده وارد می کنیم. با این کار این اطمینان حاصل می شود که داده ها بدون مقدار گم شده وارد مدل می شوند و نشان می دهد که این افراد جزء مشتریان قبلی موسسه بوده اند و وامی دریافت کرده اند. حال کلید Continue و سپس کلید Ok را انتخاب می کنیم. اگر از این متغیر درصد بگیریم مشخص می شود که 70 درصد از مشتریان را کسانی تشکیل داده اند که در باز پرداخت وام خود درست عمل کرده اند و 30 درصد این کار را به موقع انجام نداده اند و 150 نفر نیز به عنوان مقدار گم شده معرفی شده اند زیرا اینان مشتریان بالقوه هستند و هنوز وامی را دریافت نداشته اند.

برای شروع آنالیز مسیر Analyze - Regression - Binary Logistic را انتخاب می کنیم.

ابتدا متغیر Previously defaulted را در قسمت dependent variable و متغیر های Select Age in years تا Other debt in thousands را به عنوان covariates انتخاب می کنیم. روش Forward: LR را از بین روش های ورود متغیر استفاده می کنیم. متغیر validate را در قسمت selection variable وارد می کنیم.

حال گزینه Rule را انتخاب و مقدار یک را وارد می کنیم و سپس کلید Continue را انتخاب می کنیم.

حال کلید Categorical را انتخاب و متغیر Select Level of education را به عنوان categorical covariate و سپس کلید Continue را انتخاب می کنیم.

در این فاز کلید Save را انتخاب و موارد زیر را علامت گذاری می کنیم و سپس کلید Continue را انتخاب می کنیم.

در این مرحله برای دیدن آزمون برازش کلی مدل و همچنین پلات توزیع و تفکیک، از منوی Option گزینه های Classification plots و Hosmer-Lemeshow goodness-of-fit.را انتخاب می کنیم. در نهایت کلید Continue و سپس Ok را انتخاب می کنیم.

تمام مراحل فوق از طریق کد نویسی زیر قابل دسترسی خواهد بود:

LOGISTIC REGRESSION VAR=default
/SELECT validate EQ 1
/METHOD=FSTEP(LR) age ed employ address income debtinc creddebt othdebt
/CONTRAST (ed)=Indicator
/SAVE PRED COOK SRESID
/CLASSPLOT
/PRINT=GOODFIT
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5)

اولین خروجی مدل بیانگر برازش کلی مدل است که آزمون Hosmer and Lemeshow می باشد. از انجا که مقدار سطح معنی داری بالای 05/0 است، لذا فرض صفر مبنی بر توضیح قابل قبول داده ها توسط مدل تائید می شود. لذا در آخرین سطح که مقدار سطح معنی داری 0.565 محاسبه شده است نشان می دهد در پایان گام چهارم مدل برازش یافته ای وجود دارد و نتایج حاصله از آن معتبر و قابل استناد است. بر خلاف نسخه های قبلی SPSS، نسخه 18آن برای محاسبه ابتدا با تجمع گروه ها در طبقات مشابه اقدام به محاسبه تست برازش می کند که این امر سبب افزایش اعتبار آن شده است.

از آنجا که تغییرات واریانس در مدل ثبت نمی شود برای بررسی وضعیت باقیمانده ها لازم است در این مرحله به مسیر Transform> Compute Variable... رفته و مقدار متغیری به نام chgdev ایجاد و سپس sre_1**2 را در بخش فرمول وارد می کنیم. با این دستور مربع استاندارد شده باقیمانده ها در متغیر chgdev ذخیره می شود. برای دیدن این نتیجه به منوی Graph و سپس گزینه Chart builder رفته و در محور y متغیر chgdev و در محور X متغیر Predicted probability را وارد می کنیم. و مدل Scatter/Dot را از gallery انتخاب می کنیم.

SPSS آموزش" src="http://www.kishmehr.org/ftpfiles/logistic-spss/clip_image011.jpg" border="0" hspace="0" />

سپس کلید Ok را انتخاب می کنیم تا چارت مورد نظر ایجاد شود. تغییرات زیاد انحراف به معنای برازش ضعیف مدل به واسطه آن موارد یا پاسخگویان است.

منحنی که از سمت چپ به سمت بالا می آید بیانگر مواردی است که متغیر وابسته مقدار صفر را دارد. لذا در مورد کسانی که احتمال پیش بینی برای آنها در مورد عدم پرداخت بالا بوده است، انحراف زیادی را شاهد هستیم و این نشان از برازش ضعیف اطلاعات این افراد برای پیش بینی درست است. بر اساس این چارت مشخص است که بعد از احتمال 0.8 موارد کم و انحراف زیاد است. منحنی که از سمت بالا به پائین حرکت می کند به معنای افرادی است که متغیر وابسته در مورد انها مقدار یک را دارد. لذا کسانی که پرداخت کننده وام هستنند دارای بخش کوچکتری هستند که شناسایی نشده است. به عبارت دیگر غالب پرداخت کنندگان وام دارای مقادیری هستند که توسط متغیر های پیش بین موجود تبیین می شوند. نتایج نشان می دهد احتمال زیر 0.2 تعداد موراد کمی را به خود اختصاص داده است. با شناسایی این موارد در هر دو چارت می توان به شناسایی سایر متغیر های مستقل پیش بین پرداخت که در مدل جاری مورد توجه نبوده اند. برای بهتر دیده شده این موضوع بهتر است مجددا به منوی Graph و سپس گزینه Chart builder رفته و در محور y متغیر Analog of Cook's و در محور X متغیر Predicted probability را وارد می کنیم. و مدل Scatter/Dot را از gallery انتخاب می کنیم. سپس کلید Ok را انتخاب می کنیم تا چارت مورد نظر ایجاد شود.. مواردی که از سطح افقی دور شده اند نماینده افرادی هستند که اطلاعات آنها با نمونه موجود دارای اختلاف است که با افزایش فاصله این شکاف بیشتر می شود.

مدل Forward stepwise با مدلی شروع می شود که هیچ متغیر پیش بینی کننده ای وجود ندارد. در اولین مرحله هر متغیری که دارای سطح معنی داری زیر 05/0 برای مقدار Score باشد وارد مدل می شود.

لذا در آخرین گام انتظار داریم که متغیر یا متغیر هایی که بیشتر از 05/0 دارای سطح معنی داری هستند حذف شوند.
به طور کلی بهتر است برای نشان دادن معنی داری متغیر های باقیمانده در هر مدل از Change in -2 Log Likelihood به جای آماره هایی چون والد استفاده شود.

در مدل های پیش بینی مقدار R2 بیانگر مقدار واریانسی است که توسط متغیر های مستقل وارد شده به مدل تفسیر می شوند و بین صفر تا یک قرار دارد و هر چه به یک نزدیک تر باشد بیانگر قدرت بیشتر مدل است. لیکن در مورد مدل هایی که متغیر وابسته کیفی است، این مقدار محاسبه نمی شود زیرا سطح به صورت گسسته است. Cox and Snell's R2 و Nagelkerke's R2 و McFadden's R2 از الترناتیو هایی هستند که برای این موضوع معرفی شده اند. تفسیر این مقادیر به راحتی R2 نیست و عمدتا برای مقایسه بین مدل ها به کارگرفته می شوند تا بهترین تخمین زننده مشخص شود. به کمک classification table مشخص می شود که تا چه حد جدا سازی افراد طبق تابع پیشنهادی امکان پذیر است که برای این تمرین 82 درصد بیان شده است.

در نهایت اصلی ترین جدول نشان داده می شود که بیانگر ضرایب متغیر های وارد شده به مدل است.

آموزش SPSS" src="http://www.kishmehr.org/ftpfiles/logistic-spss/clip_image015.gif" border="0" hspace="0" />

ضرایب نشان داده شده در آخرین مرحله که در اینجا Step4 است بیانگر معنی داری 5 متغیر وارد شده به مدل است. به دلیل دشوار بودن گزارش B بهتر است مقدار Exp(B) به عنوان ضرایب رگرسیونی هر یک از متغیر های وارد شده به مدل استفاده شود. در واقع اگر عدد eرا به توان B ببریم مقدار Exp(B) به دست می اید. در نهایت به کمک این راهنمای گرافیکی می توانیم نحوه تفکیک افراد نمونه را بر اساس این معادله ببینیم.

رگرسیون لجستیک بحث مفصلی است که در این آموزش بیشتر نحوه پیاده سازی آن در نرم افزار SPSS مورد توجه بود. برای کسب اطلاعات بیشتر می توان از منابع زیر استفاده نمود:

• Hosmer, D. W., and S. Lemeshow. 2000. Applied Logistic Regression, 2nd ed. New York: John Wiley and Sons.

• McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In: Frontiers in Economics, P. Zarembka , eds. NY: Academic Press.

• Rice, J. C. (1994). Logistic regression: An introduction. Advances in social science methodology, Vol. 3: 191-245. Greenwich , CT: JAI Press. Popular introduction.

آموزش نحوه محاسبه مدل رگرسیون لجستیک Binomial logistic regression در نرم‌افزار SPSS

مطالب مشابه :

محاسبه رگرسیون خطی-آمار توصیفی بدون نیاز به نرم افزار

آموزش نحوه محاسبه مدل رگرسیون لجستیک Binomial logistic regression در نرم‌افزار SPSS

محاسبه رگرسیون توبیت (Tobit Regression) در Stata

محاسبه رگرسیون خطی

کاربرد آنالیز رگرسیون خطی(Linear Regression) با استفاده از نرم افزار SAS

آموزش مقدماتی رگرسیون با نرم افزار اکسل

تحلیل رگرسیون و رگرسیون کاذب

آموزش رگرسیون چند متغیره در spss

رگرسیون در علوم دامی