آموزش رگرسیون لجستیک : قسمت اول مفاهیم کاربردی، حجم نمونه، نحوه تعریف و انتخاب متغیرها

همانطور که همگی ما می دانیم، برای انجام تحلیل رگرسیون خطی، متغیر وابسته باید کمی و سطح سنجش آن فاصله ای/نسبی باشد. اما گاهی اوقات اتفاق می افتد که متغیر وابسته تحقیق در مقیاس فاصله ای نیست و مقیاس آن بصورت اسمی (دو وجهی یا چند وجهی) است. در چنین حالتی برای اینکه بتوانیم عوامل پیش بینی کننده تغییرات یک متغیر اسمی را شناسایی کنیم باید از رگرسیون لجستیک استفاده کنیم. این روش به عنوان روش جایگزین برای روش رگرسیون خطی و همچنین تجزیه تابع تشخیص استفاده می شود.

مفاهیم کاربردی در رگرسیون لجستیک

1- لوجیت (Logit):

مهمترین مفهوم ریاضی در رگرسیون لجستیک، لوجیت است. لوجیت به معنای لگاریتم طبیعی (Ln) بخت های متغیر وابسته (Y) است که مدل آن به مدل لوجیت معروف است. ساده ترین مثال از یک لوجیت را می توان در قالب یک جدول توافقی 2*2 مشاهده کرد. در جدول زیر، توزیع متغیر وابسته شرکت در انتخابات (Y) بر اساس یک متغیر مستقل جنسیت (X) آمده است. در این مثال، لوجیت لگاریتم طبیعی بخت های Y است که مقدار Y را از روی X پیش بینی می کند.

2- آماره والد (Wald):

در رگرسیون لجستیک آماره والد معنی دار بودن حضور هر متغیر مستقل در معادله را نشان می دهد. در نتیجه، آماره والد معادل آماره t در رگرسیون خطی است. آماره والد این فرض صفر را به آزمون می گذارد که مقدار تمامی بتا ها برابر است با صفر. یعنی میزان تأثیر تمامی متغیرهای مستقل بر متغیر وابسته برابر با صفر است. پس اگر قرار است فرض صفر را رد کنیم مقدار حداقل یکی از بتاها نباید صفر باشد.

3- بخت ها (Odds):

بخت ها عبارتند از احتمال رخ دادن یک واقعه بر احتمال رخ ندادن آن واقعه.

برای درک بهتر مفهوم بخت ها، مثال مربوط به مدل لوجیت را تکرار می کنیم. در این مثال بخت شرکت مردان در انتخابات عبارتند از تعداد مردانی که در انتخابات شرکت کرده اند، نسبت به تعداد مردانی که در انتخابات شرکت نکرده اند. در گروه زنان نیز، بخت شرکت زنان در انتخابات برابر است با تعداد زنانی که در انتخابات شرکت کرده اند نسبت به تعداد زنانی که در انتخابات شرکت نکرده اند.

4- نسبت بخت ها (Odds ratio):

در رگرسیون لجستیک برای تعیین میزان تأثیر هر متغیر مستقل بر متغیر وابسته از آماره ای به نام نسبت بخت ها (OR) استفاده می شود. نسبت بخت ها، همانطور که از اسمش مشخص است، نسبت دو بخت نسبت به یکدیگر است و به معنای نسبت احتمال وقوع یک پیامد با فرض عضویت در گروه اول به احتمال وقوع آن پیامد با فرض عضویت در گروه دوم می باشد. به عبارتی، نسبت بخت ها نشان دهنده یک واحد تغییر در بخت های وقوع یک پیامد به ازای یک واحد تغییر در متغیر مستقل است.

در تفسیر نسبت بخت ها در رگرسیون لجستیک باید قواعد زیر را رعایت کنیم:

نکته 1: نسبت بخت ها در خروجی SPSS با نماد Exp(B) نمایش داده می شود.

نکته 2: در تفسیر نتایج نسبت بخت ها باید قواعد زیر را رعایت کنیم.

1- هر گاه نسبت بخت ها بزرگتر از عدد 1 باشد، تغییر متغیرهای مستقل و وابسته مثبت و هم جهت است. یعنی با افزایش مقدار متغیر مستقل، متغیر وابسته نیز افزایش می یابد (در این حالت مقدار B نیز مثبت است).

2- هرگاه نسبت بخت ها کوچکتر از عدد 1 باشد، متغیرهای مستقل و وابسته منفی و در جهت مخالف هم هستند. یعنی با افزایش مقدار متغیر مستقل، مقدار متغیر وابسته کاهش می یابد (در این حالت مقدار B نیز منفی است).

3- هر گاه نسبت بخت ها برابر با عدد 1 باشد، متغیر مستقل تأثیر معنی داری بر متغیر وابسته ندارد و مقدار B یا اثر آن 0 است.

نکته سوم: نسبت بخت ها را می توان به دو صورت زیر تفسیر نمود:

1- در شیوه اول همانگونه که ذکر شد بر اساس نسبت تغییر در متغیر وابسته به ازای یک واحد تغییر در متغیر مستقل تفسیر می کنیم.

2- در شیوه دوم می توان نسبت بخت ها را بصورت درصد تفسیر کرد. برای این کار ابتدا نسبت بخت ها را از عدد 1 کم و سپس در عدد 100 ضرب می کنیم و بصورت درصد تفسیر می کنیم.

حجم نمونه در رگرسیون لجستیک

اگرچه در رگرسیون لجستیک قواعد خاصی برای حجم نمونه و نیز حداقل نسبت تعداد نمونه به تعداد متغیر پیش بین پیشنهاد نشده است، اما برخی از متخصصین علم آمار چندمتغیره، حداقل حجم نمونه برای مطلوب رگرسیون لجستیک را 100 نفر و برخی 50 نفر عنوان کرده اند. اما آنچه مسلم است این است که هرچه تعداد متغیرهای مستقل بیشتر باشد حجم نمونه نیز باید بیشتر باشد. همچنین باید در نظر داشت که در رگرسیون لجستیک به حجم نمونه بیشتر از حجم نمونه در رگرسیون خطی نیاز داریم.

نحوه تعریف متغیرهای طبقه بندی شده (اسمی و ترتیبی) در رگرسیون لجستیک

یکی از مهمترین مشکلات اجرای تجزیه و تحلیل در رگرسیون لجستیک وجود متغیرهای ترتیبی است. در هنگام اجرای رگرسیون لجستیک فرض بر این است که تمامی متغیرهای مستقل از نوع فاصله ای/نسبی هستند. در حالی که در عمل چنین نیست و برخی از آن ها اسمی و ترتیبی هستند. اما از آنجا که در رگرسیون لجستیک با نسبت احتمال وقوع یک پدیده با احتمال عدم وقوع آن پدیده سرو کار داریم، بنابراین متغیرهای مستقل حتماً باید به متغیرهای شبه فاصله ای (با دو کد 0 و 1) تبدیل شوند تا بتوانیم نسبت طبقات آن در متغیر وابسته را بررسی کنیم. به همین دلیل در نرم افزار SPSS در هنگام اجرای دستور رگرسیون لجستیک از طریق کادر Categorical در کادر اصلی دستور، این امکان وجود دارد که متغیرهای طبقه بندی شده (اسمی و ترتیبی) را بصورت تصنعی به متغیرهای فاصله ای تبدیل کنیم.

برای تصنعی کردن متغیرهای اسمی و ترتیبی، باید هر یک از طبقات یک متغیر به عنوان یک متغیر جداگانه با دو طبقه تعریف شده و به طبقه اول کد 0 و به طبقه دوم کد 1 تعلق می گیرد. به عنوان مثال اگر متغیر مورد نظر ما سطح تحصیلات باشد که بصورت پائین، متوسط و بالا تعریف شود، باید هر گزینه را به عنوان یک متغیر دو وجهی حساب کرده و به کسانی که آن میزان تحصیلات را دارند کد 1 و به کسانی که آن تحصیلات را ندارند کد صفر تعلق می گیرد. یعنی به این صورت

متغیر اول: تحصیلات پائین=1 و تحصیلات غیر پائین=0

متغیر دوم: تحصیلات متوسط=1 و تحصیلات غیر متوسط=0

نکته اول: همانگونه که مشاهده می شود متغیر تحصیلات در هنگام تبدیل به متغیر تصنعی فقط در دو طبقه تعریف شده و طبقه سوم (تحصیلات بالا) حذف شده است. دلیل این امر این است که در رگرسیون لجستیک، همانند رگرسیون خطی، متغیر تصنعی برای طبقه آخر (یعنی بزرگترین کد) تعریف نمی شود و تعداد آن همواره باید یکی کمتر از طبقات متغیر اصلی باشد. طبقه ای که به متغیر تصنعی تبدیل نمی شود طبقه مرجع نام دارد که مبنای مقایسه و تقابل با سایر طبقات قرار می گیرد.

نکته دوم: موقعی که طبقات متغیر مستقل با طبقات مختلف متغیر وابسته به منظور مقایسه در تقابل قرار می گیرند، در هنگام اجرای کادر Categorical در دستور رگرسیون لجستیک امکان انتخاب چندین نوع تقابل وجود دارد:

1- شاخص (Indicator): در این روش، تقابل ها بصورت عضویت یا عدم عضویت در یک طبقه نشان داده می شوند. طبقه مرجع نیز بصورت یک ردیف در ماتریس تقابل با مقادیر 0 نشان داده می شود. این روش رایج ترین روش انتخاب تقابل هاست که اغلب از این روش استفاده می شود.

2- ساده (Simple): در این روش هر طبقه از متغیر پیش بین با طبقه مرجع متغیر وابسته مقایسه می شوند.

3- تفاوت (Difference): هر طبقه از متغیر پیش بین با میانگین اثر طبقات قبلی مقایسه می شود. این روش به معکوس تقابل های هلمرت نیز معروف است.

4- هلمرت (Helmert): هر طبقه از متغیر پیش بین با میانگین اثر طبقات بعدی مقایسه می شود.

5- چندجمله ای (Polynomial): در این روش، که به تقابل های چندجمله ای متعامد نیز معروف است. فرض بر این است که فاصله بین طبقات برابر می باشد. این تقابل ها فقط برای متغیرهای عددی امکان پذیر هستند.

6- انحراف (Deviation): هر طبقه از متغیر پیش بین با اثر کل مقایسه می شود.

انواع رگرسیون لجستیک

در رگرسیون لجستیک، متغیر وابسته می تواند به دو شکل دووجهی و چندوجهی باشد. به همین خاطر در نرم افزار SPSS شاهد وجود دو نوع تجزیه و تحلیل رگرسیون لجستیک می باشیم که بسته به تعداد مقولات و طبقات متغیر وابسته می توانیم از این دو شکل استفاده کنیم:

1- رگرسیون لجستیک اسمی دو وجهی: موقعی که متغیر وابسته در سطح اسمی دووجهی است.

2- رگرسیون لجستیک اسمی چندوجهی یا چند جمله ای: موقعی مورد استفاده قرار می گیرد که متغیر وابسته اسمی چندوجهی است.

روش انتخاب متغیرها در رگرسیون لجستیک

در رگرسیون لجستیک، روش های متعددی برای انتخاب و ورود متغیرها به مدل وجود دارند که به ما کمک می کنند تا مشخص کنیم چگونه متغیرهای مستقل وارد تحلیل می شوند و نیز بتوانیم مدل های رگرسیونی مختلفی را روی یک مجموعه متغیر یکسان ایجاد کنیم.

1- روش همزمان (Enter): در این روش تمامی متغیرها در یک مرحله وارد مدل می شوند.

2- روش پیش رو مشروط (Forward Conditional): نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معنی داری مقدار آماره نسبت درستنمایی و خروج متغیرها از تحلیل بر اساس احتمال این آماره و با توجه به برآوردهای پارامتر مشروط انجام می گیرد.

3- روش پیش رو نسبت درستنمایی (Forward LR): نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معنی داری مقدار آماره نسبت درستنمایی و خروج متغیرها از تحلیل بر اساس احتمال این آماره و با توجه به برآوردهای حداکثر درستنمایی جزئی انجام می شود.

4- روش پیش رو والد (Forward Wald): نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معنی داری مقدار آماره نسبت درستنمایی و خروج متغیرها از تحلیل بر اساس احتمال آماره والد انجام می گیرد.

5- روش حذف پسرو مشروط ( Backward Elimination Conditional): نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل بر اساس احتمال آماره نسبت درستنمایی و با توجه به برآوردهای پارامتر مشروط انجام می شود.

6- روش حذف پسرو نسبت درستنمایی (Backward Elimination Likelihood ratio): نوعی روش گام به گام پس رو است که در آن خروج متغیرها از تحلیل بر اساس احتمال آماره نسبت درستنمایی و با توجه به برآوردهای حداکثر درستنمایی جزئی یا تفکیکی انجام می شود.

7- روش حذف پسرو والد (Backward Elimination Wald): نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل بر اساس احتمال آماره والد انجام می گیرد.

در پست بعدی روش انجام رگرسیون های لجستیک دو و چندوجهی را با ذکر مثال در نرم افزار SPSS بررسی خواهیم کرد.

اگر داده های پژوهشت رو آنالیز کردی و نتیجه مطلوب بدست نیاوردی!

اگر داده های پژوهش رو فردی آنالیز کرده و الان به مشکل برخوردی!

اگر برای داده هات ارزش ویژه قائل هستی و میخواهی مقاله معتبر بنویسی!

اگر خروجی نرم افزار و داده ها و توضیح کامل در مورد نحوه انجام کار نیاز داری!

با من در تلگرام یا ایتا در ارتباط باش: محمدی: 09384226738

برچسب‌ها: آموزش SPSS, تحلیل رگرسیون لجستیک, لاجیت, نسبت بخت ها

+ نوشته شده در پنجشنبه بیست و یکم مرداد ۱۴۰۰ ساعت ۱۰:۶ ب.ظ توسط رسول محمدی |

آموزش تجزیه و تحلیل آماری پایان نامه

آموزش رگرسیون لجستیک : قسمت اول مفاهیم کاربردی، حجم نمونه، نحوه تعریف و انتخاب متغیرها

نوشته‌های پیشین

آرشیو موضوعی