تحقیق مقاله داده های گمشده

تعداد صفحات: 32 فرمت فایل: word کد فایل: 6917
سال: 1392 مقطع: مشخص نشده دسته بندی: تحقیق مقاله مهندسی کامپیوتر
قیمت قدیم:۶,۲۰۰ تومان
قیمت: ۴,۱۰۰ تومان
دانلود مقاله
  • خلاصه
  • فهرست و منابع
  • خلاصه تحقیق مقاله داده های گمشده

    معمولاً در پیمایش ها مواردی پیش می‌آید که برخی از پاسخگویان به برخی از سوالات پاسخ ندهند. پس از وارد کردن داده‌ ها به نرم افزارهای آماری موارد بدون پاسخ به صورت خودکار، گمشده تعریف می‌شوند. مشکل داده‌های گمشده را می‌توان به دو حالت کلی تقسیم کرد. حالت اول زمانی است که داده‌ها به صورتی تصادفی گم شده باشند. مثلاً پاسخگویان برخی سوالات را ندیده باشند و یا پرسشگران یک یا چند سوال را از قلم انداخته باشند. حالت دوم وقتی پیش می‌آید که پاسخگو با قصد و نیت از پاسخ دادن به سوال یا سوالاتی خودداری ورزیده باشد.

    شرایطی که تعمدی در بی پاسخ گذاشتن سوالات وجود داشته باشد، بدترین حالت برای پژوهشگر است. در این حالت هرگونه برخوردی با داده‌های گمشده نتایج پیمایش را به سمت اریبی می کشاند. ممکن است پژوهشگری در این حالت ترجیح دهد که پرسشنامه‌هایی را که شامل داده‌های گمشده باشند به کلی حذف کند. باید بگویم که این بدترین کاری است که یک پژوهشگر می‌تواند با این مشکل انجام دهد، زیرا با این کار فقط میزان اریبی را افزایش خواهد داد. مثلاً در یک پیمایش ممکن است افراد طبقه بالای جامعه از گفتن میزان درآمدشان خودداری کرده باشند.

    شیوه های متفاوت در برخورد با مشکل داده‌های گمشده

     

    1- حذف لیستی

    چنانچه گفتیم، در این حالت پژوهشگر هر پرسشنامه‌ای را که شامل داده‌های گمشده باشد، حذف می‌کند. این کار دو ایراد اساسی دارد. نخست آنکه در صورتی که داده‌ها به شکلی تصادفی مفقود نشده باشند، حذف پرسشنامه‌ها نتایج را به سمت اریبی می کشاند. دوم آنکه اگر تعداد افرادی که به برخی سوالات پاسخ نداده باشند، زیاد باشد، به میزان بسیار زیادی از حجم نمونه کاسته خواهد شد. بدیهی است که این کار باعث اتلاف وقت و هزینه خواهد شد.

     

    2- حذف جفتی  

    در این حالت پژوهشگر پرسشنامه‌ها را حذف نمی‌کند. اما هنگامی که قصد محاسبه آماره‌های هر متغیر را دارد، فقط داده‌های غیر گمشده را در نظر می‌گیرد. اگر به عنوان مثال پژوهشگر قصد بررسی همبستگی پیرسون بین دو متغیر را داشته باشد، فقط موردهایی را در نظر می‌گیرد که مقادیرشان در مورد هیچ یک از دو متغیر مورد بررسی گمشده نباشد.

     

    3- انتساب داده‌ ها  

    در این روش پژوهشگر تصمیم می‌گیرد که مقادیری به داده‌های گمشده انتساب دهد. تکنیکهای متفاوتی برای انتساب مقادیر به داده‌ های گمشده وجود دارد. مثلاً یکی از این تکنیکها، انتساب مقدار میانگین به مقادیر گمشده است. اگر به عنوان مثال چند نفر درآمدشان را اعلام نکرده باشند، پژوهشگر تصمیم می‌گیرد که میانگین درآمد کسانی را که درآمدشان را اعلام کرده‌اند، محاسبه کند و سپس این مقدار را به عنوان مقدار درآمد افرادی که درآمدشان را اعلام نکرده‌اند قرار دهد. پیداست که این روش هم معایب بسیاری دارد.

    4- نیکویی بیشینه (حداکثر درست نمایی)

    بهترین و موثرترین روش کار با داده‌های گمشده استفاده از روش نیکویی بیشینه است. علیرغم اینکه این روش بهترین روش برآورد داده‌های گمشده است، اما به ندرت از سوی پژوهشگران مورد استفاده قرار می‌گیرد. علت این امر آن است که برای استفاده از این روش پژوهشگر نیازمند تسلط به دانش ریاضیات نسبتاً بالایی است. اما خوشبختانه اخیراً نرم افزارهایی وارد بازار شده‌اند که بدون نیاز به دانش ریاضیاتی به پژوهشگران اجازه می‌دهد که از این روش به سادگی استفاده کنند. در حال حاضر تنها دو نرم افزار            توان انجام محاسبات مربوط به این روش را دارند. اساس این روش بر مبنای برآورد خطاهای استاندارد با توجه به مدل تحقیق است.

    نکته قابل توجه در این است که اگرچه در هر چهار روش ذکر شده زمانی که گمشدگی داده‌ها جنبه تصادفی نداشته باشد، پژوهش خواه ناخواه اریب می‌گردد، اما میزان این اریبی در روش نیکویی بیشینه از سایر روشها کمتر است. روش نیکویی بیشینه حتی در حالتی که گمشدگی داده‌ها جنبه تصادفی داشته باشد نیز بهترین روش برای برخورد با مساله داده‌های گمشده می‌باشد.

    بی پاسخی و داده های گمشده در آمارگیری های نمونه ای

     

    همین که نمونه انتخاب شد، تلاشی به عمل می آید تا داده های مطلوب ازهمۀ واحدهای شمارش که در نمونه انتخاب شده اند جمع آوری شود. متأسفانه، به ندرت امکان دارد که در تهیۀ داده های کامل از همۀ واحدهای نمونه گیری شده توفیق حاصل شود. در آمارگیری نمونه ای برای بعضی از واحدها ممکن است اصلاً هیچ اطلاعاتی به دست نیاید و برای واحدهای دیگر ممکن است برای بعضی از اقلام سؤالها، ولی نه همۀ اقلام تعیین شده، اطلاعاتی به دست آید. بی پاسخی ازنوع قبلی را بی پاسخی واحد و از نوع بعدی را بی پاسخی سؤال می نامند.

    بی پاسخی واحد و بی پاسخی سؤال هر دو تهدید عمده ای برای درستی برآوردهای حاصل ازآمارگیریهای نمونه ای محسوب می شوند و اجتناب از هر دو نوع بی پاسخی در نمونه گیری از جامعه ها بسیار مشکل است. در بسیاری از آمارگیریها ممکن است با تلاش بسیار زیاد و صرف منابع هنگفت، نرخ پاسخگویی حتی به 50 % از همۀ واحدهایی برسد که در اصل در نمونه انتخاب شده اند .

    افزایش استفاده از آمارگیریهای نمونه ای طی سالها برای تأمین اطلاعات به منظور تصمیم گیری و سختی فزایندۀ به دست آوردن نرخهای پاسخگویی بالا در آمارگیریهای نمونه ای، منجر به بذل توجه بسیار به این مسئله شده و به ابداع انواع گوناگونی از فنون برای رفتار با بی پاسخی و مقادیر گمشده درآمارگیریهای نمونه ای انجامیده است. در اینجا، دربارۀ اثر بی پاسخی بر درستی برآوردهای حاصل از آمارگیریهای نمونه ای بحث می کنیم و سپس به برخی روشها می پردازیم که برای کاهش بی پاسخی واحد مورد استفاده قرار گرفته اند و بعضی از روشهایی را بررسی می کنیم که برای رسیدگی به داده های گمشده در وضعیتهای بی پاسخی سؤال به کار رفته اند.

    اثر بی پاسخی بر درستی برآوردها

     

    منظور از اجرای بیشتر آمارگیریها آن است که پارامترهای جامعه ای از قبیل میانگینها، مجموعها ونسبتها با بیشترین میزان درستی و قابلیت اعتماد ممکن برآورد شوند. هر یک از شیوه های نمونه گیری می تواند برآوردهایی نااریب (یا دست کم سازگار) از این قبیل پارامترها تهیه کنند، به شرطی که نرخ پاسخگویی به هر سؤال خاص 100 % باشد. واضح است که چنین چیزی به ندرت اتفاق می افتد و بنابراین برآوردهای حاصل، دیگر نااریب نخواهند بود. در واقع، با افزایش نرخ بی پاسخی، مقدار اریبی نیز افزایش خواهد یافت.

    برای بررسی رسمیتر این ایده، تعریفهای زیر را ارائه می کنیم:

     کل تعداد واحدهای شمارش در جامعه

    کل تعداد واحدهای پاسخگوی بالقوه در جامعه

    کل تعداد واحدهای بی پاسخ بالقوه در جامعه ( )

     میانگین سطح مشخصۀ در میان  واحد شمارش بالقوۀ پاسخگو  

     میانگین سطح مشخصۀ در میان  واحد شمارش بالقوه بی پاسخ

      میانگین سطح در میان کل جامعۀ متشکل از N واحد شمارش

    اگر یک نمونۀ تصادفی ساده متشکل از   واحد شمارش انتخاب کنیم و اگر هیچ تلاشی برای گرفتن داده ها از بی پاسخهای بالقوه به عمل نیاوریم، میانگین سطح مشخصۀ  را در واقع به جای مجموع  واحد شمارش پاسخ دهنده برآورد می کنیم. همچنین می دانیم که اگر نمونه متشکل از واحد شمارش  واحد شمارش پاسخگو داشته باشد و اگر  معرف میانگین سطح  در میان این  واحد شمارش پاسخگو باشد، آنگاه مقدار میانگین  از فرمول زیر به دست می آید:

     

  • فهرست و منابع تحقیق مقاله داده های گمشده

    فهرست:

    داده های گمشده. 4

    شیوه های متفاوت در برخورد با مشکل داده‌های گمشده. 4

    بی پاسخی و داده های گمشده در آمارگیریهای نمونه ای.. 6

    اثر بی پاسخی بر درستی برآوردها 7

    آمارگیریهای پستی همراه با مصاحبه با بی پاسخها 9

    مثال تشریحی.. 9

    تعیین کسر بهینۀ بی پاسخهای آغازین برای زیرنمونه در تلاشهای متمرکز. 12

    سازوکارهایی که مقادیر گمشده از آنها ناشی می شود. 13

    گمشده کاملاً تصادفی: 14

    گمشده تصادفی: 14

    مقادیر گمشده غیرقابل چشم پوشی: 14

    انواع روشها برای تحلیل داده ها با وجود مقادیر گمشده. 18

    روشهای مربوط به مورد کامل : 18

    روشهای مبتنی بر جانهی : 19

    روشهای تجدید  وزن دهی: 19

    انواع روش های جانهی.. 20

    جانشین کردن میانگین: 20

    روش بی درنگ: 21

    مثال تشریحی: 22

    مدل رگرسیون لوجستیک با وجود مقادیر گمشده تصادفی در متغیر کمکی.. 24

    زمینه و هدف: 24

    مواد و روش کار: 24

    منابع و مآخذ. 30

     

    منبع:

    ندارد.

ثبت سفارش
عنوان محصول
قیمت