داده های سانسور شده

دانلود پایان نامه

می گیرد.
۳- وقتی تعداد افراد یا شرکت های تحت مطالعه کم باشد (معمولا کمتر از ۳۰) استفاده از جدول طول عمر (به دلیل گروهبندی بازه های زمانی) منجر به از دست دادن اطلاعات خواهد شد.

۳-۵-۲- روش برآورد کننده حد محصول
نخستین گام در تجزیه و تحلیل داده های بقاء ارائه عددی و نموداری آن هاست. مرسوم است که داده های بقاء را با تابع بقاء و نرخ هازارد خلاصه نمایند. بنابراین وقتی داده های بقاء از هیچ روش تئوری مشخصی پیروی نمی کند از روش های ناپارامتری برای تحلیل بقاء استفاده می کنیم. یکی از روش ها برای برآورد ناپارامتریک تابع بقا و مشتقات آن، روش حد محصول معروف به کاپلان- مایر است.
اگر برخی از شرکت ها در پایان دوره مطالعه هنوز زنده باشند (یعنی داده های سانسور شده) داشته باشیم از روش کاپلان مایر استفاده می کنیم. مزیتی که این روش در مقایسه با روش جدول عمر دارد این است که لازم نیست طول عمرها در فواصل زمانی گروه بندی شوند به همین دلیل این روش در مطالعاتی که روی تعداد کمی از شرکت ها باشد، مناسب است و برای نمونه های کوچک که زمان وقوع حوادث به دقت ثبت و اندازه گیری می شود بسیار مفید است. همچنین این روش تعداد محاسبات کمتری نسبت به جدول عمر دارد.
مبنای برآورد کننده حد محصول بر اساس محاسبه یک مجموعه ریسک در هر نقطه از زمان است که حداقل یک رویداد اتفاق افتاده باشد. بدین صورت اطلاعات موجود در مجموعه ای از اپیزودها بصورت بهینه مورد استفاده قرار می گیرند. تنها عیب این روش از آنجا ناشی می شود که همه اپیزودها باید بر اساس زمان های پایان و آغازشان مرتب شوند ولی با الگوریتم کارآمد مرتب سازی، این روش برای مجموعه اپیزودهای کاملاً بزرگ هم قابل استفاده است.
۳-۵-۲-۱- انتقالات واحد۷۸
ما نمونه ای شامل N اپیزود را در نظر می گیریم که همه آنها دارای وضعیت مبدأ ومقصد یکسانی بوده یا سانسور از راست هستند. اگر گروه ها تعریف شوند فرض می شود که همه اپیزودها به یک گروه تعلق دارند. در اینجا فرض می کنیم که همه اپیزودها دارای زمان آغاز صفر هستند.
برای محاسبه برآورد کننده حد محصول قدم اول در نظر گرفتن نقاطی در زمان است که حداقل یک اپیزود توسط یک رویداد خاتمه می یابد. مثلاً تعداد نقطه بدین صورت در زمان وجود دارد:

با این فرض برآورد کننده حد محصول تابع بقا، از نظر ریاضی به صورت زیر تعریف می شود:

پارامترهای آن به صورت زیر تعریف می شوند:
نشان دهنده تعداد اپیزودهایی است که در با رویداد مواجه می شوند.
تعداد اپیزودهای موجود در مجموعه ریسک در می باشد یعنی تعداد اپیزودهایی که دارای زمان آغاز کمتر از و زمان پایان بزرگتر مساوی هستند.
توجه داشته باشید که تعریف بیان شده درباره مجموعه ریسک، امکان اداره کردن اپیزودهایی با زمانهای آغاز بزرگتر از صفر را می دهد. همچنین در نظر داشته باشید که مجموعه ریسک در شامل اپیزودهای سانسور شده در این نقطه از زمان نیز می باشد. فرض می شود که اپیزودهای سانسور شده شامل اطلاعاتی هستند که تا زمان مشاهده رویدادی اتفاق نیفتاده است. (بلاسفیلد و واور۷۹،۲۰۰۲)
فرمولی که معمولاً برای محاسبه برآورد خطای استاندارد تابع بقا استفاده می شود عبارت است از:

همچنین روش حد محصول، علاوه بر برآورد تابع بقا، یک برآورد ساده از نرخ انتقال تجمعی بصورت زیر ارائه می دهد که یک تابع مرحله ای است که برای بررسی گرافیکی مفروضات درباره توزیع طول عمرها مفید است:

۳-۶- مقایسه توابع بقا
در تجزیه وتحلیل داده های تاریخی- رویدادی، مقایسه توابع بقا و بررسی تفاوت معنی دار بین آنها انجام می شود. برای اینکار ۲ روش وجود دارد. اول، محاسبه فاصله های اطمینان برای هر کدام از توابع بقا و سپس تست کردن اینکه آیا آنها هم پوشانی دارند یا نه. که این روش در هر دو روش جدول عمر و برآورد کننده حد محصول امکان پذیر است. هر دو روش، برآوردهای خطای استاندارد را برای توابع بقا محاسبه می کنند. روش دوم، محاسبه آماره های خاصی برای مقایسه ۲ یا چند تابع بقا است(بلاسفیلد و واور،۲۰۰۲).
در این تحقیق نیز برای آزمون فرضیه های سوم تا ششم تحقیق، با تعریف متغیر های موهومی۸۰ برای متغیر درجه نوآروی در صنعت، نرخ ورود به صنعت، شدت سرمایه و نرخ رشد صنعت مقایسه ای بین توابع بقای آنها صورت می گیرد.

۳-۶-۱- روش اول: تعریف گروه های اپیزودها
برای انجام هر مقایسه ای، باید ۲ یا چند گروه اپیزود وجود داشته باشد. این امر به آسانی با استفاده از متغیر شاخصی که مشخص کننده عضویت در یک گروه می باشد صورت می گیرد. در TDA دستور به صورت زیر است: grp=G1,G2,G3,…. که در آن G1 و G2 و….. اسامی متغیرهای موجود در ماتریس داده ها هستند. در نتیجه مجموعه اپیزودهای داده شده در ماتریس داده ها به m گروه تفکیک می شوند که m تعداد متغیرهای شاخص تعریف شده توسط پارامتر grp در دستور ple می باشد.
گروه اول که با G1 تعریف شده شامل همه اپیزودهایی است که در آنها مقدار این متغیر غیر صفر است، گروه دوم با استفاده از G2 به همین صورت تعریف می شود و… بنابر این برای هر کدام از گروه ها، یک برآورد حد محصول بطور جداگانه انجام می شود. و فایل خروجی دارای m جدول، هر کدام برای هر یک از گروه ها خواهد بود.( بلاسفیلد و واور،۲۰۰۲)

۳-۶-۲- روش دوم: تشکیل آماره های آزمون
آماره های آزمون متفاوتی برای مقایسه ۲ یا چند تابع بقا وجود دارد. ۴ مورد از آماره هایی را
که توسط TDA قابل محاسبه هستند عبارتند از:
۱-
۲-
۳-
۴-
همه این آماره ها بر اساس برآوردهای حد محصول توابع بقا هستند. چگونگی محاسبه این آماره ها در زیر توضیح داده می شود.
فرض می کنیم که m گروه جدا از هم وجود دارد. کل نمونه به صورت مجموعه ای از کل اپیزودها تعریف می شود که هر کدام از این اپیزودها در یکی از این گروه ها قرار می گیرند. سپس به روشی کاملاً شبیه آنچه در روش حد محصول توضیح داده شد، همه محاسبات بطور مجزا برای هر انتقال در کل نمونه انجام می شود. بنابراین ما فقط نمونه ای از اپیزودها را در نظر می گیریم که دارای وضعیت مبدأ و مقصد یکسان بوده یا منقطع(سانسور شده) باشند.
بطور کلی نمونه ای که بدین صورت تعریف شده شامل m گروه بوده و جدول زیر قابل محاسبه خواهد بود.

اینها مقادیر اصلی برآورد حد محصول برای کل نمونه می باشد که برای هر گروه بطور جداگانه محاسبه می شود.
نقاطی در زمان هستند که حداقل برای یکی از اپیزودهای موجود در نمونه رویدادی اتفاق افتاده باشد. تعداد اپیزوهای موجود در گروه است که در رویدادی برای آنها اتفاق افتاده است. تعداد عناصر مجموعه ریسک در برای اپیزودهای موجود در گروه می باشد.(یعنی همه گروه های متعلق به گروه که زمان آغاز کمتر از و زمان پایان بزرگتر یا مساوی دارند) روی هم رفته، این مقادیر برای یک برآورد حد محصول در هر یک از m گروه کافی است.
با این فرض، ۴ آماره آزمون را می توان تعریف کرد و آنها بر دلالت می کنند. از آنجایی که محاسبات فقط در وزن های مختلف باهم فرق می کنند، ما ابتدا تعاریف آنها را بیان می کنیم. وزن ها شامل بوده و برای به صورت زیر تعریف می شوند:

قدم بعدی این است که برای هر یک از ۴ آماره آزمون یک بردار m (m-vector)، و یک ماتریس (m,m)، بسازیم. تعاریف آنها به صورت زیر است:

و در نهایت آماره آزمون بصورت زیر تعریف می شود:

همه آنها از یک توزیع کای دو با درجه آزادی پیروی می کنند با این فرض صفر که تفاوت معنی داری بین توابع بقا وجود ندارد. توجه داشته باشید که به همین قرار، رتبه فقط است. بنابراین در محاسبه ارتباط می توان از یک معکوس کلی استفاده کرد یا بُعد آخر را حذف کرد بدون اینکه عمومیت آن از بین برود.( بلاسفیلد و واور،۲۰۰۲)

۳-۷- مدل های نیمه پارامتریک
مدل های با نرخ انتقال وابسته به زمان بر مبنای مفروضات پارامتریک خاصی درباره توزیع طول عمرها استوار بوده و برآوردهای صریح حداکثر احتمال۸۱ را امکان پذیر می سازد. در این مدل ها، زمان بطور نرمال به عنوان یک متغیر پروکسی برای یک عامل علّی ناپیدا عمل می کند که اندازه گیری مستقیم آن مشکل است.
در اکثر کاربردها مشکل این است که نظریه های موجود در علوم اجتماعی، حداقل در آن سطحی که تاکنون توسعه یافته اند، به ندرت استدلال های قوی برای یک مدل پارامتریک خاص ارائه می کنند. بنابراین استفاده از این مدل ها باید با حداکثر احتیاط صورت گیرد. به نظر می رسد برآورد ویژگی های مختلف مدل و مقایسه نتایج آنها یک استراتژی مناسب باشد. هرچند این به یک مشکل دیگر منجر خواهد شد و آن اینکه مناسب بودن مدل های مختلف پارامتریک وابسته به زمان را فقط با روشها و ابزارهای ابتکاری می توان ارزیابی کرد. با اینکه این تست های زیبایی برازش ممکن است اشاره کنند که چه نوع مدل هایی ممکن است برتر باشند، با این حال آنها نمی توانند به عنوان یک تست قوی برای حمایت از یک مدل پارامتریک خاص عمل کنند. بنابراین یک استراتژی جالب جایگزین این است که فقط تابعی برای تأثیر متغیرهای مستقل مشخص شود و شکل نرخ انتقال کنار گذاشته شود. چنین مدل هایی به مدل های نیمه پارامتریک معروفند.
مدل نیمه پارامتریکی که مورد استفاده قرار گرفته است مدل هازارد نسبی است که توسط کوکس۸۲ (۱۹۷۲) پیشنهاد شده است. از زمانی که کوکس این مدل را ارائه کرده است نقش اساسی را در تحلیل بقاء ایفا کرده است. این مدل فرض می کند که میزان مخاطره حاصلضربی از تابع نامشخص از زمان مشترک برای همه ی واحدهای مطالعه در تابع پیوند معلوم از ترکیب خطی متغیرهای کمکی است. مدل کوکس یک مدل استوار است. بنابراین با وجود نامشخص بودن توزیع تابع خطر پایه، برآوردهای ضرایب رگرسیونی و سایر نتایج به دست آمده از این مدل بسیار نزدیک به مدل های پارامتری می باشد. بنابراین حتی زمانی که تابع خطر پایه در دست اما مشکوک است استفاده از رگرسیون کوکس منطقی و قابل اطمینان است (روشنی،۱۳۹۰). مدل کوکس بر اساس رویکرد مدلسازی برای تجزیه و تحلیل داده های بقا است. هدف از این مدل آن است که به طور همزمان اثرات متغیرهای متعدد بر بقا را بررسی کند. مدل کوکس یک روش آماری است که برای تجزیه و تحلیل داده های بقا به رسمیت شناخته شده است ( والترز، ۲۰۰۹).
این مدل به صورت زیر تعریف می شود:

نرخ انتقال تابعی است از یک نرخ مبنای نامعین و یک اصطلاح دوم که مشخص کننده اثرات امکان پذیر برداری از متغیرهای مستقل۸۳ در نرخ انتقال می باشد.
بکارگیری مدل Cox در TDA بر مبنای فرمول زیر می باشد:

که در آن نرخ انتقال در زمان از وضعیت مبدأ به وضعیت مقصد می باشد. نرخ مبنای نامعین برای همان انتقال بوده و یک بردار سطری از متغیرهای مستقل است که برای انتقال از به مشخص شده است. برداری از ضرایب مربوطه می باشد. متغیرهای مستقل می توانند مقادیر وابسته به زمان داشته باشند.(بلاسفیلد و واور،۲۰۰۲).

۳-۸- مدل مفهومی و متغیرهای توضیحی

شکل۳-۱- مدل مفهومی تحقیق

متغیرهایی که در این تحقیق مورد استفاده قرار گرفته اند به صورت زیر تعریف می شوند:
۱- اندازه شرکت: در بعضی مطالعات نقش اساسی در بقاء یا شکست یک بنگاه را اندازه اولیه بنگاه دانسته اند و نشان می دهد بین اندازه بنگاه و رشد یا شکست ارتباط وجود دارد، در این تحقیق اندازه شرکت توسط تعداد کارکنان سنجیده می شود.
۲- سرمایه اولیه: سرمایه اولیه لازم برای احداث یک بنگاه عامل تعیین کننده و مهم در خروج یک بنگاه می باشد. در این تحقیق، سرمایه اولیه به صورت سرمایه ثابت و سرمایه در گردش شرکت در زمان تأسیس و یا تأمین مالی از طریق وام تعریف میشود.
۳- درجه نوآوری در صنعت: نوآوری عامل مهمی در بقای سازمان ها در محیط پر رقابت کنونی می باشد و نقش مهمی در افزایش احتمالی حیات بنگاه ها دارد. از آنجا که نوآوری برای بنگاه های جوانتر تأثیر حیاتی تری دارد در این تحقیق نیز به عنوان یکی از متغیرهای مستقل بکار برده شد. این متغیر توسط تعداد محصولات جدیدی که به بازار عرضه می شود سنجیده می شود.
۴- نرخ ورود به صنعت: برابر با تعداد پروانه های صادر شده در بازه زمانی مورد نظر و در صنعت مورد مطالعه می باشد، به عبارت دیگر زمان دریافت پروانه بهره برداری را تاریخ ورود هر شرکت به صنعت مورد مطالعه در نظر گرفته شده است.
۵- شدت سرمایه: کمبود سرمایه یکی از عوامل اصلی گرفتار شدن بسیاری از کشورها در چرخه باطل فقر است. اگر دولتها نتوانند به گونهای مناسب به منابع مالی دسترسی یابند، فعالیّتهای اقتصادی آنها در راستای رشد وتوسعه با دشواری روبرو خواهد شد. شدت سرمایه گذاری در واقع یک مانع برای خروج بنگاه ها به شمار می رود و انتظار می رود ارتباط منفی با خروج داشته باشد. شدت سرمایه در این تحقیق، میزان سرمایه شرکت های موجود در صنایع برق و الکترونیک استان مازندران به ازای هریک از کارکنان آنها می باشد.
۶- نرخ رشد صنعت: رشد یک صنعت بر عملکرد تک تک شرکتهای عضو آن صنعت تأثیرگذار است و برای بنگاه های بالقوه برای ورود فرصت های مناسبی را جهت ورود و فعالیت در صنعت فراهم می نمایند. در این تحقیق نرخ رشد صنعت به معنی میانگین نرخ رشد سالیانه صنعت می باشد که قرار بر این بود براساس نرخ رشد فروش اندازه گیری شود، با توجه به در دسترس نبودن اطلاعات مربوط به فروش شرکت ها، معیار سنجش آن را تغییر داده شد و بر اساس میزان رشد استخدام

Leave a comment