با توجه به مجموعه نمونه ای از مقادیر داده واقعی< x 1 , x 2 , x 3 . x n >ما به طور کلی علاقه مندیم از این نمونه استفاده کنیم تا در مورد جمعیتی که نمونه از آن ترسیم شده است ، استنتاج کنیم. اغلب فرضیاتی در مورد شکل توزیع جمعیت انجام می شود. این فرضیات به طور معمول از تجزیه و تحلیل نمونه ، از جمله ایجاد هیستوگرام داده ها ، نشان می دهد شکل کلی توزیع نمونه و مقایسه این با فرم و پارامترهای مورد انتظار برای توزیع خاص جمعیت ، مانند توزیع عادی یا tتوزیع توزیعفرآیند تولید هیستوگرام نمونه های نقطه را به مقادیر فرکانس در محدوده فاصله ثابت تبدیل می کند. اگر هیستوگرام با تقسیم ارتفاع (فرکانس) هر ستون با اندازه نمونه ، N استاندارد شود ، در این صورت مساحت کل در زیر هیستوگرام به 1 و میله های هیستوگرام فردی برآورد احتمالات در محدوده مورد نظر را نشان می دهد. بنابراین هر نوار چنین اندازه گیری از چگالی متناسب نقاط در محدوده انتخاب شده است. استفاده از یک نوار مستطیل شکل برای نشان دادن توزیع نقاط در محدوده خاص نوعی از هموار سازی موضعی است - تبدیل داده های نقطه در خط واقعی به داده های چگالی در یک بازه. به طور کلی نتیجه صاف نیست ، اما قدم می گذارد.
برآورد چگالی هسته (KDE) روشی است که جایگزینی برای استفاده از هیستوگرام به عنوان ابزاری برای تولید توزیع فرکانس فراهم می کند. این ایده با نگاه کردن به مثال در نمودارهای زیر ساده ترین است. نمودار اول مجموعه ای از 5 رویداد (مقادیر مشاهده شده) را که توسط صلیب مشخص شده است نشان می دهد. آنها در موقعیت های 7 ، 8 ، 9 ، 12 و 14 در امتداد خط اتفاق می افتند. ما می توانیم استدلال کنیم که چگالی نقطه در کل طول خط 20 واحدی 5/20 = 0. 25 امتیاز در طول واحد است و مقدار 0. 25 را به هر بخش اختصاص می دهد ، همانطور که در خط خاکستری نشان داده شده است. این مطابق با یک هیستوگرام با عرض 20 و ارتفاع 0. 25 (یا ارتفاع 0. 05 در صورت استاندارد است ، بنابراین کل اضافه شده به 1). ممکن است به همان اندازه خوب استدلال کنیم که اگر خط کلی را به دو نیمه تقسیم کنیم ، چگالی در نیمه اول باید در طول واحد 0. 3 و بیش از دوم ، 0. 2 در طول واحد باشد تا نشان دهنده تغییر در موقعیت 5 رویداد باشد. این در خط سوم نشان داده شده است و با یک هیستوگرام با دو میله ، هر یک از 10 واحد عرض مطابقت دارد.
داده های نقطه در امتداد خط 20 قطعه توزیع شده است

به وضوح هیچ پاسخ صحیح یا روش واحد برای اختصاص نقاط به کل طول خط وجود ندارد - روشی که ما انتخاب می کنیم به برنامه ای که در نظر داریم بستگی دارد. مشاهدات مهم برای توجه به این مشکل عبارتند از: به نظر می رسد طول خطی که با آن شروع می کنیم تأثیر مهمی بر مقادیر چگالی که به دست می آوریم ، و از آنجا که این ممکن است دلخواه باشد ، برخی از روشها برای از بین بردن وابستگی به طول خط مطلوب است. اگر خط به تکه های گسسته تقسیم شود ، یک وقفه ناگهانی در تراکم (یک مرحله) اتفاق می افتد که مرزهای پارتیشن رخ می دهد ، که اغلب نامطلوب است. بسته به تعداد پارتیشن ها و توزیع نقاط ، مناطق ممکن است حاوی چگالی صفر باشند ، حتی اگر این نوع گسترش نیست که ما به دنبال آن هستیم یا به عنوان معنی دار می دانیم. فرض می شود که این خط مداوم است و ما فرض می کنیم که تخصیص مقادیر چگالی به هر قسمت معتبر است. و در آخر ، اگر پارتیشن های زیادی داشته باشیم ، تمام بخش ها فقط حاوی مقادیر 1 یا 0 خواهند بود که اساساً به جایی است که از آنجا شروع کرده ایم.
این مشاهدات را می توان با درمان هر نقطه در مجموعه اصلی به دست آورد که گویی در یک محدوده پخش شده است ، سپس مناطق همپوشانی را به هم اضافه می کند و بررسی می کند که کل به مقدار اصلی اضافه می شود. به عنوان مثال ، انتخاب هر نقطه و صاف کردن آن بیش از 5 واحد به صورت متقارن یکنواخت ، نتیجه نشان داده شده در نمودار زیر را بدست می آوریم. ردیف های پایین گسترش هر یک از 5 نقطه اصلی را نشان می دهد ، با این که ردیف کل مبلغ (تراکم) را به هر بخش واحد نشان می دهد. این موارد همانطور که باید به 5 اضافه می کنند ، و نمودار نشان می دهد که این توزیع الگوی گسترش را تأیید می کند.
صاف کننده خطی خطی (جعبه یا یکنواخت)

این روش هنوز هم ما را با برخی از مشکلات روبرو می کند: هیچ مقادیر چگالی نسبت به لبه های منطقه خطی ما وجود ندارد. مقادیر چگالی هنوز به طور ناگهانی از یک مقدار به مقدار دیگر پرش می کنند. و مقادیر به طور مساوی در نقاط اولیه پخش می شوند ، در حالی که ممکن است واقع بینانه تر باشد که وزن بیشتری نسبت به مرکز هر نقطه داشته باشد. همه این نگرانی ها را می توان با انتخاب یک عملکرد کاملاً تعریف شده ، صاف و اختیاری بی حد و حصر ، معروف به هسته و استفاده از این برای گسترش مقادیر ، برطرف کرد. عملکردی که اغلب مورد استفاده قرار می گیرد یک توزیع عادی است-همانطور که قبلاً دیدیم ، این یک منحنی زنگ شکل است که در هر جهت به بی نهایت گسترش می یابد ، اما با یک منطقه محدود (واحد) موجود در زیر زنگ. در نمودار زیر ، برای هر مقدار نمونه (7،8،9،12 و 14) ما یک منحنی توزیع عادی با مقدار مرکزی (میانگین) را در نقطه مورد نظر و با یک گسترش متوسط (انحراف استاندارد یا پهنای باند ارائه داده ایم.، ح) از 2 واحد. سپس می توانیم مناطقی را در زیر هر یک از این منحنی ها به هم اضافه کنیم تا یک منحنی (تجمعی) بدست آوریم و سپس این منحنی را به 5 تقسیم کنیم تا ناحیه زیر منحنی به 1 تنظیم شود و منحنی پایین (قرمز) نشان داده شده است. هنگامی که از این طریق تنظیم می شود ، مقادیر اغلب به عنوان یک عملکرد چگالی احتمال تجربی توصیف می شوند و هنگامی که به دو بعد گسترش می یابند ، سطح حاصل به عنوان یک سطح چگالی احتمال تجربی توصیف می شود. اکنون ما برای هر موقعیتی در امتداد خط اصلی ، با انتقال صاف بین مقادیر ، یک مقدار چگالی داریم که دقیقاً همان چیزی است که ما سعی در دستیابی به آن داشتیم.
هموار سازی هسته طبیعی و تراکم تجمعی یک متغیره

هنوز سؤالاتی باقی مانده است: چرا باید از توزیع عادی استفاده کنیم؟آیا نمی توانیم تقریباً از هیچ عملکرد متقارن غیرعادی ، K ، با یک منطقه محدود در زیر آن استفاده کنیم؟و چرا ما مقدار H = 2 واحد را برای پهنای باند انتخاب کردیم؟پاسخ به این سؤالات این است که انتخاب های خاص انجام شده موضوعی انتخاب و تجربه است ، اگرچه در برخی موارد توزیع متقارن با وسعت محدود (به عنوان مثال یک جعبه یا عملکرد مثلثی) ممکن است به عنوان مناسب تر از یک با نامحدود ممکن در نظر گرفته شودوسعت
نمودار بعدی مجموعه ای از توابع متداول را که برای همان مجموعه نقطه ترسیم شده است ، با استفاده از عملکرد جعبه ابزار MATLAB KSDension () نشان می دهد - بیشتر بسته های نرم افزاری توابع مشابهی را ارائه می دهند. همانطور که از بررسی منحنی های مختلف نشان داده شده مشاهده می شود ، شکل دقیق عملکرد هسته تمایل به تأثیر عمده ای بر مجموعه مقادیر چگالی اختصاص داده شده در بخش خطی (یا منطقه در برنامه های 2D) ندارد. تأثیر بسیار بیشتر انتخاب پارامتر گسترش یا پهنای باند است.
توابع تراکم هسته متغیره جایگزین

با بیان این مفاهیم به طور رسمی ، KDE تک متغیره می تواند به عنوان روشی برای برآورد عملکرد یا برآورد چگالی احتمال از مجموعه نمونه ای از مقادیر داده واقعی تعریف شود< x 1 , x 2 , x 3 . x n >از فرم:
جایی که K () یک عملکرد هسته است و H پهنای باند است.
بحث تاکنون به مشکلات در یک بعد (تخمین چگالی تک متغیره) می پردازد. اکنون این روند را به دو بعد گسترش می دهیم. این به سادگی موضوع استفاده از روشهای تک متغیره و اضافه کردن یک بعد دوم (چرخش مؤثر عملکرد هسته در مورد هر نقطه) است. اگر بخواهیم دوباره از توزیع عادی به عنوان عملکرد هسته خود استفاده کنیم ، می تواند یک شکل زنگ دو بعدی به شکل در هر نقطه (یک دوقلو متقارن متقارن) داشته باشد.
مانند گذشته ، ما عملکرد هسته را بیش از هر نقطه در منطقه مورد مطالعه خود قرار می دهیم و مقدار کمک شده توسط آن نقطه را در یک شبکه ریز کشیده محاسبه می کنیم. وضوح شبکه بر شکل سطح حاصل تا حد زیادی تأثیر نمی گذارد ، اما در صورت امکان باید در چارچوب مجموعه داده های مورد تجزیه و تحلیل معنی دار باشد ، از جمله هرگونه خطای مکانی شناخته شده یا گرد که ممکن است اعمال شده باشد ، و کمک هزینه ای برایهر مناطقی که باید از محاسبات حذف شود (به عنوان مثال مناطق صنعتی ، آب ، پارک و غیره هنگام در نظر گرفتن داده های مسکونی). مقادیر کمک شده توسط همه نقاط در هر تقاطع شبکه یا برای هر سلول شبکه پس از آن محاسبه می شوند و به هم اضافه می شوند تا یک سطح چگالی کامپوزیت ارائه شود. مقادیر شبکه حاصل ممکن است به صورت زیر ارائه شود: (i) تراکم نسبی - این مقادیر در رویدادها در هر واحد منطقه را ارائه می دهند (یعنی آنها با اندازه شبکه تنظیم می شوند و به صورت وقایع در هر متر مربع یا در هر هکتار شکل می گیرند).(ب) تراکم مطلق - اینها مقادیر را از نظر وقایع در هر سلول شبکه ارائه می دهند ، و از این رو با اندازه سلول تنظیم نمی شوند. مجموع مقادیر در تمام سلولها باید با تعداد وقایع مورد استفاده در تجزیه و تحلیل برابر باشد. یا (iii) احتمالات - طبق (ii) اما بر اساس تعداد کل وقایع تقسیم می شود. مقادیر چگالی محاسبه شده ممکن است در 2D (به عنوان مثال به عنوان کانتورهای چگالی) یا به عنوان یک سطح سه بعدی (مانند نمودار زیر) ترسیم شود. در این مورد اخیر ، روش چگالی هسته در مجموعه ای از موارد گزارش شده از سرطان ریه در بخشی از لنکشایر ، انگلیس اعمال شده است (این مجموعه داده کاملاً در Diggle (1990 ، [DIG1]) و اخیراً در بددلی و همکاران مورد بحث قرار گرفته است. 2005 ، [BAD1]). نرم افزار مورد استفاده در این مورد Crimestat بود ، با عملکرد هسته معمولی و گسترش متوسط (پهنای باند) از خود الگوی نقطه (با استفاده از میانگین فاصله تا نزدیکترین همسایگان) تعیین شد.
نقشه چگالی هسته ، داده های مورد ریه ، تجسم سه بعدی
جزئیات هر یک از توابع اصلی هسته مورد استفاده در بسته های آماری همانطور که در جدول زیر نشان داده شده است. جدول عملکردهای عادی شده را نشان می دهد ، جایی که فواصل یا مسافت d ij توسط پهنای باند هسته ، H ، یعنی t = d ij / h تقسیم شده است.
پلتفرمهای تجاری...
ما را در سایت پلتفرمهای تجاری دنبال می کنید
برچسب :
نویسنده : حامد بهداد
بازدید : 53
تاريخ : يکشنبه
6 فروردين
1402 ساعت: 12:06