سایت دانلود

یک سایت دیگر با وردپرس فارسی
کامپیوتر (سخت افزار و نرم افزار)

پایان نامه وب¬ کاوی در صنعت -شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی

درنتیجه داده کاوی و OLAP می توانند همدیگر را تکمیل کنند و تحلیل گر می تواند به وسیله ابزار OLAP یک سری اطلاعات کسب کند که در مرحله داده کاوی می تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده کاوی می تواند درست نباشد که با اعمال تغییرات در آنها می توان به وسیله OLAP بیشتر بررسی شوند.

2-7 کاربرد یادگیری ماشین و آمار در داده کاوی

داده کاوی از پیشرفت هایی که در زمینه هوش مصنوعی و آمار رخ می دهد بهره می گیرد . هر دو این زمینه ها در مسائل شناسایی الگو و طبقه بندی داده ها کار می کنند و بالتبع در داده کاوی استفاده مستقیم خواهند داشت و هر دو گروه در شناخت و استفاده از شبکه های عصبی و درخت‌های تصمیم گیری فعال می باشند.

داده کاوی جانشین تکنیک های آماری سابق نمی باشد بلکه وارث آنها بوده و در واقع تغییر و گسترش تکنیک های سابق برای متناسب ساز ی آنها با حجم داده ها و مسائل امروزی می باشد. تکنیک های کلاسیک برای داده های محدود و مسائل ساده مناسب بوده اند حال آنکه با پیچیده شدن مسائل و رشد روزافزون داده ها نیاز به تغییر آنها کاملا طبیعی است.به عبارت دیگر داده کاوی ترکیب تکنیک های کلاسیک با الگوریتم های جدید مثل شبکه های عصبی و درخت تصمیم گیری می باشد.

مهمترین نکته این است که داده کاوی راهکاری است برای مسائل تجاری امروز به کمک تکنیک های آماری و هوش مصنوعی برای افراد حرفه ای که قصد دارند یک مدل پیش بینی ایجاد نمایند.

2-8 توصیف داده ها در داده کاوی

2-8-1 خلاصه سازی و به تصویر در آوردن داده ها

قبل از اینکه بتوان روی مجموعه ای از داده ها ،داده کاوی انجام بدهیم و یک مدل پیش بینی مناسب ابجاد کنیم ، باید بتوان داده ها را به خوبی شناخت که برا ی شروع این کار می توان از پارامترهایی مثل میانگین , انحراف معیار و…. استفاده کنیم.

ابزارهای تصویرسازی داده ها و گراف سازی برای شناخت داده ها بسیار مفید می باشند و نقش آنها در آماده سازی داده ها بسیار مفید و غیر قابل انکار است ، مثلا با استفاده از این ابزار می توان توزیع مقادیر مختلف داده ها را در یک نمودار مشاهده کرد و میزان داده های دارای خطا را به طور تقریبی حدس زد.

مهمترین مشکل این ابزار این است که معمولا تحلیل ها دارای تعداد زیادی پارامتر هستند که به هم مربوطند و باید ارتباط این پارامترها را که چند بعدی می باشد در دو بعد نمایش دهند که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره می باشد.

2-8-2 خوشه بندی

هدف از خوشه بندی این است که داده های موجود را به چند گروه تقسیم کنند و در این تقسیم بندی داده های گروه های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و داده های موجود در یک گروه باید بسیار به هم شبیه باشند .

برخلاف کلاس بندی (که در ادامه خواهیم دید) در خوشه بندی ، گروه ها از قبل مشخص نمی باشند و همچنین معلوم نیست که بر حسب کدام خصوصیات گروه بندی صورت می گیرد. درنتیجه پس از انجام خوشه بندی باید یک فرد خبره خوشه های ایجاد شده را تفسیر کند و در بعضی مواقع لازم است که پس از بررسی خوشه ها بعضی از پارامترهایی که در خوشه بندی در نظر گرفته شده اند ولی بی ربط بوده یا اهمیت چندانی ندارند حذف شده و جریان خوشه بندی از اول صورت گیرد.

پس از اینکه داده ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می توان برای کسب اطلاعات در مورد داده ها یا تقسیم داده ها جدید استفاده کنیم.

از مهمترین الگوریتم هایی که برای خوشه بندی استفاده می شوند می توان Kohnen و الگوریتم K-means را نام برد.

2-8-3 تحلیل لینک

تحلیل داده ها یکی از روش های توصیف داده هاست که به کمک آن داده ها را بررسی کرده و روابط بین مقادیر موجود در بانک اطلاعاتی را کشف می کنیم.از مهمترین راههای تحلیل لینک کشف وابستگی و کشف ترتیب می باشد.

منظور از کشف وابستگی یافتن قوانینی در مورد مورادی است که با هم اتفاق می افتند مثلا اجناسی که در یک فروشگاه احتمال خرید همزمان آنها زیاد است.

کشف ترتیب نیر بسیار مشابه می باشد ولی پارامتر زمان نیز در آن دخیل می باشد.

وابستگی ها به صورت A->B نمایش داده می شوند که به A مقدم و به B موخر یا نتیجه گفته می‌شود. مثلا اگر یک قانون به صورت زیر داشته باشیم :

” اگر افراد چکش بخرند آنگاه آنها میخ خواهند خرید “

در این قانون مقدم خرید چکش و نتیجه خرید میخ می باشد.

2-9 مدل های پیش بینی داده ها

2-9-1 دسته بندی

در مسائل دسته بندی هدف شناسايی ويژگيهايی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از اين الگو می­توان هم برای فهم داده­های موجود و هم پيش­بينی نحوه رفتار مواد جديد استفاده کرد.

داده­کاوی مدلهای دسته بندی را با بررسی داده­های دسته­بندی شده قبلی ايجاد می­کند و يک الگوی پيش­بينی کننده را بصورت استقرايی می­يابند. اين موارد موجود ممکن است از يک پايگاه داده تاريخی آمده باشند.

2-9-2 رگرسیون

رگرسیون از مقادير موجود برای پيش­بينی مقادير ديگر استفاده می­کند. در ساده­ترين فرم، رگرسیون از تکنيک­های آماری استاندارد مانند linear رگرسیون استفاده می­کند. متاسفانه، بسياری مسائل دنيای واقع تصويرخطی ساده­ای از مقادير قبلی نيستند. بناراين تکنيک­های پيچيده‌تری (logistic رگرسیون، درخت­های تصميم، يا شبکه­های عصبی) ممکن است برای پيش‌بينی مورد نياز باشند.

انواع مدل يکسانی را می­توان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوريتم درخت تصميم CART را می­توان هم برای ساخت درخت­های دسته بندی و هم درخت­های رگرسیون استفاده کرد. شبکه­های عصبی را نيز می­توان برای هر دو مورد استفاده کرد.

2-9-3 سری های زمانی

پيش­بينی های سری های زمانی مقادير ناشناخته آينده را براساس يک سری از پيش­بينی گرهای متغير با زمان پيش­بينی می­کنند. و مانند رگرسیون، از نتايج دانسته شده برای راهنمايی پيش­بينی خود استفاده می­کنند. مدلها بايد خصوصيات متمايز زمان را در نظر گيرند و بويژه سلسله­مراتب دوره­ها را.

2-10 مدل ها و الگوریتم های داده کاوی

در این بخش قصد داریم مهمترین الگوریتم ها و مدل های داده کاوی را بررسی کنیم. بسیاری از محصولات تجاری داده کاوی از مجموعه از این الگوریتم ها استفاده می کنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند وبرای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسب ترین محصول توسط گروه متخصص در نظر گرفته شود.

نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به داده‌ها و کارایی مورد نظر باید مدل انتخاب گردد.

2-10-1 شبکه های عصبی

شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی مسائل پیچیده و بزرگ که شامل صدها متغیر هستند می باشد. شبکه های عصبی می توانند برای مسائل کلاس بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند.

هر شبکه عصبی شامل یک لایه ورودی [1]می باشد که هر گره در این لایه معادل یکی از متغیرهای پیش بینی می باشد. گره های موجود در لایه میانی وصل می شوند به تعدادی گره در لایه نهان[2]. هر گره ورودی به همه گره های لایه نهان وصل می شود.

گره های موجود در لایه نهان می توانند به گره های یک لایه نهان دیگر وصل شوند یا می توانند به لایه خروجی [3]وصل شوند.

لایه خروجی شامل یک یا چند متغیر خروجی می باشد.

شكل(2-6) شبکه عصبی با یک لایه نهان

هر یال که بین نود های X,Y می باشد دارای یک وزن است که با Wx,y نمایش داده می شود. این وزن ها در محاسبات لایه های میانی استفاده می شوند و طرز استفاده آنها به این صورت است که هر نود در لایه های میانی (لایه های غیر از لایه اول) دارای چند ورودی از چند یال مختف می باشدکه همانطور که گفته شد هر کدام یک وزن خاص دارند.

هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب می کند و حاصل این ضرب ها را با هم جمع می کند و سپس یک تابع از پیش تعیین شده (تابع فعال سازی) روی این حاصل اعمال می کند و نتیجه را به عنوان خروجی به نودهای لایه بعد می دهد.

وزن یال ها پارامترهای ناشناخته ای هستند که توسط تابع آموزش [4]و داده های آموزشی که به سیستم داده می شود تعیین می گردند.

[1]Input Layer

[2] Hidden Layer

[3] Output Layer

[4]Training method

متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی پایان نامه

دسته پایان نامه های رشته کامپیوتر

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *