دانلود پایان نامه وب¬ کاوی در صنعت

احتمال اتفاق نیفتادن پیشامد/ احتمال اتفاق افتادن پیشامد و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط بندی ها یه موارد مشابه به کار می رود .مثلا وقتی می گوییم شانس بردن یک تیم در مسابقه ۳ به ۱ است در واقع از همین نسبت استفاده کرده و معنی آن این است که احتمال برد آن تیم ۷۵% است.

وقتی که ما موفق شدیم لگاریتم احتمال مورد نظر را بدست آوریم با اعمال لگاریتم معکوس می توان نسبت مورد نظر و از روی آن کلاس مورد نظر را مشخص نمود.

۲-۱۰-۷ تحلیل تفکیکی

این روش از قدیمی ترین روش های ریاضی وار گروه بندی داده ها می باشد که برای اولین بار در سال ۱۹۳۶ توسط فیشر استفاده گردید. روش کار بدین صورت است که داده ها را مانند داده های چند بعدی بررسی کرده و بین داده ها مرزهایی ایجاد می کنند (برای داده ها دو بعدی خط جدا کننده، برای داده های سه بعدی سطح جدا کننده و ..) که این مرزها مشخص کننده کلاس های مختلف می باشند و بعد برای مشخص کردن کلاس مربوط به داده های جدید فقط باید محل قرارگیری آن را مشخص کنیم.

این روش از ساده ترین و قابل رشدترین روش های کلاس بندی می باشد که در گذشته بسیار استفاده می شد.

این روش به سه دلیل محبوبیت خود را از دست داد :اول اینکه این روش فرض می کند همه متغیرهای پیش بینی به صورت نرمال توزیع شده اند که در بسیاری از موارد صحت ندارد . دوم اینکه داده هایی که به صورت عددی نمی باشند مثل رنگها در این روش قابل استفاده نمی باشند. سوم اینکه در این روش فرض می شود که مرزهای جدا کننده داده ها به صورت اشکال هندسی خطی مثل خط یا سطح می باشند حال اینکه این فرض همیشه صحت ندارد.

نسخه های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده اند به این طریق اجازه می دهند مرزهای جدا کننده بیشتر از درجه ۲ نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می گردد.

۲-۱۰-۸ مدل افزودنی کلی (GAM)

این روش ها در واقع بسطی بر روش های رگرسیون خطی و رگرسیون منطقی می باشند. به این دلیل به این روش افزودنی می گویند که فرض می کنیم می توانیم مدل را به صورت مجموع چند تابع غیر خطی (هر تابع برای یک متغیر پیش بینی کننده) بنویسیم. GAM می تواند هم به منظور رگرسیون و هم به منظور کلاس بندی داده ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می شود که این روش نسبت به روشهای رگرسیون خطی بهتر باشد.

۲-۱۰-۹ Boosting

در این روش ها مبنی کار این است که الگوریتم پیش بینی را چندین بار و هر بار با داده های آموزشی متفاوت (که با توجه به اجرای قبلی انتخاب می شوند) اجرا کنیم و در نهایت آن جوابی که بیشتر تکرار شده را انتخاب کنیم. این روش اگر چه وقت گیر است ولی جواب های آن مطمئن تر خواهند بود. این روش اولین بار در سال ۱۹۹۶ استفاده شد و در این روزها با توجه به افزایش قدرت محاسباتی کامپیوترها بر مقبولیت آن افزوده گشته است.

۲-۱۱ سلسله ­مراتب انتخاب­ها

هدف داده­کاوی تولید دانش جدیدی است که کاربر بتواند از آن استفاده کند. این هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آید. نتیجه ساخت این مدل توصیفی از الگوها و روابط داده­هاست که می­توان آنرا برای پیش­بینی استفاده کرد. سلسه انتخاب­هایی که قبل از آغاز باید انجام شود به این شرح است:

  • هدف تجاری
  • نوع پیش­بینی
  • نوع مدل
  • الگوریتم
  • محصول

در بالاترین سطح هدف تجاری قرار دارد: هف نهایی از کاوش داده­ها چیست؟ برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسایی مشتری­هایی که ممکن از دست دهیم می­سازیم. اطلاع از اهداف و نیازهای سازمان ما را در فرموله کردن هدف سازمان یاری می­رساند.

مرحله بعدی تصمیم­گیری درباره نوع پیش­بینی مناسب است: دسته بندی ، پیش­بینی اینکه یک مورد در کدام گروه یا رده قرار می­گیرد یا رگرسیون، پیش­بینی اینکه یک متغیر عددی چه مقداری خواهد داشت.

مرحله بعدی انتخاب نوع مدل است: یک شبکه عصبی برای انجام رگرسیون ،و یک درخت تصمیم برای دسته بندی. همچنین روشهای مرسوم آماری برای مانند logistic رگرسیون، discriminant analysis، و یا مدلهای خطی عمومی وجود دارد.

الگوریتم­های بسیاری برای ساخت مدلها وجود دارد. می­توان یک شبکه عصبی را با backpropagation، یا توابع radial bias ساخت. برای درخت تصمیم، می­توان از میان CART، C5.0، Quest، و یا CHAID انتخاب کرد.

هنگام انتخاب یک محصول داده­کاوی، باید آگاه بود که معمولا پیاده­سازیهای متفاوتی از یک الگوریتم دارند. این تفاوت­های پیاده­سازی می­تواند بر ویژگیهای عملیاتی مانند استفاده از حافظه و ذخیره داده و همچنین ویژگیهای کارایی مانند سرعت و دقت اثر گذارند.

در مدلهای پیشگویانه، مقادیر یا رده­هایی که ما پیش­بینی می­کنیم متغیرهای پاسخ، وابسته، یا هدف نامیده می­شوند. مقادیری که برای پیش­بینی استفاده می­شوند متغیرهای مستقل یا پیش­بینی­کننده نامیده می­شوند.

مدلهای پیشگویانه با استفاده از داده­هایی که مقادیر متغیرهای پاسخ برای آنها از قبل دانسته شده است ساخته یا آموزش داده می­شوند. این نحوه آموزش supervised learning نامیده می­شود، زیرا که مقادیر محاسبه شده یا تخمین­زده شده با نتایج معلومی مقایسه می­شوند.( در مقابل، تکنیک­های توصیفی مانند clustering، unsupervised learning نامیده می­شوند زیرا که هیچ نتیجه از پیش معلومی برای راهنمایی الگوریتم وجود ندارد.)

 ۲-۱۲داده کاوی و مدیریت بهینه وب سایت ها

هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و… برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.

سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.

یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را  در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.

۲-۱۳داده‌کاوی و مدیریت دانش

اگر چه دانش به طور انحصاری محصول فناوری اطلاعات نیست، ولی فناوری اطلاعات به طور لاینفکی در ایجاد دانش و فرآیند مدیریت دانش از سال های اول مشارکت داشته است. امروزه مدیریت دانش از مسئولیت های فناوری اطلاعات به شمار می‌رود. زیرا در جمع‌آوری، تبدیل دانش و انتقال داده‌ها، اطلاعات و دانش نقش کلیدی دارد.

از منظر مدیریت دانش‌، هدف داده‌کاوی، کشف دانش سازمانی پنهان در اطلاعات خام است. اینگونه نیست که هر بینش حاصل از داده‌کاوی دانش می‌سازد، بلکه در عوض بسیاری از نتایج به دست آمده، اطلاعات مدیریت، یا هوش سازمانی است. مثلاً در سازمان‌های تجاری، دانش با ارزش

مورد مشتری، محصول و بازار را می‌توان از طریق داده‌کاوی به دست آورد. داده‌کاوی ابزار مفیدی برای مدیران دانش است که کشف را با تحلیل تلفیق می‌کنند. تلفیقی که اغلب منجر به ایجاد دانش می‌شود.

فصل سوم
وب کاوی

 

 

 

 

 

 

 

 

 

 

۳-۱ تعریف وب کاوی

وب کاوی کاربردی از تکنیکهای داده کاوی است که به صورت خودکار اطلاعات را از مستندات وب و سرویسها استخراج و کشف می کند. وب کاوی اغلب به بازیابی و استخراج اطلاعات وابسته است، در حالیکه کشف اطلاعات یا وب کاوی بازیابی و استخراج اطلاعات نیست. هسته اصلی موتورهای جستجو از  معماری سیستم های بازیابی اطلاعات سرچشمه می گیرد. ماهیت پویای اطلاعات در شبکه وب باعث ایجاد تغییرات اساسی در ساختار اولیه در موتورهای جستجو شده است. در سیستم های بازیابی اطلاعات، اسناد و مدارک توسط اشخاص جمع آوری می شدند و در اختیار سیستم قرار می گرفتند، در حالی که در موتورهای جستجو وظیفه جمع آوری اطلاعات به عهده خود موتور جستجو است.

علاوه بر آن به علت تغییرات صفحات وب، موتور جستجو وظیفه به روزرسانی اطلاعات جمع آوری شده را نیز خواهد داشت. یکی از مهمترین مسائل در طراحی موتورهای جستجو مساله کارائی و بازده بالای موتور جستجو است. حجم بالای اطلاعات موجود در شبکه وب و تغییرات سریع اطلاعات در این شبکه (از قبیل اضافه شدن صفحات جدید، حذف شدن برخی از صفحات و تغیر محتویات صفحات) حساسیت این امر را بسیار زیاد می کند. به عنوان مثال سرعت جمع آوری و سازماندهی اسناد در پایگاه دانش موتور جستجو، باید بیشتر از نرخ تغییرات شبکه وب باشد. دراین مقاله به بررسی ساختار وب کاویپرداخته می شود.

۳-۲ مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

  1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
  2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
  3. تعمیم[۱]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می شود.
  4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[۲] و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[۳]، حذف کلمات زائد[۴]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه اییا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها(KDD[5]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

۳-۳ وب کاوی و زمینه های تحقیقاتی مرتبط

وب کاوی با زمینه های مختلف تحقیقاتی علوم کامپیوتر همچون داده کاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار داده ها[۶]، طراحی واسط کاربر در ارتباط تنگاتنگ است.

در این بخش ارتباط این زمینه تحقیقاتی با برخی از زمینه های مرتبط بررسی می شود.

۳-۳-۱ وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

  • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب،داده ها عموما غیر ساخت یافته هستند.
  • جمع آوری و مدیریت داده ها در وب دشوار است.

[۱] Generalization

[۲] Validation

[۳] Stemming

[۴] Stop Words

[۵] Knowledge Discovery in Data Base

[۶] Data Warehouse

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

پایان نامه وب¬ کاوی در صنعت

تعداد گره ها و تعداد لایه های نهان و نحوه وصل شدن گره ها به یکدیگر معماری (توپولوژی) شبکه عصبی را مشخص می کند. کاربر یا نرم افزاری که شبکه عصبی را طراحی می کند باید تعداد نودها ، تعداد لایه های نهان ، تابع فعال سازی و محدودیت های مربوط به وزن یال ها را مشخص کند.

شکل(۲-۷) Wx,y وزن یال بین X و Y است.

از مهمترین انواع شبکه های عصبی Feed-Forward Backpropagation می باشد که در اینجا به اختصار آنرا توضیح می دهیم.

Feed-Forward به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن های اولیه تعیین می گردد. مقادیر ورودی با هم ترکیب شده و در لایه های نهان استفاده می‌شوند و مقادیر این لایه های نهان نیز برای محاسبه مقادیر خروجی ترکیب می شوند.

Backpropagation : خطای خروجی با مقایسه مقدار خروجی با مقدار مد نظر در داده های آزمایشی محاسبه می گردد و این مقدار برای تصحیح شبکه و تغییر وزن یال ها استفاده می گردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می یابد.

این عمل برای هر رکورد موجود در بانک اطلاعاتی تکرار می گردد.

به هر بار اجرای این الگوریتم برای تمام داده های موجود در بانک یک دوره [۱]گفته می شود. این دوره‌ها آنقدر ادامه می یابد که دیگر مقدار خطا تغییر نکند.

از آنجایی که تعداد پارامترها در شبکه های عصبی زیاد می باشد محاسبات این شبکه ها می تواند وقت گیر باشد. ولی اگر این شبکه ها به مدت کافی اجرا گردند معمولا موفقیت آمیز خواهند بود. مشکل دیگری که ممکن است به وجود بیاید Overfitting می باشد و آن بدین صورت است که که شبکه فقط روی داده ها آموزشی خوب کار می کند و برای سایر مجموعه داده ها مناسب نمی باشد. برای رفع این مشکل ما باید بدانیم چه زمانی آموزش شبکه را متوقف کنیم.یکی از راه ها این است که شبکه را علاوه بر داده های آزمایشی روی داده های تست نیز مرتبا اجرا کنیم و جریان تغییر خطا را در آنها بررسی کنیم. اگر در این داده ها به جایی رسیدیم که میزان خطا رو به افزایش بود حتی اگر خطا در داده های آزمایشی همچنان رو به کاهش باشد آموزش را متوقف کنیم.

از آنجایی که پارامترهای شبکه های عصبی زیاد است یک خروجی خاص می تواند با مجموعه های مختلفی از مقادیر پارامترها ایجاد گردد درنتیجه این پارامترها مثل وزن یالها قابل تفسیر نبوده و معنی خاصی نمی دهند.

یکی از مهمترین فواید شبکه های عصبی قابلیت اجرای آنها روی کامپیوترهای موازی می باشد.

۲-۱۰-۲ درخت تصمیم

درخت­های تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار می‌شوند. برای مثال، می­خواهیم متقاضیان وام را به دارندگان ریسک اعتبار خوب و بد تقسیم کنیم. شکل یک درخت تصمیم را که این مسئله را حل می­کد نشان می­دهد و همه مؤلفه­های اساسی یک یک درخت تصمیم در آن نشان داده شده است : نود تصمیم، شاخه­ها و برگ­ها.

شکل(۲-۸) درخت تصمیم گیری

براساس الگوریتم، ممکن است دو یا تعداد بیشتری شاخه داشته باشد. برای مثال، CART درختانی با تنها دو شاخه در هر نود ایجاد می­کند. هر شاخه منجر به نود تصمیم دیگر یا یک نود برگ می­شود. با پیمایش یک درخت تصمیم از ریشه به پایین به یک مورد یک رده یا مقدار نسبت می­دهیم. هر نود از داده­های یک مورد برای تصمیم­گیری درباره آن انشعاب استفاده می­کند.

درخت­های تصمیم از طریق جداسازی متوالی داده­ها به گروه­های مجزا ساخته می­شوند و هدف در این فرآیند افزایش فاصله بین گروه­ها در هر جداسازی است.

یکی از تفاوت­ها بین متد­های ساخت درخت تصمیم اینستکه این فاصله چگونه اندازه­گیری می­شود. درخت­های تصمیمی که برای پیش­بینی متغیرهای دسته­ای استفاده می­شوند، درخت­های دسته بندی نامیده می­شوند زیرا نمونه­ها را در دسته­ها یا رده­ها قرار می­دهند. درخت­های تصمیمی که برای پیش­بینی متغیرهای پیوسته استفاده می­شوند درخت­های رگرسیون نامیده می­شوند.

هر مسیر در درخت تصمیم تا یک برگ معمولا قابل فهم است. از این لحاظ یک درخت تصمیم می‌تواند پیش­بینی­های خود را توضیح دهد، که یک مزیت مهم است. با این حال این وضوح ممکن است گمراه­کننده باشد. برای مثال، جداسازی های سخت در درخت­های تصمیم دقتی را نشان می‌دهند که کمتر در واقعیت نمود دارند. (چرا باید کسی که حقوق او ۴۰۰۰۰۱ است از نظر ریسک اعتبار خوب باشد درحالیکه کسی که حقوقش ۴۰۰۰۰ است بد باشد. بعلاوه، از آنجاکه چندین درخت می­توانند داده­های مشابه­ای را با دقت مشابه نشان دهند، چه تفسیری ممکن است از قوانین شود؟

درخت­های تصمیم تعداد دفعات کمی از داده­ها گذر می­کنند(برای هر سطح درخت حداکثر یک مرتبه) و با متغیرهای پیش­بینی­کننده زیاد بخوبی کار می­کنند. درنتیجه، مدلها بسرعت ساخته می­شوند، که آنها را برای مجموعه­داده های بسیار مناسب می­سازد. اگر به درخت اجازه دهیم بدون محدودیت رشد کند زمان ساخت بیشتری صرف می­­شود که غیرهوشمندانه است، اما مسئله مهمتر اینستکه با داده­ها overfit می­شوند. اندازه درخت­ها را می­توان از طریق قوانین توقف کنترل کرد. یک قانون معمول توقف محدود کردن عمق رشد درخت است.

راه دیگر برای توقف هرس کردن درخت است. درخت می­تواند تا اندازه نهایی گسترش یابد، سپس با استفاده از روش­های اکتشافی توکار یا با مداخله کاربر، درخت به کوچکترین اندازه­ای که دقت در آن از دست نرود کاهش می­یابد.

یک اشکال معمول درخت­های تصمیم اینستکه آنها تقسیم­کردن را براساس یک الگوریتم حریصانه انجام می­دهند که در آن تصمیم­گیری اینکه براساس کدام متغیر تقسیم انجام شود، اثرات این تقسیم در تقسیم­های آینده را درنظر نمی­گیرد.

بعلاوه الگوریتم­هایی که برای تقسیم استفاده می­شوند، معمولا تک­متغیری هستند: یعنی تنها یک متغیر را در هر زمان در نظر می­گیرند. درحالیکه این یکی از دلایل ساخت سری مدل است، تشخیص رابطه بین متغیرهای پیش­بینی کننده را سخت­تر می­کند.

۲-۱۰-۳ Multivariate Adaptive Regression Splines(MARS)

در میانه­های دهه ۸۰ یکی از مخترعین CART ، ـJerome H. Friedman، متدی را برای برطرف­کردن این کاستی­ها توسعه داد.

کاستی­های اساسی که او قصد برطرف­ کردن آنها را داشت عبارتند از:

  • پیش­بینی ­های غیرپیوسته( تقسیم سخت)
  • وابستگی همه تقسیم­ها به تقسیم­های قبلی

به این دلیل او الگوریتم MARS را توسعه داد. ایده اصلی MARS نسبتا ساده است، درحالیکه خود الگوریتم نسبتا پیچیده است. بسیار ساده ایده عبارت است از :

  • جایگزینی انشعاب­های غیرپیوسته با گذر های پیوسته که توسط یک جفت از خط­های مستقیم مدل می­شوند. در انتهای فرآیند ساخت مدل، خطوط مستقیم در هر نود با یک تابع بسیار هموار که spline نامیده می­شود جایگزین می­شوند.
  • عدم نیاز به اینکه تقسیم­های جدید وابسته به تقسیم­های قدیمی باشند.

متأسفانه این به معنی اینست که MARS ساختار درختی CART را ندارد و نمی­تواند قوانینی را ایجاد کند. از طرف دیگر، MARS به صورت خودکار مهم­ترین متغیرهای پیش­بینی کننده و همچنین تعامل میان آنها را می­یابد. MARS همچنین وابستگی میان پاسخ و هر پیش­بینی کننده را معین می­کند. نتیجه ابزار رگرسیون اتوماتیک، خودکار و step-wise است.

MARS، مانند بیشتر الگوریتم­های شبکه­های عصبی و درخت تصمیم، تمایل به overfit شدن برای داده­های آموزش­دهنده دارد. که می­توان آنرا به دو طریق درست کرد. اول اینکه، cross validation بصورت دستی انجام شود و الگوریتم برای تولید پیش­بینی خوب روی مجوعه تست تنظیم شود. دوم اینکه، پارامترهای تنظیم متفاوتی در خود الگوریتم وجود دارد که cross validation درونی را هدایت می­کند.

۲-۱۰-۴ Rule induction

استنتاج قوانین متدی برای تولید مجموعه­ای از قوانین است که موارد را دسته­بندی می­کند. اگرچه درخت­های تصمیم می­توانند مجموعه­ای از قوانین را ایجاد کند، متدهای استنتاج قوانین مجموعه­ای از قوانین مستقل را ایجاد می­کند. که لزوما یک درخت را ایجاد نمی­کنند. از آنجا که استنتاج­گر قوانین اجباری به تقسیم در هر سطح ندارد، و می­تواند به آینده بنگرد، قادر است الگوهای متفاوت و گاها بهتری برای رده­بندی بیابد. برخلاف درختان، قوانین ایجاد شده ممکن است همه موارد ممکن را نپوشاند. همچنی« برخلاف درختان، قوانین ممکن است در پیش­بینی متعارض باشند، که در هر مورد باید قانونی را برای دنبال کردن انتخاب کرد. یک روش برای حل این تعارضات انتصاب یک میزان اطمینان به هر قانون است و استفاده از قانونی است که میزان اطمینان بالاتری دارد.

۲-۱۰-۵ K-nearest neibour and memory-based reansoning(MBR)

هنگام تلاش برای حل مسائل جدید، افراد معمولا به راه­حل های مسائل مشابه که قبلا حل شده­اند مراجعه می­کنند. K-nearest neighbor(k-NN) یک تکنیک دسته­بندی است که از نسخه­ای از این متد استفاده می­کند. در این روش تصمیم­گیری اینکه یک مورد جدید در کدام دسته قرار گیرد با بررسی تعدادی(k) از شبیه­ترین موارد یا همسایه­ها انجام می­شود. تعداد موارد برای هر کلاس شمرده می­شوند، و مورد جدید به دسته­ای که تعداد بیشتری از همسایه­ها به آن تعلق دارند نسبت داده می‌شود.

شکل(۲-۹( روش MBR

محدوده همسایگی (بیستر همسایه ها در دسته X قرار گرفته اند)

اولین مورد برای بکاربردن k-NN یافتن معیاری برای فاصله بین صفات در داده­ها و محاسبه آن است. در حالیکه این عمل برای داده­های عددی آسان است، متغیرهای دسته­ای نیاز به برخورد خاصی دارند. هنگامیکه فاصله بین مواد مختلف را توانستیم اندازه گیریم، می­توانیم از مجموعه مواردی که قبلا دسته­بندی شده­اند را بعنوان پایه دسته­بندی موارد جدید استفاده کنیم، فاصله همسایگی را تعیین کنیم، و تعیین کینم که خود همسایه­ها را چگونه بشماریم.

K-NN بار محاسباتی زیادی را روی کامپیوتر قرار می­دهد زیرا زمان محاسبه بصورت فاکتوریلی از تمام نقاط افزایش می­یابد. درحالیکه بکابردن درخت تصمیم یا شبکه عصبی برای یک مورد جدید فرایند سریعی است، K-NN نیاز به محاسبه جدیدی برای هر مورد جدید دارد. برای افزایش سرعت K-NN معمولا تمام داده­ها در حافظه نگه­داری می­شوند.

فهم مدلهای K-NN هنگامیکه تعداد متغیرهای پیش­بینی کننده کم است بسیار ساده است. آنها همچنین برای ساخت مدلهای شامل انواع داده غیر استاندارد هستند، مانند متن بسیار مفیدند. تنها نیاز برای انواع داده جدید وجود معیار مناسب است.

۲-۱۰-۶ رگرسیون منطقی

رگرسیون منطقی یک حالت عمومی تر از رگرسیون خطی می باشد.قبلا این روش برای پیش بینی مقادیر باینری یا متغیرهای دارای چند مقدار گسسته (کلاس) استفاده می شد. از آنجایی که مقادیر مورد نظر برای پیش بینی مقادیر گسسته می باشند نمی توان آنرا به روش رگرسیون خطی مدلسازی کرد برای این منظور این متغیرهای گسسته را به روشی تبدیل به متغیر عددی و پیوسته می کنیم وبرای این منظور مقدار لگاریتم احتمال متغیر مربوطه را در نظر می گیریم و برای این منظور احتمال پیشامد را بدین صورت در نظر می گیریم:

[۱]Epoch

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

پایان نامه وب¬ کاوی در صنعت -شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی

درنتیجه داده کاوی و OLAP می توانند همدیگر را تکمیل کنند و تحلیل گر می تواند به وسیله ابزار OLAP یک سری اطلاعات کسب کند که در مرحله داده کاوی می تواند مفید باشد و همچنین الگوها و روابط کشف شده در مرحله داده کاوی می تواند درست نباشد که با اعمال تغییرات در آنها می توان به وسیله OLAP بیشتر بررسی شوند.

۲-۷ کاربرد یادگیری ماشین و آمار در داده کاوی

داده کاوی از پیشرفت هایی که در زمینه هوش مصنوعی و آمار رخ می دهد بهره می گیرد . هر دو این زمینه ها در مسائل شناسایی الگو و طبقه بندی داده ها کار می کنند و بالتبع در داده کاوی استفاده مستقیم خواهند داشت و هر دو گروه در شناخت و استفاده از شبکه های عصبی و درخت‌های تصمیم گیری فعال می باشند.

داده کاوی جانشین تکنیک های آماری سابق نمی باشد بلکه وارث آنها بوده و در واقع تغییر و گسترش تکنیک های سابق برای متناسب ساز ی آنها با حجم داده ها و مسائل امروزی می باشد. تکنیک های کلاسیک برای داده های محدود و مسائل ساده مناسب بوده اند حال آنکه با پیچیده شدن مسائل و رشد روزافزون داده ها نیاز به تغییر آنها کاملا طبیعی است.به عبارت دیگر داده کاوی ترکیب تکنیک های کلاسیک با الگوریتم های جدید مثل شبکه های عصبی و درخت تصمیم گیری می باشد.

مهمترین نکته این است که داده کاوی راهکاری است برای مسائل تجاری امروز به کمک تکنیک های آماری و هوش مصنوعی برای افراد حرفه ای که قصد دارند یک مدل پیش بینی ایجاد نمایند.

۲-۸ توصیف داده ها در داده کاوی

۲-۸-۱ خلاصه سازی و به تصویر در آوردن داده ها

قبل از اینکه بتوان روی مجموعه ای از داده ها ،داده کاوی انجام بدهیم و یک مدل پیش بینی مناسب ابجاد کنیم ، باید بتوان داده ها را به خوبی شناخت که برا ی شروع این کار می توان از پارامترهایی مثل میانگین , انحراف معیار و…. استفاده کنیم.

ابزارهای تصویرسازی داده ها و گراف سازی برای شناخت داده ها بسیار مفید می باشند و نقش آنها در آماده سازی داده ها بسیار مفید و غیر قابل انکار است ، مثلا با استفاده از این ابزار می توان توزیع مقادیر مختلف داده ها را در یک نمودار مشاهده کرد و میزان داده های دارای خطا را به طور تقریبی حدس زد.

مهمترین مشکل این ابزار این است که معمولا تحلیل ها دارای تعداد زیادی پارامتر هستند که به هم مربوطند و باید رابطه این پارامترها را که چند بعدی می باشد در دو بعد نمایش دهند که این کار اگر هم عملی باشد برای استفاده از آنها نیاز به افراد خبره می باشد.

۲-۸-۲ خوشه بندی

هدف از خوشه بندی این است که داده های موجود را به چند گروه تقسیم کنند و در این تقسیم بندی داده های گروه های مختلف باید حداکثر تفاوت ممکن را به هم داشته باشند و داده های موجود در یک گروه باید بسیار به هم شبیه باشند .

برخلاف کلاس بندی (که در ادامه خواهیم دید) در خوشه بندی ، گروه ها از قبل مشخص نمی باشند و همچنین معلوم نیست که بر حسب کدام خصوصیات گروه بندی صورت می گیرد. درنتیجه پس از انجام خوشه بندی باید یک فرد خبره خوشه های ایجاد شده را تفسیر کند و در بعضی مواقع لازم است که پس از بررسی خوشه ها بعضی از پارامترهایی که در خوشه بندی در نظر گرفته شده اند ولی بی ربط بوده یا اهمیت چندانی ندارند حذف شده و جریان خوشه بندی از اول صورت گیرد.

پس از اینکه داده ها به چند گروه منطقی و توجیه پذیر تقسیم شدند از این تقسیم بندی می توان برای کسب اطلاعات در مورد داده ها یا تقسیم داده ها جدید استفاده کنیم.

از مهمترین الگوریتم هایی که برای خوشه بندی استفاده می شوند می توان Kohnen و الگوریتم K-means را نام برد.

۲-۸-۳ تحلیل لینک

تحلیل داده ها یکی از روش های توصیف داده هاست که به کمک آن داده ها را بررسی کرده و روابط بین مقادیر موجود در بانک اطلاعاتی را کشف می کنیم.از مهمترین راههای تحلیل لینک کشف وابستگی و کشف ترتیب می باشد.

منظور از کشف وابستگی یافتن قوانینی در مورد مورادی است که با هم اتفاق می افتند مثلا اجناسی که در یک فروشگاه احتمال خرید همزمان آنها زیاد است.

کشف ترتیب نیر بسیار مشابه می باشد ولی پارامتر زمان نیز در آن دخیل می باشد.

وابستگی ها به صورت A->B نمایش داده می شوند که به A مقدم و به B موخر یا نتیجه گفته می‌شود. مثلا اگر یک قانون به صورت زیر داشته باشیم :

” اگر افراد چکش بخرند آنگاه آنها میخ خواهند خرید “

در این قانون مقدم خرید چکش و نتیجه خرید میخ می باشد.

۲-۹ مدل های پیش بینی داده ها

۲-۹-۱ دسته بندی

در مسائل دسته بندی هدف شناسایی ویژگیهایی است که گروهی را که هر مورد به آن تعلق دارد را نشان دهند. از این الگو می­توان هم برای فهم داده­های موجود و هم پیش­بینی نحوه رفتار مواد جدید استفاده کرد.

داده­کاوی مدلهای دسته بندی را با بررسی داده­های دسته­بندی شده قبلی ایجاد می­کند و یک الگوی پیش­بینی کننده را بصورت استقرایی می­یابند. این موارد موجود ممکن است از یک پایگاه داده تاریخی آمده باشند.

۲-۹-۲ رگرسیون

رگرسیون از مقادیر موجود برای پیش­بینی مقادیر دیگر استفاده می­کند. در ساده­ترین فرم، رگرسیون از تکنیک­های آماری استاندارد مانند linear رگرسیون استفاده می­کند. متاسفانه، بسیاری مسائل دنیای واقع تصویرخطی ساده­ای از مقادیر قبلی نیستند. بناراین تکنیک­های پیچیده‌تری (logistic رگرسیون، درخت­های تصمیم، یا شبکه­های عصبی) ممکن است برای پیش‌بینی مورد نیاز باشند.

انواع مدل یکسانی را می­توان هم برای رگرسیون و هم برای دسته بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CART را می­توان هم برای ساخت درخت­های دسته بندی و هم درخت­های رگرسیون استفاده کرد. شبکه­های عصبی را نیز می­توان برای هر دو مورد استفاده کرد.

۲-۹-۳ سری های زمانی

پیش­بینی های سری های زمانی مقادیر ناشناخته آینده را براساس یک سری از پیش­بینی گرهای متغیر با زمان پیش­بینی می­کنند. و مانند رگرسیون، از نتایج دانسته شده برای راهنمایی پیش­بینی خود استفاده می­کنند. مدلها باید خصوصیات متمایز زمان را در نظر گیرند و بویژه سلسله­مراتب دوره­ها را.

۲-۱۰ مدل ها و الگوریتم های داده کاوی

در این بخش قصد داریم مهمترین الگوریتم ها و مدل های داده کاوی را بررسی کنیم. بسیاری از محصولات تجاری داده کاوی از مجموعه از این الگوریتم ها استفاده می کنند و معمولا هر کدام آنها در یک بخش خاص قدرت دارند وبرای استفاده از یکی از آنها باید بررسی های لازم در جهت انتخاب متناسب ترین محصول توسط گروه متخصص در نظر گرفته شود.

نکته مهم دیگر این است که در بین این الگوریتم ها و مدل ها ، بهترین وجود ندارد و با توجه به داده‌ها و کارایی مورد نظر باید مدل انتخاب گردد.

۲-۱۰-۱ شبکه های عصبی

شبکه های عصبی از پرکاربردترین و عملی ترین روش های مدل سازی مسائل پیچیده و بزرگ که شامل صدها متغیر هستند می باشد. شبکه های عصبی می توانند برای مسائل کلاس بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند.

هر شبکه عصبی شامل یک لایه ورودی [۱]می باشد که هر گره در این لایه معادل یکی از متغیرهای پیش بینی می باشد. گره های موجود در لایه میانی وصل می شوند به تعدادی گره در لایه نهان[۲]. هر گره ورودی به همه گره های لایه نهان وصل می شود.

گره های موجود در لایه نهان می توانند به گره های یک لایه نهان دیگر وصل شوند یا می توانند به لایه خروجی [۳]وصل شوند.

لایه خروجی شامل یک یا چند متغیر خروجی می باشد.

شکل(۲-۶) شبکه عصبی با یک لایه نهان

هر یال که بین نود های X,Y می باشد دارای یک وزن است که با Wx,y نمایش داده می شود. این وزن ها در محاسبات لایه های میانی استفاده می شوند و طرز استفاده آنها به این صورت است که هر نود در لایه های میانی (لایه های غیر از لایه اول) دارای چند ورودی از چند یال مختف می باشدکه همانطور که گفته شد هر کدام یک وزن خاص دارند.

هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه آن ضرب می کند و حاصل این ضرب ها را با هم جمع می کند و سپس یک تابع از پیش تعیین شده (تابع فعال سازی) روی این حاصل اعمال می کند و نتیجه را به عنوان خروجی به نودهای لایه بعد می دهد.

وزن یال ها پارامترهای ناشناخته ای هستند که توسط تابع آموزش [۴]و داده های آموزشی که به سیستم داده می شود تعیین می گردند.

[۱]Input Layer

[۲] Hidden Layer

[۳] Output Layer

[۴]Training method

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

تفاوت داده کاوی با OLAP

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

دومین خانواده ای که داده کاوی به آن تعلق دارد هوش مصنوعی[۱] می باشد. هوش مصنوعی که بر پایه روشهای ابتکاری می باشد و با آمار ضدیت دارد، تلاش دارد تا فرایندی مانند فکر انسان، را برای حل مسائل آماری بکار بندد. چون این رویکرد نیاز به توان محاسباتی بالایی دارد، تا اوایل دهه ۱۹۸۰ عملی نشد. هوش مصنوعی کاربردهای کمی را در حوزه های علمی و حکومتی پیدا کرد، اما نیاز به استفاده از کامپیوترهای بزرگ با عث شد همه افراد نتوانند از تکنیکهای ارائه شده استفاده کنند.

سومین خانواده داده کاوی، یادگیری ماشین[۲] می باشد، که به مفهوم دقیقتر، اجتماع آمار و هوش مصنوعی می باشد. درحالیکه هوش مصنوعی نتوانست موفقیت تجاری کسب کند، یادگیری ماشین در بسیاری از موارد جایگزین آن گردید. از یادگیری ماشین به عنوان تحول هوش مصنوعی یاد شد، چون مخلوطی از روشهای ابتکاری هوش مصنوعی به همراه تحلیل آماری پیشرفته می باشد. یادگیری ماشین اجازه می دهد تا برنامه های کامپیوتری در مورد داده ای که آنها مطالعه می کنند، مانند برنامه هایی که تصمیمهای متفاوتی بر مبنای کیفیت داده مطالعه شده می گیرند، یادگیری داشته باشند و برای مفاهیم پایه ای آن از آمار استفاده می کنند و از الگوریتمها و روشهای ابتکاری هوش مصنوعی را برای رسیدن به هدف بهره می گیرند.

داده کاوی در بسیاری از جهات، سازگاری تکنیکهای یادگیری ماشین با کاربردهای تجاری است. بهترین توصیف از داده کاوی بوسیله اجتماع آمار، هوش مصنوعی و یادگیری ماشین بدست می آید. این تکنیکها سپس با کمک یکدیگر، برای مطالعه داده و پیدا کردن الگوهای نهفته در آنها استفاده می شوند.

بعضی از کاربردهای داده کاوی به شرح زیر است:

  • کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک؛
  • مدیریت و کشف فریب: کشف فریب تلفنی، کشف فریبهای بیمه ای و اتومبیل، کشف حقه های کارت اعتباری، کشف تراکنشهای مشکوک مالی (پولشویی)؛
  • متن کاوی[۳]: پالایش متن (نامه های الکترونیکی، گروههای خبری و غیره)؛
  • پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایه های DNA ، تصاویر پزشکی؛
  • ورزش: آمارهای ورزشی؛
  • وب کاوی[۴]: پیشنهاد صفحات مرتبط، بهبود ماشینهای جستجوگر یا شخصی سازی حرکت در وب سایت

۲-۴ داده کاوی چه کارهایی نمی تواند انجام دهد؟

داده کاوی فقط یک ابزار است و نه یک عصای جادویی. داده کاوی به این معنی نیست که شما راحت به کناری بنشینید و ابزارهای داده کاوی همه کار را انجام دهد.

داده کاوی نیاز به شناخت داده ها و ابزارهای تحلیل و افراد خبره در این زمینه ها را از بین نمی برد.

داده کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده ها کمک می کند و در این مورد نیز روابطی که یافته می شود باید به وسیله داده های واقعی دوباره بررسی و تست گردد.

۲-۵ داده کاوی و انبار داده ها

معمولا داده هایی که در داده کاوی مورد استفاده قرار می گیرند از یک انبار داده استخراج می گردند و در یک پایگاه داده یا مرکز داده ای ویژه برای داده کاوی قرار می گیرند.

اگر داده های انتخابی جزیی از انبار داده ها باشند بسیار مفید است چون بسیاری از اعمالی که برای ساختن انباره داده ها انجام می گیرد با اعمال مقدماتی داده کاوی مشترک است و در نتیجه نیاز به انجام مجدد این اعمال وجود ندارد ، از جمله این اعمال پاکسازی داده ها می باشد.

پایگاه داده مربوط به داده کاوی می تواند جزیی از سیستم انبار داده ها باشد و یا می تواند یک پایگاه داده جدا باشد.

شکل (۲-۴) داده ها از انباره داه ها استخراج می گردند

 

ولی با این حال وجود انباره داده ها برای انجام داده کاوی شرط لازم نیست و بدون آن هم اگر داده ها دریک یا چندین پایگاه داده باشند می توان داده کاوی را انجام دهیم و بدین منظور فقط کافیست داده ها را در یک پایگاه داده جمع آوری کنیم و اعمال جامعیت داده ها و پاکسازی داده ها را روی آن انجام دهیم. این پایگاه داده جدید مثل یک مرکز داده ای عمل می کند

شکل(۲-۵( داده ها از چند پایگاه داده استخراج شده اند

۲-۶ داده کاوی و OLAP

بسیاری فکر می کنند که داده کاوی و OLAP دو چیز مشابه هستند در این بخش سعی می کنیم این مسئله را بررسی کنیم و همانطور که خواهیم دید این دو ابزار های کاملا متفاوت می باشند که می توانند همدیگر را تکمیل کنند.

OLAPجزیی از ابزارهای تصمیم گیری [۵]می باشد.سیستم های سنتی گزارش گیری و پایگاه داده ای آنچه را که در پایگاه داده بود توضیح می دادند حال آنکه در OLAP هدف بررسی دلیل صحت یک فرضیه است.

بدین معنی که کاربر فرضیه ای در مورد داده ها و روابط بین آنها ارائه می کند و سپس به وسیله ابزار OLAP با انجام چند Query صحت آن فرضیه را بررسی می کند.

اما این روش برای هنگامی که داده ها بسیار حجیم بوده و تعداد پارامترها زیاد باشد نمیتواند مفید باشد چون حدس روابط بین داده ها کار سخت و بررسی صحت آن بسیار زمانبر خواهد بود.

تفاوت داده کاوی با OLAP در این است که داده کاوی برخلاف OLAP برای بررسی صحت یک الگوی فرضی استفاده نمی شود بلکه خود سعی می کند این الگوها را کشف کند.

[۱]Artificial Intelligence

[۲]Machine Learning

[۳]Text Mining

[۴]Web Mining

[۵]Decision Support Tools

سیستم اطلاع رسانی جهانی :وب¬ کاوی در صنعت

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

 

۲- ۱ مقدمه­ای بر داده­کاوی

در دو دهه قبل توانایی های فنی بشر در برای تولید و جمع آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی دارند .

بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده[۱] و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی بطور همزمان از چندین رشته علمی بهره می برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم های مبتنی بر دانش[۲]، حصول دانش[۳]، بازیابی اطلاعات[۴]، محاسبات سرعت بالا[۵] و بازنمایی بصری داده[۶] . داده کاوی در اواخر دهه ۱۹۸۰ پدیدار گشته، در دهه ۱۹۹۰ گامهای بلندی در این شاخه از علم برداشته شده و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد .واژه های «داده کاوی» و «کشف دانش در پایگاه داده»[۷] اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش به عنوان یک فرآیند در شکل۲-۱ نشان داده شده است.

کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها می باشد. داده کاوی، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند . به بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می شود. تعریف دیگر اینست که، داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از قطعات داده می باشد، به نحوی که با استخراج آنها، در حوزه های تصمیم گیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. داده ها اغلب حجیم ، اما بدون ارزش می باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه[۸] گفته می شود.

۲-۱-۱ چه چیزی سبب پیدایش داده کاوی شده است؟

اصلی ترین دلیلی که باعث شد داده کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مساله در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به اینکه از این داده ها اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش بدست آمده در کاربردهای وسیعی از مدیریت کسب و کار وکنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می گیرد.

داده کاوی را می توان حاصل سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک سیر تکاملی در صنعت پایگاه داده می باشد، نظیر عملیات: جمع آوری داده ها وایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده ها. در شکل ۲-۱ این روند تکاملی در پایگاه های داده نشان داده شده است.

شکل(۲-۱) داده کاوی به عنوان یک مرحله از فرآیند کشف دانش

تکامل تکنولوژی پایگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. این داده های فراوان باعث ایجاد نیاز برای ابزارهای قدرتمند برای تحلیل داده‌ها گشته، زیرا در حال حاضر به لحاظ داده ثروتمند هستیم ولی دچار کمبود اطلاعات می باشیم.

ابزارهای داده کاوی داده ها را آنالیز می کنند و الگوهای دادهای را کشف می کنند که می توان از آن در کاربردهایی نظیر: تعیین استراتژی برای کسب و کار، پایگاه دانش[۹] و تحقیقات علمی و پزشکی، استفاده کرد. شکاف موجود بین داده ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبدیل کنیم .

به طور ساده داده کاوی به معنای استخراج یا «معدن کاری[۱۰]» دانش از مقدار زیادی داده خام است. البته این نامگذاری برای این فرآیند تا حدی نامناسب است، زیرا به طور مثال عملیات معدن کاری برای استخراج طلا از صخره و ماسه را طلا کاوی می نامیم، نه ماسه کاوی یا صخره کاوی، بنابراین بهتر بود به این فرآیند نامی شبیه به «استخراج دانش از داده» می دادیم که متاسفانه بسیار طولانی است. «دانش کاوی» به عنوان یک عبارت کوتاهتر به عنوان جایگزین، نمی تواند بیانگر تاکید و اهمیت بر معدن کاری مقدار زیاد داده باشد. معدن کاری عبارتی است که بلافاصله انسان را به یاد فرآیندی می اندازد که به دنبال یافتن مجموعه کوچکی از قطعات ارزشمند از حجم بسیار زیادی از مواد خام هستیم.

با توجه به مطالب عنوان شده، با اینکه این فرآیند تا حدی دارای نامگذاری ناقص است ولی این نامگذاری یعنی داده کاوی بسیار عمومیت پیدا کرده است. البته اسامی دیگری نیز برای این فرآیند پیشنهاد شده که بعضا بسیاری متفاوت با واژه داده کاوی است، نظیر: استخراج دانش از پایگاه داده، استخراج دانش[۱۱]، آنالیز داده / الگو، باستان شناسی داده[۱۲]، و لایروبی داده ها[۱۳].

۲-۲ مراحل کشف دانش

کشف دانش دارای مراحل تکراری زیر است:

۱- پاکسازی داده ها (از بین بردن نویز و ناسازگاری داده ها).

۲- یکپارچه سازی داده ها (چندین منبع داده ترکیب می شوند).

۳- انتخاب داده ها (داده های مرتبط با آنالیزازپایگاه داده بازیابی می شوند).

۴- تبدیل کردن داده ها (تبدیل داده ها به فرمی که مناسب برای داده کاوی باشد مثل خلاصه‌سازی و همسان سازی)

۵- داده کاوی (فرایند اصلی که روالهای هوشمند برای استخراج الگوها از داده ها به کار گرفته می‌شوند.)

۶- ارزیابی الگو (برای مشخص کردن الگوهای صحیح و مورد نظربه وسیله معیارهای اندازه گیری)

۷- ارائه دانش (یعنی نمایش بصری، تکنیکهای بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می شود).

شکل(۲-۲) سیر تکاملی صنعت پایگاه داده

هر مرحله داده کاوی باید با کاربر یا پایگاه دانش تعامل داشته باشد. الگوهای کشف شده به کاربر ارائه می شوند و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می شوند. توجه شود که بر طبق این دیدگاه داده کاوی تنها یک مرحله از کل فرآیند است، البته به عنوان یک مرحله اساسی که الگوهای مخفی را آشکار می سازد. با توجه به مطالب عنوان شده، دراینجا تعریفی از داده کاوی ارائه می دهیم:

“داده کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده های ذخیره شده در پایگاه داده، انباره داده ویا دیگر مخازن اطلاعات”

بر اساس این دیدگاه یک سیستم داده کاوی به طور نمونه دارای اجزاء اصلی زیر است که شکل۲-۳ بیانگر معماری سیستم است.

[۱]Data warehouses

[۲]Knowledge-based system

[۳]Knowledge-acquisition

[۴]Information retrieval

[۵]High-performance computing

[۶]Data visualization

[۷]Knowledge Discovery in Database

[۸]Secondary Data Analysis

[۹]Knowledge base

[۱۰]Mining

[۱۱]Knowledge extraction

[۱۲]Data archaeology

[۱۳]Data dredging

دسته پایان نامه های رشته کامپیوتر

وب¬ کاوی در صنعت ۴-۲ پژوهش­ های کاربردی

۴-۲ پژوهش­ های کاربردی

امروزه صنایع و تولیدکنندگان در کشور در حال رقابت با همتایان خود در آن سوی آّب­ها هستند. از سوی دیگر در هر یک از این صنایع، حجم انبوهی از داده­ ها، تولید و ذخیره می­ شود و کمترین استفاده ممکن از آنها صورت می­ گیرد. بخش ­های فروش، بازاریابی، تولید، نگه داری ­و­ تعمیرات، مالی، منابع انسانی، انبار، ایمنی، مدیریت و … همگی داده­ های زیادی تولید می­ کنند که با به­ کارگیری داده­ کاوی صنعت، معدن و تجارت قادر خواهد بود توسعه­ ی خود در فضای رقابت را حفظ کند.

 

  • برنامه­ ریزی نگهداری و تعمیرات
  • انتخاب تأمین­ کنندگان
  • مدیریت انبار مواد و قطعات یدکی
  • طراحی محصولات جدید
  • مدیریت کیفیت و بهره وری
  • برنامه­ ریزی و مدیریت منابع انسانی
  • بازاریابی و تبلیغات
  • مدیریت ارتباط با مشتریان
  • لجستیک و ترابری
  • اکتشاف معادن
  • بخش­بندی مشتریان
  • بازرگانی هوشمند

سایر بخش­ ها: مدیریت انرژی، ایمنی، محیط زیست، مدیریت ریسک، مدیریت مالی

 

 

 

نتیجه گیری

با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، روش ها و تکنیک هایی برای استفاده از این اطلاعات و استخراج اطلاعات جدید از آنها مورد نیاز می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند. وب‌کاوی که به کارگیری تکنیک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می باشد، می تواند برای این منظور به کار رود.

وب کاوی شامل چهار مرحله اصلی پیدا کردن منبع، انتخاب اطلاعات و پیش پردازش، تعمیم، تحلیل می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند: کاوش محتوای وب، کاوش ساختار وب کاوش استفاده از وب.

تکنیک­ها و روش­های وب کاوی از کاربرد وسیعی در حوزه­های مختلف همچون تجارت الکترونیکی، دولت الکترونیکی، آموزش الکترونیکی، آموزش از راه دور، سازمان های مجازی، مدیریت دانش، کتابخانه‌های دیجیتال برخوردارند. البته وب کاوی با چالش ها و محدودیت های متنوعی روبه رو است و در حال حاضر تحقیقات بسیاری در زمینه وب کاوی در حال انجام است که هدف آن ها حل این مشکلات می‌باشد.

 

 

منابع و ماخذ فارسی

دانشنامه آزاد ویکی پدیا

ماهنامه عملی آموزشی تدبیر شماره ۱۵۶

مهریزی، حائری، علی اصغر ، «داده‌کاوی: مفاهیم، روش‌ها و کاربردها» (۱۳۸۲) پایان‌نامه کارشناسی ارشد آمار اقتصادی و اجتماعی، دانشکده اقتصاد، دانشگاه علامه طباطبائی.

زعفریان، رضا و زعفریان،قاسم، «مروری بر داده‌کاوی» (۱۳۸۰) فصلنامه صنایع، شماره ۲۹

شاه‌سمندی، پرستو «داده‌کاوی در مدیریت ارتباط با مشتری» (۱۳۸۴)، مجله تدبیر شماره ۱۵۶٫

گودرزی، حمیدرضا، مترجم «داده‌کاوی چیست»، نشریه گزیده مطالب آماری، مرکز آمار ایران، شماره ۵۲٫

جمالی، آرمان – شهر الکترونیکی، بستر ورود به رقابت­های عصر سیبرنتیک

 

 

 

 

 

 

 

 

 

 

 

 

مراجع و ماخذ لاتین و سایتهای اینترنتی

Barbara Mento and Brendan Rapple, SPEC Kit 274: Data mining and data warehousing, Association of Research Libraries, Washington, DC (2003, July)

http://www.infotechera.com/

http://www.ece.ut.ac.ir/dbrg/index.htm

http://www.irandoc.ac.ir/index.htm

http://www.arts.uci.edu/dobrain/gems.980415b.htm

 

 

پایان نامه وب کاوی در صنعت

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

 

مقدمه

با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پراهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می باشد. با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، نیاز به این روش ها و تکنیک ها بیش از پیش احساس می شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ ۳/۷ میلیون صفحه در روز افزایش مییابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

  1. یافتن اطلاعات مرتبط: یافتن اطلاعات مورد نیاز در وب دشوار می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی‌باشند وکاربران معمولا از موتورهای جستجو که مهمترین و رایج ترین ابزار براییافتن اطلاعات در وب می باشند، استفاده می کنند. این موتورها، یک پرس و جوی[۱] مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند. اولا دقت[۲] موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی باشند. دوما میزان فراخوان[۳] این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چراکه حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده های خود نمی باشند.
  2. ایجاد دانش جدید با استفاده از اطلاعات موجود در وب: این مشکل در واقع بخشی از مشکل مطرح شده در قسمت قبل می باشد. در حال حاضر این سوال مطرح است که چگونه می توان داده های فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. همچنین چگونه می توان با استفاده از داده های وب به اطلاعات و دانشی جدید دست یافت.
  3. خصوصی سازی[۴] اطلاعات: از آن جا که کاربران متفاوت هر یک درباره نوع و نحوه بازنمایی اطلاعات سلیقه خاصی دارند،این مسئله باید توسط تامین کنندگان اطلاعات در وب مورد توجه قرار بگیرد. برای این منظور با توجه به خواسته ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد.

تکنیک های وب کاوی[۵]قادر به حل این مشکلات می باشند. دروب کاویبه صورت زیر تعریف شده است:

وب کاوی به کارگیری تکنیک های داده کاوی[۶] برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می باشد.

البته تکنیک های وب کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک های مختلفی از سایر زمینه های تحقیقاتی همچون پایگاه داده ها، بازیابی اطلاعات، پردازش زبان طبیعی قابل استفاده در این زمینه می باشند. همچنین تکنینک های وب کاوی می توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک های وب کاوی به صورت مستقیم مشکلات مطرح شده را حل می نماید. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می کند، مثالی از این رویکرد می باشد. اما در رویکرد غیر مستقیم، تکنیک های وب کاوی به عنوان بخشی از یک روش جامع تر که به حل این مشکلات می پردازد، مورد استفاده قرار می گیرند.

با توجه به گسترش روز افزون حجم اطلاعات در وب و ارتباط وب کاوی با تجارت الکترونیکی، وب کاوی به یک زمینه تحقیقاتی وسیع مبدل گشته است. طی این گزارش پس از بررسی مراحل وب کاوی،انواع آن معرفی می شوند. سپس ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها و مشکلات این زمینه تحقیقاتی اشاره می شود. در ادامه هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند. در پایان نیز به برخی از نمونه کاربردهای واقعی وب کاوی اشاره می شود.

 

 

[۱] Query

[۲] Precision

[۳] Recall

[۴] Personalization

[۵] Web Mining

[۶] Data Mining

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

وب¬ کاوی در صنعت

مؤسسه آموزش عالی چهل ستون

عنوان پروژه:

وب­ کاوی در صنعت

پروژه کاردانی

رشته نرم افزار

ارائه شده به

گروه علمی کامپیوتر

تهیه کننده:

فائزه غفاری

تابستان ۹۴

 

 

 

 

 

به نام خداوند بخشاینده مهربان

 

سپاسگذاری

و خداوند تبارک و تعالی خلقت را با حکمت سرشت و چون بارقه ای از دانایی بر انسان نثار کردن نیستی را به هستی کشاند ……..

پس والاترین درود و سپاس بر یگانه آفریدگاری که به من توفیق به انجام رساندن این پایان نامه را اعطا نمود

تجلی دانایی الهی در ضمیر انسان شد تا در معبد وجود آتشی صد رنگ بر افروزند.

پس شایسته است از سرکارخانم ریحانه گلکیش که با رهنمودهایشان مرا در پایان نامه یاری دادند کمال قدر شناسی را به عمل آورم.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

تقدیم به:

در آغاز به تو میگویم که آغاز و پایان هر راهی.

که اوجم با تو بوده است و فرودم هم …

به تو میگویم سپاسی را که نه چندان شایسته لطف توست

تا بر من ببخشایی گستاخی کودکانه ام را

و میخواهم که با من بمانی تا ابد.چرا که چون تو دارم همه دارم

و به اذن تو و پس از برکت وجودت حاصل این تلاش نثار میگردد .

به مادر و پدرم که یاریشان خنکای نسیم سحرگاهان بوده در طول راهم

و در پایان از کمک تمام کسانی که دوستشان دارم وهمراهی­ام نمودندتشکر میکنم.

 

 

کلیه حقوق مترتب بر نتایج مطالعات، ابتکارات و نوآوری‌های ناشی از تحقیق موضوع این پروژه متعلق به

مؤسسه آموزش عالی چهلستون است.

 

چکیده

با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به داده‌ها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس‌های وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند. طی این گزارش پس از معرفی وب کاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند که در این پروژه بیشتر به وب کاوی در صنعت می پردازم. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند.

 

 

فهرست مطالب

عنوان                                                                                                            شماره صفحه

فصل اول:مقدمه

مقدمه. ۱

فصل دوم:داده کاوی

۲- ۱ مقدمه ای بر داده کاوی. ۶

۲-۱-۱ چه چیزی سبب پیدایش داده کاوی شده است؟ ۷

۲-۲ مراحل کشف دانش.. ۹

۲- ۳ جایگاه داده کاوی در میان علوم مختلف.. ۱۲

۲-۴ داده کاوی چه کارهایی نمی تواند انجام دهد؟ ۱۴

۲-۵ داده کاوی و انبار داده ها ۱۴

۲-۶ داده کاوی و OLAP. 15

۲-۷ کاربرد یادگیری ماشین و آمار در داده کاوی. ۱۶

۲-۸ توصیف داده ها در داده کاوی. ۱۶

۲-۸-۱ خلاصه سازی و به تصویر در آوردن داده ها ۱۶

۲-۸-۲ خوشه بندی. ۱۷

۲-۸-۳ تحلیل لینک.. ۱۸

۲-۹ مدل های پیش بینی داده ها ۱۸

۲-۹-۱ دسته بندی. ۱۸

۲-۹-۲ رگرسیون. ۱۸

۲-۹-۳ سری های زمانی. ۱۹

۲-۱۰ مدل ها و الگوریتم های داده کاوی. ۱۹

۲-۱۰-۱ شبکه های عصبی. ۱۹

۲-۱۰-۲ درخت تصمیم. ۲۲

۲-۱۰-۳ Multivariate Adaptive Regression Splines(MARS) 24

۲-۱۰-۴ Rule induction. 25

۲-۱۰-۵ K-nearest neibour and memory-based reansoning(MBR) 25

۲-۱۰-۶ رگرسیون منطقی. ۲۶

۲-۱۰-۷ تحلیل تفکیکی. ۲۷

۲-۱۰-۸ مدل افزودنی کلی (GAM) 28

۲-۱۰-۹ Boosting. 28

۲-۱۱ سلسله مراتب انتخابها ۲۸

۲-۱۲داده کاوی و مدیریت بهینه وب سایت ها ۳۰

۲-۱۳داده‌کاوی و مدیریت دانش… ۳۱

فصل سوم: وب کاوی

۳-۱ تعریف وب کاوی. ۳۳

۳-۲ مراحل وب کاوی. ۳۳

۳-۳ وب کاوی و زمینه های تحقیقاتی مرتبط.. ۳۴

۳-۳-۱ وب کاوی و داده کاوی. ۳۴

۳-۳-۲ وب کاوی و بازیابی اطلاعات.. ۳۵

۳-۳-۳ وب کاوی و استخراج اطلاعات. ۳۶

۳-۳-۴ وب کاوی و یادگیری ماشین. ۳۷

۳-۴ انواع وب کاوی. ۳۷

۳-۵ چالش های وب کاوی. ۳۸

۳-۶مشکلات ومحدودیت های وب کاوی در سایت های فارسی زبان. ۳۹

۳-۷ محتوا کاوی وب.. ۴۰

 

 

 

 

فصل چهارم: وب کاوی در صنعت

۴-۱ انواع وب کاوی در صنعت.. ۴۳

۴-۱-۱وب کاوی در صنعت نفت، گاز و پتروشیمی. ۴۳

۴-۱-۱-۱ مهندسی مخازن/ اکتشاف. ۴۳

۴-۱-۱-۲مهندسی بهره برداری. ۴۴

۴-۱-۱- ۳مهندسی حفاری. ۴۴

۴-۱-۱-۴بخشهای مدیریتی. ۴۴

۴-۱-۲ کاربرد های دانش داده کاوی در صنعت بیمه ۴۵

۴-۱-۳کاربردهای دانش داده کاوی در مدیریت شهری. ۴۶

۴-۱-۴کاربردهای داده کاوی در صنعت بانکداری. ۴۷

۴-۱-۴-۱بخش بندی مشتریان. ۴۷

۴-۲ پژوهش های کاربردی. ۴۸

نتیجه گیری. ۵۰

منابع و ماخذ فارسی. ۵۱

مراجع و ماخذ لاتین و سایتهای اینترنتی. ۵۲

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

فهرست اشکال

عنوان                                                                                                   شماره صفحه

شکل(۲-۱) داده کاوی به عنوان یک مرحله از فرآیند کشف دانش… ۸

شکل(۲-۲) سیر تکاملی صنعت پایگاه داده ۱۰

شکل (۲-۳) معماری یک نمونه سیستم داده کاوی.. ۱۱

شکل (۲-۴) داده ها از انباره داه ها استخراج می گردند. ۱۴

شکل(۲-۵( داده ها از چند پایگاه داده استخراج شده اند. ۱۵

شکل(۲-۶) شبکه عصبی با یک لایه نهان. ۲۰

شکل(۲-۷) Wx,y وزن یال بین X و Y است. ۲۱

شکل(۲-۸) درخت تصمیم گیری.. ۲۳

شکل(۲-۹( روش MBR.. 26

 

دانلود متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی دانلود پایان نامه

دسته پایان نامه های رشته کامپیوتر

 

دانلود پروژه رشته کامپیوتر درباره اینترنت و وب – قسمت سوم

ادامه خواندن دانلود پروژه رشته کامپیوتر درباره اینترنت و وب – قسمت سوم

دانلود پروژه رشته کامپیوتر درباره اینترنت و وب – قسمت دوم

ادامه خواندن دانلود پروژه رشته کامپیوتر درباره اینترنت و وب – قسمت دوم