سایت دانلود

یک سایت دیگر با وردپرس فارسی
کامپیوتر (سخت افزار و نرم افزار)

پایان نامه وب¬ کاوی در صنعت

احتمال اتفاق نیفتادن پیشامد/ احتمال اتفاق افتادن پیشامد و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط بندی ها یه موارد مشابه به کار می رود .مثلا وقتی می گوییم شانس بردن یک تیم در مسابقه 3 به 1 است در واقع از همین نسبت استفاده کرده و معنی آن این است که احتمال برد آن تیم 75% است.

وقتی که ما موفق شدیم لگاریتم احتمال مورد نظر را بدست آوریم با اعمال لگاریتم معکوس می توان نسبت مورد نظر و از روی آن کلاس مورد نظر را مشخص نمود.

2-10-7 تحلیل تفکیکی

این روش از قدیمی ترین روش های ریاضی وار گروه بندی داده ها می باشد که برای اولین بار در سال 1936 توسط فیشر استفاده گردید. روش کار بدین صورت است که داده ها را مانند داده های چند بعدی بررسی کرده و بین داده ها مرزهایی ایجاد می کنند (برای داده ها دو بعدی خط جدا کننده، برای داده های سه بعدی سطح جدا کننده و ..) که این مرزها مشخص کننده کلاس های مختلف می باشند و بعد برای مشخص کردن کلاس مربوط به داده های جدید فقط باید محل قرارگیری آن را مشخص کنیم.

این روش از ساده ترین و قابل رشدترین روش های کلاس بندی می باشد که در گذشته بسیار استفاده می شد.

این روش به سه دلیل محبوبیت خود را از دست داد :اول اینکه این روش فرض می کند همه متغیرهای پیش بینی به صورت نرمال توزیع شده اند که در بسیاری از موارد صحت ندارد . دوم اینکه داده هایی که به صورت عددی نمی باشند مثل رنگها در این روش قابل استفاده نمی باشند. سوم اینکه در این روش فرض می شود که مرزهای جدا کننده داده ها به صورت اشکال هندسی خطی مثل خط یا سطح می باشند حال اینکه این فرض همیشه صحت ندارد.

نسخه های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده اند به این طریق اجازه می دهند مرزهای جدا کننده بیشتر از درجه 2 نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می گردد.

2-10-8 مدل افزودنی کلی (GAM)

این روش ها در واقع بسطی بر روش های رگرسیون خطی و رگرسیون منطقی می باشند. به این دلیل به این روش افزودنی می گویند که فرض می کنیم می توانیم مدل را به صورت مجموع چند تابع غیر خطی (هر تابع برای یک متغیر پیش بینی کننده) بنویسیم. GAM می تواند هم به منظور رگرسیون و هم به منظور کلاس بندی داده ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می شود که این روش نسبت به روشهای رگرسیون خطی بهتر باشد.

2-10-9 Boosting

در این روش ها مبنی کار این است که الگوریتم پیش بینی را چندین بار و هر بار با داده های آموزشی متفاوت (که با توجه به اجرای قبلی انتخاب می شوند) اجرا کنیم و در نهایت آن جوابی که بیشتر تکرار شده را انتخاب کنیم. این روش اگر چه وقت گیر است ولی جواب های آن مطمئن تر خواهند بود. این روش اولین بار در سال 1996 استفاده شد و در این روزها با توجه به افزایش قدرت محاسباتی کامپیوترها بر مقبولیت آن افزوده گشته است.

2-11 سلسله ­مراتب انتخاب­ها

هدف داده­کاوی توليد دانش جديدی است که کاربر بتواند از آن استفاده کند. اين هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آيد. نتيجه ساخت اين مدل توصيفی از الگوها و روابط داده­هاست که می­توان آنرا برای پيش­بينی استفاده کرد. سلسه انتخاب­هايی که قبل از آغاز بايد انجام شود به اين شرح است:

  • هدف تجاری
  • نوع پيش­بینی
  • نوع مدل
  • الگوريتم
  • محصول

در بالاترين سطح هدف تجاری قرار دارد: هف نهايی از کاوش داده­ها چيست؟ برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسايی مشتری­هايی که ممکن از دست دهيم می­سازيم. اطلاع از اهداف و نيازهای سازمان ما را در فرموله کردن هدف سازمان ياری می­رساند.

مرحله بعدی تصميم­گيری درباره نوع پيش­بينی مناسب است: دسته بندی ، پيش­بينی اينکه يک مورد در کدام گروه يا رده قرار می­گيرد يا رگرسیون، پيش­بينی اينکه يک متغير عددی چه مقداری خواهد داشت.

مرحله بعدی انتخاب نوع مدل است: يک شبکه عصبی برای انجام رگرسیون ،و يک درخت تصميم برای دسته بندی. همچنين روشهای مرسوم آماری برای مانند logistic رگرسیون، discriminant analysis، و يا مدلهای خطی عمومی وجود دارد.

الگوريتم­های بسياری برای ساخت مدلها وجود دارد. می­توان يک شبکه عصبی را با backpropagation، يا توابع radial bias ساخت. برای درخت تصميم، می­توان از ميان CART، C5.0، Quest، و يا CHAID انتخاب کرد.

هنگام انتخاب يک محصول داده­کاوی، بايد آگاه بود که معمولا پياده­سازيهای متفاوتی از يک الگوريتم دارند. اين تفاوت­های پياده­سازی می­تواند بر ويژگيهای عملياتی مانند استفاده از حافظه و ذخيره داده و همچنين ويژگيهای کارايی مانند سرعت و دقت اثر گذارند.

در مدلهای پيشگويانه، مقادير يا رده­هايی که ما پيش­بينی می­کنيم متغيرهای پاسخ، وابسته، يا هدف ناميده می­شوند. مقاديری که برای پيش­بينی استفاده می­شوند متغيرهای مستقل يا پيش­بينی­کننده ناميده می­شوند.

مدلهای پيشگويانه با استفاده از داده­هايی که مقادير متغيرهای پاسخ برای آنها از قبل دانسته شده است ساخته يا آموزش داده می­شوند. اين نحوه آموزش supervised learning ناميده می­شود، زيرا که مقادير محاسبه شده يا تخمين­زده شده با نتايج معلومی مقايسه می­شوند.( در مقابل، تکنيک­های توصيفی مانند clustering، unsupervised learning ناميده می­شوند زيرا که هيچ نتيجه از پيش معلومی برای راهنمایی الگوريتم وجود ندارد.)

 2-12داده کاوی و مدیریت بهینه وب سایت ها

هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و… برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.

سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.

یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را  در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.

2-13داده‌كاوي و مديريت دانش

اگر چه دانش به طور انحصاري محصول فناوري اطلاعات نيست، ولي فناوري اطلاعات به طور لاينفكي در ايجاد دانش و فرآيند مديريت دانش از سال هاي اول مشاركت داشته است. امروزه مديريت دانش از مسئوليت هاي فناوري اطلاعات به شمار مي‌رود. زيرا در جمع‌آوري، تبديل دانش و انتقال داده‌ها، اطلاعات و دانش نقش كليدي دارد.

از منظر مديريت دانش‌، هدف داده‌كاوي، كشف دانش سازماني پنهان در اطلاعات خام است. اينگونه نيست كه هر بينش حاصل از داده‌كاوي دانش مي‌سازد، بلكه در عوض بسياري از نتايج به دست آمده، اطلاعات مديريت، يا هوش سازماني است. مثلاً در سازمان‌هاي تجاري، دانش با ارزش

مورد مشتري، محصول و بازار را مي‌توان از طريق داده‌كاوي به دست آورد. داده‌كاوي ابزار مفيدي براي مديران دانش است كه كشف را با تحليل تلفيق مي‌كنند. تلفيقي كه اغلب منجر به ايجاد دانش مي‌شود.

فصل سوم
وب کاوی

 

 

 

 

 

 

 

 

 

 

3-1 تعریف وب کاوی

وب کاوی کاربردی از تکنيکهای داده کاوی است که به صورت خودکار اطلاعات را از مستندات وب و سرويسها استخراج و کشف می کند. وب کاوی اغلب به بازيابی و استخراج اطلاعات وابسته است، در حاليکه کشف اطلاعات يا وب کاوی بازيابی و استخراج اطلاعات نيست. هسته اصلی موتورهای جستجو از  معماری سيستم های بازيابی اطلاعات سرچشمه می گيرد. ماهيت پويای اطلاعات در شبکه وب باعث ايجاد تغييرات اساسی در ساختار اوليه در موتورهای جستجو شده است. در سيستم های بازيابی اطلاعات، اسناد و مدارک توسط اشخاص جمع آوری می شدند و در اختيار سيستم قرار می گرفتند، در حالی که در موتورهای جستجو وظيفه جمع آوری اطلاعات به عهده خود موتور جستجو است.

علاوه بر آن به علت تغييرات صفحات وب، موتور جستجو وظيفه به روزرسانی اطلاعات جمع آوری شده را نيز خواهد داشت. يکی از مهمترين مسائل در طراحی موتورهای جستجو مساله کارائی و بازده بالای موتور جستجو است. حجم بالای اطلاعات موجود در شبکه وب و تغييرات سريع اطلاعات در اين شبکه (از قبيل اضافه شدن صفحات جديد، حذف شدن برخی از صفحات و تغير محتويات صفحات) حساسيت اين امر را بسيار زياد می کند. به عنوان مثال سرعت جمع آوری و سازماندهی اسناد در پايگاه دانش موتور جستجو، بايد بيشتر از نرخ تغييرات شبکه وب باشد. دراين مقاله به بررسی ساختار وب کاویپرداخته می شود.

3-2 مراحل وب کاوي

وب کاوي شامل چهار مرحله اصلي مي باشد:

  1. پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد.
  2. انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکار اطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند.
  3. تعميم[1]: در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شود.
  4. تحليل: در اين مرحله الگوهاي به دست آمده در مرحله قبل اعتبار سنجي[2] و تفسير مي شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه هاي الکترونيکي، گروه هاي خبري، اسناد HTML، پايگاه داده هاي متني بازيابي مي شوند. مرحله انتخاب و پيش پردازش شامل هر گونه فرآيند تبديل داده هاي بازيابي شده در مرحله قبل مي باشد. اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها[3]، حذف کلمات زائد[4]، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب ارتباط اييا منطق مرتبه اول باشد. در مرحله سوم از تکنيک هاي داده کاوي و يادگيري ماشين براي تعميم استفاده مي شود. همچنين بايد توجه داشت که کاربران نقش مهمي در فرآيند استخراج اطلاعات و دانش از وب ايفا مي کنند. اين نکته به ويژه در مرحله چهارم از اهميت بسزايي برخوردار است.

به اين ترتيب وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد. اين فرآيند به طور ضمني شامل فرآيند کشف دانش در پايگاه داده ها(KDD[5]) نيز مي شود. در واقع وب کاوي گونه توسعه يافته KDD است که بر روي داده هاي وب عمل مي کند.

3-3 وب کاوي و زمينه هاي تحقيقاتي مرتبط

وب کاوي با زمينه هاي مختلف تحقيقاتي علوم کامپيوتر همچون داده کاوي، پايگاه داده، بازيابي اطلاعات، هوش مصنوعي، يادگيري ماشين، پردازش زبان طبيعي، استخراج اطلاعات، انبار داده ها[6]، طراحي واسط کاربر در ارتباط تنگاتنگ است.

در اين بخش ارتباط اين زمينه تحقيقاتي با برخي از زمينه هاي مرتبط بررسي مي شود.

3-3-1 وب کاوي و داده کاوي

وب کاوي و داده کاوي ارتباط بسيار نزديکي با يکديگر دارند. داده کاوي فرآيند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفيد و ناشناخته از داده هايي است که معمولا در پايگاه داده ها ذخيره شده اند. در واقع بسياري از تکنيک هاي داده کاوي قابل استفاده در وب کاوي هستند. اما حوزه وب کاوي وسيع تر از داده کاوي است و اين دو زمينه تحقيقاتي در جنبه هاي مختلفي از يکديگر متفاوتند که برخي از آنها عبارتند از:

  • در داده کاوي، داده ها ساخت يافته هستند و معمولا در پايگاه داده ها وجود دارند. اما در وب،داده ها عموما غير ساخت يافته هستند.
  • جمع آوري و مديريت داده ها در وب دشوار است.

[1] Generalization

[2] Validation

[3] Stemming

[4] Stop Words

[5] Knowledge Discovery in Data Base

[6] Data Warehouse

متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی پایان نامه

دسته پایان نامه های رشته کامپیوتر

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *