پایان نامه وب¬ کاوی در صنعت

احتمال اتفاق نیفتادن پیشامد/ احتمال اتفاق افتادن پیشامد و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط بندی ها یه موارد مشابه به کار می رود .مثلا وقتی می گوییم شانس بردن یک تیم در مسابقه 3 به 1 است در واقع از همین نسبت استفاده کرده و معنی آن این است که احتمال برد آن تیم 75% است.

وقتی که ما موفق شدیم لگاریتم احتمال مورد نظر را بدست آوریم با اعمال لگاریتم معکوس می توان نسبت مورد نظر و از روی آن کلاس مورد نظر را مشخص نمود.

2-10-7 تحلیل تفکیکی

این روش از قدیمی ترین روش های ریاضی وار گروه بندی داده ها می باشد که برای اولین بار در سال 1936 توسط فیشر استفاده گردید. روش کار بدین صورت است که داده ها را مانند داده های چند بعدی بررسی کرده و بین داده ها مرزهایی ایجاد می کنند (برای داده ها دو بعدی خط جدا کننده، برای داده های سه بعدی سطح جدا کننده و ..) که این مرزها مشخص کننده کلاس های مختلف می باشند و بعد برای مشخص کردن کلاس مربوط به داده های جدید فقط باید محل قرارگیری آن را مشخص کنیم.

این روش از ساده ترین و قابل رشدترین روش های کلاس بندی می باشد که در گذشته بسیار استفاده می شد.

این روش به سه دلیل محبوبیت خود را از دست داد :اول اینکه این روش فرض می کند همه متغیرهای پیش بینی به صورت نرمال توزیع شده اند که در بسیاری از موارد صحت ندارد . دوم اینکه داده هایی که به صورت عددی نمی باشند مثل رنگها در این روش قابل استفاده نمی باشند. سوم اینکه در این روش فرض می شود که مرزهای جدا کننده داده ها به صورت اشکال هندسی خطی مثل خط یا سطح می باشند حال اینکه این فرض همیشه صحت ندارد.

نسخه های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده اند به این طریق اجازه می دهند مرزهای جدا کننده بیشتر از درجه 2 نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می گردد.

2-10-8 مدل افزودنی کلی (GAM)

این روش ها در واقع بسطی بر روش های رگرسیون خطی و رگرسیون منطقی می باشند. به این دلیل به این روش افزودنی می گویند که فرض می کنیم می توانیم مدل را به صورت مجموع چند تابع غیر خطی (هر تابع برای یک متغیر پیش بینی کننده) بنویسیم. GAM می تواند هم به منظور رگرسیون و هم به منظور کلاس بندی داده ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می شود که این روش نسبت به روشهای رگرسیون خطی بهتر باشد.

2-10-9 Boosting

در این روش ها مبنی کار این است که الگوریتم پیش بینی را چندین بار و هر بار با داده های آموزشی متفاوت (که با توجه به اجرای قبلی انتخاب می شوند) اجرا کنیم و در نهایت آن جوابی که بیشتر تکرار شده را انتخاب کنیم. این روش اگر چه وقت گیر است ولی جواب های آن مطمئن تر خواهند بود. این روش اولین بار در سال 1996 استفاده شد و در این روزها با توجه به افزایش قدرت محاسباتی کامپیوترها بر مقبولیت آن افزوده گشته است.

2-11 سلسله ­مراتب انتخاب­ها

هدف داده­کاوی تولید دانش جدیدی است که کاربر بتواند از آن استفاده کند. این هدف با ساخت مدلی از دنیای واقع براساس داده­های جمع­آوری شده از منابع متفاوت بدست می­آید. نتیجه ساخت این مدل توصیفی از الگوها و روابط داده­هاست که می­توان آنرا برای پیش­بینی استفاده کرد. سلسه انتخاب­هایی که قبل از آغاز باید انجام شود به این شرح است:

  • هدف تجاری
  • نوع پیش­بینی
  • نوع مدل
  • الگوریتم
  • محصول

در بالاترین سطح هدف تجاری قرار دارد: هف نهایی از کاوش داده­ها چیست؟ برای مثال، جستجوی الگوها در داده­ها ممکن است برای حفظ مشتری­های خوب باشد، که ممکن است مدلی برای سودبخشی مشتری­ها و مدل دومی برای شناسایی مشتری­هایی که ممکن از دست دهیم می­سازیم. اطلاع از اهداف و نیازهای سازمان ما را در فرموله کردن هدف سازمان یاری می­رساند.

مرحله بعدی تصمیم­گیری درباره نوع پیش­بینی مناسب است: دسته بندی ، پیش­بینی اینکه یک مورد در کدام گروه یا رده قرار می­گیرد یا رگرسیون، پیش­بینی اینکه یک متغیر عددی چه مقداری خواهد داشت.

مرحله بعدی انتخاب نوع مدل است: یک شبکه عصبی برای انجام رگرسیون ،و یک درخت تصمیم برای دسته بندی. همچنین روشهای مرسوم آماری برای مانند logistic رگرسیون، discriminant analysis، و یا مدلهای خطی عمومی وجود دارد.

الگوریتم­های بسیاری برای ساخت مدلها وجود دارد. می­توان یک شبکه عصبی را با backpropagation، یا توابع radial bias ساخت. برای درخت تصمیم، می­توان از میان CART، C5.0، Quest، و یا CHAID انتخاب کرد.

هنگام انتخاب یک محصول داده­کاوی، باید آگاه بود که معمولا پیاده­سازیهای متفاوتی از یک الگوریتم دارند. این تفاوت­های پیاده­سازی می­تواند بر ویژگیهای عملیاتی مانند استفاده از حافظه و ذخیره داده و همچنین ویژگیهای کارایی مانند سرعت و دقت اثر گذارند.

در مدلهای پیشگویانه، مقادیر یا رده­هایی که ما پیش­بینی می­کنیم متغیرهای پاسخ، وابسته، یا هدف نامیده می­شوند. مقادیری که برای پیش­بینی استفاده می­شوند متغیرهای مستقل یا پیش­بینی­کننده نامیده می­شوند.

مدلهای پیشگویانه با استفاده از داده­هایی که مقادیر متغیرهای پاسخ برای آنها از قبل دانسته شده است ساخته یا آموزش داده می­شوند. این نحوه آموزش supervised learning نامیده می­شود، زیرا که مقادیر محاسبه شده یا تخمین­زده شده با نتایج معلومی مقایسه می­شوند.( در مقابل، تکنیک­های توصیفی مانند clustering، unsupervised learning نامیده می­شوند زیرا که هیچ نتیجه از پیش معلومی برای راهنمایی الگوریتم وجود ندارد.)

 2-12داده کاوی و مدیریت بهینه وب سایت ها

هر سایت اینترنتی بر اساس حجم فعالیت خود برای نگهداری به افراد مختلفی که آشنا به امور فنی و اجرایی باشند نیاز دارد. مدیر سایت به عنوان شخصی که تنظیم کننده و هماهنگ کننده تمام این افراد است باید برای هر کدام از بخش‌های سایت از قبیل گرافیک، محتوا، امور فنی، بازاریابی و… برنامه‌های مختلفی را تهیه و برای اجرا در اختیار همکاران خود قرار دهد. این برنامه ها می توانند شامل برنامه های روزانه، هفتگی و ماهانه باشند. تمامی این برنامه ها در راستای یک هدف کلی و نهایی به انجام می رسند و آن هم بالا رفتن کارایی اقتصادی سایت است.

سایت ها زمانی می توانند خود را در سطح اقتصادی اطمینان بخشی قرار دهند که از بازدیدکنندگان و کاربران و قابل توجهی برخوردار باشند. برای این کار مدیر سایت سعی می کند مطالعه و تحقیق گسترده ای بر روی عوامل و ابزارهای افزایش دهنده تعداد کاربران سایت انجام دهد و از این طریق در واقع به مطالعه شرایط و موقعیت خود در بازار مجازی اینترنت می پردازد. به عنوان مثال وی در مورد رنگ های به کار رفته در سایت، لوگو و سایر قطعات گرافیکی سایت، متن های به کار رفته و بسیاری دیگر از مسائل مرتبط با سایت به بررسی و مطالعه می پردازد.

یکی از روش ها و راهکارهایی که کمک بسیار زیادی برای بهتر شدن فرآیند مدیریت وب سایت ها می کند استفاده از گزارش ها و تحلیل های آماری است. مدیران سایت ها و مدیران بازایابی شرکت ها با استفاده از گزارش های به دست آمده از فعالیت سایت اینترنتی می‌توانند شناخت خوبی از موقعیت و تاثیر فعالیت های خود پیدا کنند و از این طریق نقاط ضعف و قوت سایت را به راحتی شناسایی و برای حل و تقویت آنها تغییرات لازم را  در سایت اعمال نمایند و به برنامه های آینده و حتی استراتژی های سایت جهت ببخشند.

2-13داده‌كاوی و مدیریت دانش

اگر چه دانش به طور انحصاری محصول فناوری اطلاعات نیست، ولی فناوری اطلاعات به طور لاینفكی در ایجاد دانش و فرآیند مدیریت دانش از سال های اول مشاركت داشته است. امروزه مدیریت دانش از مسئولیت های فناوری اطلاعات به شمار می‌رود. زیرا در جمع‌آوری، تبدیل دانش و انتقال داده‌ها، اطلاعات و دانش نقش كلیدی دارد.

از منظر مدیریت دانش‌، هدف داده‌كاوی، كشف دانش سازمانی پنهان در اطلاعات خام است. اینگونه نیست كه هر بینش حاصل از داده‌كاوی دانش می‌سازد، بلكه در عوض بسیاری از نتایج به دست آمده، اطلاعات مدیریت، یا هوش سازمانی است. مثلاً در سازمان‌های تجاری، دانش با ارزش

مورد مشتری، محصول و بازار را می‌توان از طریق داده‌كاوی به دست آورد. داده‌كاوی ابزار مفیدی برای مدیران دانش است كه كشف را با تحلیل تلفیق می‌كنند. تلفیقی كه اغلب منجر به ایجاد دانش می‌شود.

فصل سوم
وب کاوی

 

 

 

 

 

 

 

 

 

 

3-1 تعریف وب کاوی

وب کاوی کاربردی از تکنیکهای داده کاوی است که به صورت خودکار اطلاعات را از مستندات وب و سرویسها استخراج و کشف می کند. وب کاوی اغلب به بازیابی و استخراج اطلاعات وابسته است، در حالیکه کشف اطلاعات یا وب کاوی بازیابی و استخراج اطلاعات نیست. هسته اصلی موتورهای جستجو از  معماری سیستم های بازیابی اطلاعات سرچشمه می گیرد. ماهیت پویای اطلاعات در شبکه وب باعث ایجاد تغییرات اساسی در ساختار اولیه در موتورهای جستجو شده است. در سیستم های بازیابی اطلاعات، اسناد و مدارک توسط اشخاص جمع آوری می شدند و در اختیار سیستم قرار می گرفتند، در حالی که در موتورهای جستجو وظیفه جمع آوری اطلاعات به عهده خود موتور جستجو است.

علاوه بر آن به علت تغییرات صفحات وب، موتور جستجو وظیفه به روزرسانی اطلاعات جمع آوری شده را نیز خواهد داشت. یکی از مهمترین مسائل در طراحی موتورهای جستجو مساله کارائی و بازده بالای موتور جستجو است. حجم بالای اطلاعات موجود در شبکه وب و تغییرات سریع اطلاعات در این شبکه (از قبیل اضافه شدن صفحات جدید، حذف شدن برخی از صفحات و تغیر محتویات صفحات) حساسیت این امر را بسیار زیاد می کند. به عنوان مثال سرعت جمع آوری و سازماندهی اسناد در پایگاه دانش موتور جستجو، باید بیشتر از نرخ تغییرات شبکه وب باشد. دراین مقاله به بررسی ساختار وب کاویپرداخته می شود.

3-2 مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

  1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
  2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
  3. تعمیم[1]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می شود.
  4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[2] و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[3]، حذف کلمات زائد[4]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب ارتباط اییا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها(KDD[5]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

3-3 وب کاوی و زمینه های تحقیقاتی مرتبط

وب کاوی با زمینه های مختلف تحقیقاتی علوم کامپیوتر همچون داده کاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار داده ها[6]، طراحی واسط کاربر در ارتباط تنگاتنگ است.

در این بخش ارتباط این زمینه تحقیقاتی با برخی از زمینه های مرتبط بررسی می شود.

3-3-1 وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

  • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب،داده ها عموما غیر ساخت یافته هستند.
  • جمع آوری و مدیریت داده ها در وب دشوار است.

[1] Generalization

[2] Validation

[3] Stemming

[4] Stop Words

[5] Knowledge Discovery in Data Base

[6] Data Warehouse

متن کامل این پایان نامه :داده کاوی در صنعت

منبع : سایت تخصصی پایان نامه

دسته پایان نامه های رشته کامپیوتر

Leave a comment