تبلیغات
علم - داده كاوی

علم

جمعه 2 مهر 1389

داده كاوی

نویسنده: parsa   طبقه بندی: *ریاضی*، 

داده كاوی
داده كاوی فرایندی تحلیلی است كه برای كاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های كسب وكار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌كارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده كاوی پیش بینی است. ‌فرایند داده ‌كاوی شامل سه مرحله می باشد : 1. كاوش اولیه 2. ساخت مدل یا شناسایی الگو با كمك احراز اعتبار/ تایید و 3. بهره برداری.
مرحله 1 : كاوش. معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد كه ممكن است شامل پاك سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هایی‌‌ از ركوردها‌با‌حجم‌عظیمی‌از ‌متغییرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مساله تحلیلی‌، این‌مرحله‌به‌مدل‌های‌‌ ‌پیش بینی ساده یا مدل‌های‌آماری‌و‌گرافیكی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیاز دارد .


مرحله 2:ساخت و احراز اعتبار مدل. این‌مرحله‌به‍ بررسی‌مدل‌های مختلف و گزینش بهترین مدل با توجه به كارآیی پیش‌بینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تكنیك‌های‌متعددی‌برای‌ر سیدن‌به‌این‌هدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برای مجموعه داده‌های یكسان‌‌به‌كار‌می‌روند‌ تا‌كارآیی‌شان‌با‌هم مقایسه‌شود ،‌سپس مدلی كه‌بهترین كارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تكنیك‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning.
مرحله 3 : بهره برداری. آخرین‌مرحله‌مدلی‌راكه‌د رمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه كار‌می‌گیردتا پیش‌بینی‌های‌خروجی‌های مورد انتظاررا تولید نماید.داده كاوی‌به‌عنوان‌ابزار‌مدی ریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است . اخیرا‌،‌توسعه تكنیك های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده كاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.
بااین وجود تفاوت عمده ای بین داده كاوی و EDA وجود‌دارد‌.داده‌كاوی‌بی� �تر‌به‌برنامه‌های‌كاربر� �ی گرایش دارد تا ماهیت اصلی پدیده .به عبارتی‌داده كاوی كمتر با شناسایی روابط بین متغیرها سروكار دارد .

مفاهیم اساسی در داده كاوی
Bagging: این مفهوم برای تركیب رده بندی های پیش بینی شده از چند مدل به كار می رود.فرض كنیدكه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان كوچك است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طوركلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با كمك درخت های متفاوت به دست آمده از نمونه ها ،‌یك رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود كه درخت های مختلف آنرا پیش بینی كرده اند .
Boosting: این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به كار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد كرد .
Meta-Learning : این مفهوم برای تركیب پیش بینی‌های حاصل از چند مدل به كار می‌رود.و هنگامی كه انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، كاربرد دارد. فرض كنید كه پروژه داده كاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبكه های عصبی است.هر یك از كامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی كرده اند.تجربه نشان می‌دهدكه تركیب پیش بینی های چند روش دقیق تراز پیش بینی های هریك از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا تركیب می كند تا بهترین رده بندی پیش بینی شده حاصل شود.

کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند؛ مفید شناخته شد. بخشهایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه اند.
انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.

مدیریت و خدمات کتابخانه
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند.

جدول یک- کاربردهای داده کاوی در کتابخانه ها
کاربرد متصور
بانک اطلاعاتی
برای تعیین نقاط قوت و ضعف مجموعه
گردآوری منابع
برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال
استفاده از مجموعه
برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده
امانت بین کتابخانه ای
برای پیش بینی روند بازگشت منابع
داده های بخش امانت
برای نشان دادن منابع مالی بکار گرفته شده
داده های هزینه

داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای اعضا برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
مدیریت موسسات دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست.

جدول 2- کاربردهای داده کاوی در موسسات دانشگاهی
کاربرد متصور
بانک اطلاعاتی
برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی
ثبت نام دانشگاهی
برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده
کارایی دانشگاهی
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان
بانک سوالات
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه
همکاری فکری
برای پیدا کردن تأثیر انتشارات در تقاضا برای رشته ها
انتشارات
برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی
بازدید از وب سایت


کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد. (Kurian and John, 2005)
علاوه بر آن، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.

نظرات() 
How we can increase our height?
یکشنبه 26 شهریور 1396 10:51 ب.ظ
Thank you for the auspicious writeup. It in truth used to be a leisure account it.
Glance advanced to more delivered agreeable from you!
By the way, how could we keep up a correspondence?
What do eccentric heel drops do?
سه شنبه 17 مرداد 1396 02:59 ب.ظ
Hi everyone, it's my first visit at this website, and post
is genuinely fruitful designed for me, keep up posting these articles
or reviews.
understoodafter82.snack.ws
جمعه 13 مرداد 1396 05:33 ب.ظ
Hey! Quick question that's totally off topic. Do you know
how to make your site mobile friendly? My web site looks weird
when browsing from my apple iphone. I'm trying to find a template or plugin that might be able to
correct this problem. If you have any suggestions,
please share. Cheers!
Do compression socks help with Achilles tendonitis?
شنبه 7 مرداد 1396 08:55 ق.ظ
Does your blog have a contact page? I'm having problems locating it but, I'd like to shoot you an email.

I've got some creative ideas for your blog you might be interested in hearing.
Either way, great website and I look forward to seeing it develop over time.
 
لبخندناراحتچشمک
نیشخندبغلسوال
قلبخجالتزبان
ماچتعجبعصبانی
عینکشیطانگریه
خندهقهقههخداحافظ
سبزقهرهورا
دستگلتفکر

آمار وبلاگ

  • کل بازدید :
  • بازدید امروز :
  • بازدید دیروز :
  • بازدید این ماه :
  • بازدید ماه قبل :
  • تعداد نویسندگان :
  • تعداد کل پست ها :
  • آخرین بازدید :
  • آخرین بروز رسانی :