فصل کتاب: چگونگی تلخیص داده ها (کاهش بعد) در فرآیند داده کاوی

فصل کتاب: چگونگی تلخیص داده ها (کاهش بعد) در فرآیند داده کاوی

مهمد کانتاردزیک1 مرتضی ذاکر2

1) استاد تمام داشگاه لیوزویل آمریکا
2) دانشجوی دکتری مهندسی نرم افزار و عضو هیت علمی دانشگاه

محل انتشار : کنگره بین المللی علوم مهندسی و توسعه شهری پایدار - کپنهاگ(dtuconf.eu)
چکیده :
گام‏های پیش‏پردازش به عنوان آماده‌سازی داده‏ها برای داده‌کاوی در مورد مجموعه‏های داده‌ای کوچك ومتوسط، كافی می‌باشند. برای مجموعه‏های داده‌ای بسیار بزرگ،‌ امکان افزودن یک گام اضافی و میانی، تلخیص داده‏ها، که پیش از به‏کارگیری فنون داده‌کاوی بایستی انجام شود وجود دارد‌.زمانی که مجموعة‌های داده‌ای بزرگ قابلیت ارائه نتایج بهتر داده‌كاوی را دارند، هیچ تضمینی در مورد ارائه دانش بهترتوسط اینها نسبت به مجموعه‏های كوچك وجود ندارد. حال در مورد داده‏های چند بعدی داده‌شده، سئوال اصلی این است كه آیا می‌توان قبل از جست‏وجوی تمامی راه حل‌های مسأله داده‌کاوی در تمامی ابعاد، قابلیت روش مذكور را برای كاوش و كشف در یك مجموعة تلخیص شده از داده‏ها تعیین كرد. یك راه حل بسیار متداول از یك زیر مجموعه‌ای از حالات یا ویژگی‌های قابل دسترس استنتاج شده، در صورت بزرگ شدن فضای جست‏وجو، این راه‌حل تغییری نخواهدكرد. موضوع اصلی برای پیاده‌سازی داده‏ها در این گام, تلخیص ابعاد می‌باشد و سئوال اصلی این است كه آیا می‌توان برخی از این داده‏های آماده و پیش پردازش شده را بدون لطمه زدن به كیفیت نتیجه حذف كرد؟ یك سئوال دیگر نیز در رابطه با فنون تلخیص داده‏ها مطرح می‌باشد. آیا داده‏های آماده شده را می‌توان بازنگری كرد و یك زیر مجموعة ‌مناسب از نظر زمان و فضا پیدا كرد؟ اگر پیچیدگی الگوریتم تلخیص داده‏ها به صورت نمایی افزایش یابد، آنگاه تلخیص ابعاد در داده‏های بزرگ بسیار اندک خواهد بود. در این مقاله، فنون پایه‌ای و نسبتاً كارا برای تلخیص بـُعد كه در مسائل مختلف داده‌كاوی کاربرد دارند را معرفی می‌کنیم.
کلمات کلیدی : تلخیص(کاهش) ابعادی, آنتروپی و تحلیل مولفه‏ ها, فنون‌ادغام, رتبه‌بندی ویژگی , پیش پردازش فرآیند داده‌كاوی.