"Видобуток даних є частиною процесу вищий ранг: відкриття знань. Тим не менше, Видобуток даних - це сам по собі процес, який, у свою чергу, складається з декількох фаз."
Попередня рекомендація, прочитайте:
Фази видобутку даних
Як раніше коментували, Видобуток даних є частиною процесу вищого рангу: відкриття знань. Однак видобуток даних - це сам по собі процес, який, у свою чергу, складається з декількох фаз.
Візьмемо за довідку модель CRISP (так званий міжгалузевий стандартний процес) Процес видобутку даних.
Ця модель надає опис життєвого циклу проекту Data Mining, фази цього проекту, відповідні завдання для кожної фази та різні взаємозв'язки між ними.
життєвий цикл проекту інтелектуального аналізу даних складається з шести фаз: розуміння бізнесу, розуміння даних, підготовка даних, моделювання, оцінка та розгортання.
На цьому рівні опису неможливо визначити всі відносини, однак важливо зазначити, що повторюваний рух між різними фазами важливий для забезпечення огляду, тобто, оскільки існує залежність між фазами та результатами, отриманими в них, після виконання завдань кожної фази необхідно перевірити їх вплив на решту, щоб зберегти узгодженість процесу.
Зв’язок може існувати між будь-якою фазою або завданням процесу інтелектуального аналізу даних, змінюється залежно від цілей процесу, його контексту або інтересу користувача до даних.
Подібно до того, що було прокоментовано вище, видобуток даних не закінчується після розгортання рішення. Прихована інформація, яка була виявлена під час процесу, і саме рішення може спровокувати нові запитання, що призводять до перезапуску всіх фаз у процесі вдосконалення, так що подальші процеси видобутку отримають користь від попереднього досвіду.
Далі ми побачимо невелику деталь кожної фази процесу:
Розуміння бізнесу
Це фаза, з якою відкривається процес. Він орієнтований на розуміння цілей та вимог проекту, починаючи з точки зору бізнесу.
Після цього необхідно набути цих знань даних (повторюємо, завжди з ділової точки зору) і перетворити їх на визначення проблеми інтелектуального аналізу даних, склавши попередній план відповідно до запланованих цілей.
Розуміння даних
Фаза розуміння даних починається з первинного збору даних, щоб продовжити діяльність, яка дозволяє ознайомитися з ними, що дозволяє виявити проблеми з якістю даних.
якість даних він має кілька вимірів: точність (що відображає те, що відбувається), цілий (що повні дані є в системі), шанс (доступний при необхідності), актуальність, рівень деталізації та послідовність (однакові дані у всіх областях або системах), тому потрібно буде перевірити, як дані у кожному з цих вимірів.
Таким чином ви можете почати виявляти перші уявлення про дані, виявляти ці цікаві інформаційні набори або підмножини для формування гіпотез, що дозволяють прогресувати у відкритті прихованої інформації.
Підготовка даних
На цьому етапі підготовки даних Ви хочете охопити всі дії, необхідні для адаптації вихідних даних та наближення їх до остаточного набору даних (дані, які будуть джерелом інструментів моделювання).
Завдання з підготовки даних чи очищення виконуватимуться неодноразово, не в будь-якому порядку. Серед цих завдань ми маємо вибір таблиць, записів та атрибутів, а також перетворення та очищення даних при підготовці до інструментів моделювання.
Моделювання
Як ми побачимо в наступному розділі, Існує безліч методів моделювання даних, які перебувають у цій фазі процесу, коли після набутих знань вибираються відповідні (завжди відповідно до бізнес-цілей та цілей проекту) та застосовуються.
На цьому етапі шукається наступне чотири типи відносин:
- Уроки- Спостереження призначаються групам за замовчуванням.
- Кластери: групи подібних спостережень будуються за заданим критерієм.
- Асоціації: спостереження використовуються для виявлення асоціацій між змінними.
- Послідовні візерунки: йдеться про виявлення моделей поведінки та тенденцій.
Серед цих методів ми можемо знайти: характеристика або резюме, дискримінація або контраст, аналіз асоціацій, класифікація, прогнозування, кластеризація або виявлення кластерів, виявлення аномалій, аналіз еволюції та відхилення... Існують також різні техніки вирішення однотипних завдань з обробки даних. Деякі методики мають конкретні вимоги до форми даних. Тому поверніться до етапу підготовки даних, щоб адаптувати їх до техніки, якщо це буде необхідно.
Оцінка
В результаті попередньої фази, на цьому етапі проекту вже побудована модель. Для забезпечення дотримання стандартів якості, запропонованих для проекту, необхідно оцінити його з точки зору аналізу даних. Тобто перед тим, як приступити до остаточного розгортання та запуску у виробництво, важливо провести групу тестів разом із переглядом кожного кроку, виконаного при створенні моделі, що допомагає порівняти отриману модель з бізнесом цілі.
Ключовою метою є визначити, чи всі ділові очікування були досягнуті, гарантуючи відсутність прогалин, які не були покриті.
Розгортання або експлуатація
На цьому етапі здійснюється експлуатація та використання результатів процесу видобутку даних, який, залежно від вимог, може бути простим, як створення звіту, або таким складним, як неодноразове проведення процесу видобування перехресних даних через компанії. Отже, У багатьох випадках використання здійснює сам клієнт, а не аналітик даних.
Видобуток даних - це ітераційний процес, отже, створення моделі не означає закінчення проекту. Знання, отримані в результаті процесу, знову чудово використовуються як вхідна інформація для відновлення чергового циклу повного процесу KKD.
Тобто, як тільки виявлені знання будуть представлені користувачеві, заходи оцінки можуть бути вдосконалені, майнінг може бути вдосконалений, нові дані можуть бути обрані або перетворені знову або нові джерела даних можуть бути додані…, Все це для отримання різних або більш відповідних результатів.