Data Mining и системы поддержки принятия решения - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Data Mining и системы поддержки принятия решения, страница 2

Разместил: Admin, 21 April 2011

Недостатки:  большое время обработки запросов; OUD могут быть недоступны; снижение быстродействия OLTP систем;  разнородность форматов различных OUD; !!!отсутствия хронологичности

Витрина данных

Это упрощенный вариант ХД, содержащий данные для решения аналитических задач конкретного подразделения фирмы или конкретных пользователей.

 

ВД – витрина данных.

Достоинства: проектирование ВД для ответа на определенный круг вопросов;  простота создания ВД;  повышение производительности

Недостатки:  дублирование данных в разных ВД;  отсутствие интеграции данных

Интеграция физического ХД с ВД


 Достоинства: простота создания и наполнения ВД; простота расширения СППР за счет добавления новых ВД; снижение нагрузки на основной ХД

Недостатки:  избыточность данных; усложнение разработки СППР

Существуют следующие виды архитектур СППР с ХД:

- СППР с физическим ХД

- СППР с виртуальным ХД

- СППР с ВД

- СППР с физическим ХД и с ВД

Задачи DATA MINING

В Data Mining  для представления знаний служат модели: правила; деревья решений; кластеры;  математические функции.

Основные задачи Data Mining:

- задача классификации – заключается в определении класса объекта по его характеристикам, причем множество классов заранее известны.

-  задача кластеризации – похожа на задачу классификации, но множество классов заранее неизвестно.

- задача регрессии - похожа на задачу классификации, но число классов бесконечно и сами классы являются действительными числами.

- поиск ассоциативных правил – нахождение частых зависимостей или ассоциаций между объектами, найденные зависимости представляются в виде правил.

Виды задач Data Mining:

  1. Описательные – решаются для улучшения понимания анализируемых данных (сюда относятся задача кластеризации и задача поиска ассоциативных правил)

Предсказательные – решение разбивается на 2 этапа: а) на основании известных данных строится модель. Б) модель используется для предсказания (задача классификации, задача регрессии, и задача поиска ассоциативных правил).

  1. Обучение с учителем (задачи классификации и регрессии)

Обучение без учителя (задача кластеризации и задача поиска ассоциативных правил).

Задача классификации и регрессии

В классификации – классы известны, в регрессии – нет.

Пример1: Определение кредитоспособности. Есть банк, который выдает кредиты. Приходит клиент. Определить дать кредит или нет. Определить кредитоспособен клиент или нет.

Пример2: Фильтрация электронной почты. Объекты – письма. Определить к какому классу относится письмо – спам или нет.

Пример3: Распознавание цифр. Объект – графический образ цифры. Отнести к классу.

Задачу классификации рассматриваем как задачу определения значения одного из параметров объекта на основании значений других параметров.

Определяемый параметр называется зависимой переменной, а параметры, участвующие в его определении – независимыми переменными.

Пример1: Независимые переменные – зп, стаж работы, возраст, семейное положение.

Зависимые переменные – кредитоспособность клиента = {да, нет}

Пример2: Независимые переменные – частота определения слов в тексте, адрес, рассылка.

Зависимые переменные – тип письма = {спам, не спам}

Пример3: Независимые переменные – цветность каждого пикселя.

Зависимые переменные – класс, т.е.набор значений = {0,9}

Задача регрессии – значениями зависимой переменной являются действительными числами.

Пример1: Зависимая переменная – сумма кредита.

Задача классификации и регрессии решается в 2 этапа:

1)           обучение – здесь формируется обучающая выборка. Это набор примеров, для которых известны и зависимые и не зависимые переменные.

Пример1: кредитные истории конкретных людей, отдал кредит или нет.

Пример2: набор слоев писем, зависимые – вручную, спам или не спам.

2)           распознавание или классификация.

Задачи кластеризации

Или кластерный анализ.

Пример1: задачи с сегментацией рынка (маркетинг)

Независимые параметры – географическое местоположение, социально – демографические характеристики, мотивы совершения покупок.

Пример2: периодическая таблица Менделеева.

После задачи кластеризации полученную информацию пытаются объяснить, т.е. а что означает такое разбиение на кластеры.

Поиск ассоциативных правил

Или анализ рыночных корзин.

Пример1: Человек покупает молоко, покупает и хлеб.

Пример2: медицина.

Пример3: сиквенциальный анализ последовательностей (анализ неисправностей в телекоммуникационных системах).

Собирается статистика за период каких –либо неисправностей в сетях, из статистики выделяются последовательности.

Практическое применение Data Mining

  1. Интернет - технологии. Пример – персонализация посетителей, построение рекомендованных систем.
  2. Торговля. Пример – что и как продается (анализ рыночных корзин, сиквенциальный анализ – анализ последовательностей, сегментация рынка, защита от мошенников).
  3. Телекоммуникации (анализ доходности и риска клиентов, защита от мошенничества, сегментация рынка).
  4. Промышленное производство ( прогнозирование качества изделия в зависимости от закономерных параметров технологического процесса).
  5. Медицина (извлечение правил для экспертных систем, биоинформатика).
  6. Банковское дело (определение кредитоспособности клиента, классификация клиентов по группам рисков, борьба с мошенничеством).
  7. Страховой бизнес (разбиение клиентов по группам).

: 2.9/5 (223 )

Похожие статьи
1: 
База данных
База Данных - логически структурированное хранилище данных, находящееся на элетронном носителе информации и имеющее собственную схему, предписывающую способы взаимодействия с ней. База Данных (или сокращенно - БД) является разновидностью хранилища да...
2: 
Мебель для сидячей работы
Основная статья - Мебель. Мебель для сидячей работы - тип мебели (по назначению), основным предназначением которого является обеспечение возможности выполнения каких-либо профессиональных рабочих функций ее пользователя с наибольшей функциональностью...
3: 
Понятие ценности информации
Возможны различные подходы к определению ценности информации. 1. Денежная стоимость: полная денежная стоимость получения информации (закупки, поиска, формирования собственными силами с учетом сопутствующих затрат); стоимость длительного хранения инфо...
4: 
Программа дисциплины Базы данных
Цель дисциплины изучение фундаментальных концепций и принципов построения реляционных баз данных и освоение базовых технологических приемов разработки локальных и многопользовательских приложений в современных СУБД. Основные задачи: ознакомление студ...
5: 
Элементы информационных систем
Любая информационная система для решения поставленной прикладной задачи оперирует с той или иной частью реального мира предметной областью, которая рассматривается как некоторая совокупность реальных объектов (сущностей) и связей между ними. Предметн...
Пользователей онлайн: 24
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016