Data Mining и системы поддержки принятия решения

Прикладные науки

По некоторым данным в 2002 году объем информации в мире увеличился на 5 млрд.Гб, по другим данным – удваивается каждый год. in2003 год – одна из самых больших БД имела 500000Гб. Data Mining (knowledge discovery in data) – обнаружение данных в памяти, это процесс нахождения новых полезных данных значений в БД.

Системы поддержки принятия решения (СППР)

СППР – это программные системы, призванные облегчить работу аналитиков. Основные задачи, решаемые СППР:  ввод данных; хранение данных; анализ данных

Основная цель СППР – предоставить аналитикам инструмент для анализа данных.

По степени интеллектуальности обработки данных выделяют 3 класса СППР:

1)информационно – поисковые (Online Transaction Processing или OLTP – обработка транзакций в Online. OLTP – это быстрое обслуживание относительно простых запросов большого числа пользователей.  Время ожидания не более нескольких секунд. Области применения: системы платежей, система оплаты за телефон, системы резервирования мест в поездах).

2) интеллектуальные (Data Mining) осуществляют поиск закономерностей накопленных данных, строит модели и правила предметной области.

3) оперативно – аналитические (Online Analitical Processing или OLAP) – выполнение более сложных запросов, требующих статистической обработки накопленных данных. Примеры запросов: OLTP —  есть ли свободное место в купе поезда. OLAP – каким будет объем продажи билетов следующие 3 месяца с учетом сезонных колебаний.

Структура СППР:

  

Неэффективность использования OLTPсистем для анализа данных

Основной причиной неэффективности является противоречивость требований предъявляемых к системам OLTP и СППР.

Характеристика

Требования к системе OLTP

Требования к системе анализа

1. Степень детализации данных

Только детализированные данные

Детализированные и обобщенные данные

2. Качество данных

Допускаются ошибки

Не допускаются ошибки

3. Формат хранения данных

В разных форматах

Единый формат

4. Количество данных

Оперативные данные (нужные в данный момент)

Накопленные в течении продолжительного времени данные

5. Время обработки обращения

Несколько секунд

Несколько минут

6. Характер нагрузки на процессор

Постоянно-среднее

При выполнении запроса на 100%

Решение проблемы противоречивости требований для БД, OLTP и анализа является анализ на основе хранилища данных (ХД).

Book-Science
Добавить комментарий