По некоторым данным в 2002 году объем информации в мире увеличился на 5 млрд.Гб, по другим данным – удваивается каждый год. in2003 год – одна из самых больших БД имела 500000Гб. Data Mining (knowledge discovery in data) – обнаружение данных в памяти, это процесс нахождения новых полезных данных значений в БД.
Системы поддержки принятия решения (СППР)
СППР – это программные системы, призванные облегчить работу аналитиков. Основные задачи, решаемые СППР: ввод данных; хранение данных; анализ данных
Основная цель СППР – предоставить аналитикам инструмент для анализа данных.
По степени интеллектуальности обработки данных выделяют 3 класса СППР:
1)информационно – поисковые (Online Transaction Processing или OLTP – обработка транзакций в Online. OLTP – это быстрое обслуживание относительно простых запросов большого числа пользователей. Время ожидания не более нескольких секунд. Области применения: системы платежей, система оплаты за телефон, системы резервирования мест в поездах).
2) интеллектуальные (Data Mining) осуществляют поиск закономерностей накопленных данных, строит модели и правила предметной области.
3) оперативно – аналитические (Online Analitical Processing или OLAP) – выполнение более сложных запросов, требующих статистической обработки накопленных данных. Примеры запросов: OLTP — есть ли свободное место в купе поезда. OLAP – каким будет объем продажи билетов следующие 3 месяца с учетом сезонных колебаний.
Структура СППР:
Неэффективность использования OLTPсистем для анализа данных
Основной причиной неэффективности является противоречивость требований предъявляемых к системам OLTP и СППР.
Характеристика |
Требования к системе OLTP |
Требования к системе анализа |
1. Степень детализации данных |
Только детализированные данные |
Детализированные и обобщенные данные |
2. Качество данных |
Допускаются ошибки |
Не допускаются ошибки |
3. Формат хранения данных |
В разных форматах |
Единый формат |
4. Количество данных |
Оперативные данные (нужные в данный момент) |
Накопленные в течении продолжительного времени данные |
5. Время обработки обращения |
Несколько секунд |
Несколько минут |
6. Характер нагрузки на процессор |
Постоянно-среднее |
При выполнении запроса на 100% |
Решение проблемы противоречивости требований для БД, OLTP и анализа является анализ на основе хранилища данных (ХД).