Data Mining и системы поддержки принятия решения - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Data Mining и системы поддержки принятия решения

Разместил: Admin, 21 April 2011

По некоторым данным в 2002 году объем информации в мире увеличился на 5 млрд.Гб, по другим данным – удваивается каждый год. in2003 год – одна из самых больших БД имела 500000Гб. Data Mining (knowledge discovery in data) – обнаружение данных в памяти, это процесс нахождения новых полезных данных значений в БД.

Системы поддержки принятия решения (СППР)

СППР – это программные системы, призванные облегчить работу аналитиков. Основные задачи, решаемые СППР:  ввод данных; хранение данных; анализ данных

Основная цель СППР – предоставить аналитикам инструмент для анализа данных.

По степени интеллектуальности обработки данных выделяют 3 класса СППР:

1)информационно – поисковые (Online Transaction Processing или OLTP – обработка транзакций в Online. OLTP – это быстрое обслуживание относительно простых запросов большого числа пользователей.  Время ожидания не более нескольких секунд. Области применения: системы платежей, система оплаты за телефон, системы резервирования мест в поездах).

2) интеллектуальные (Data Mining) осуществляют поиск закономерностей накопленных данных, строит модели и правила предметной области.

3) оперативно – аналитические (Online Analitical Processing или OLAP) – выполнение более сложных запросов, требующих статистической обработки накопленных данных. Примеры запросов: OLTP -  есть ли свободное место в купе поезда. OLAP – каким будет объем продажи билетов следующие 3 месяца с учетом сезонных колебаний.

Структура СППР:

  

Неэффективность использования OLTPсистем для анализа данных

Основной причиной неэффективности является противоречивость требований предъявляемых к системам OLTP и СППР.

Характеристика

Требования к системе OLTP

Требования к системе анализа

1. Степень детализации данных

Только детализированные данные

Детализированные и обобщенные данные

2. Качество данных

Допускаются ошибки

Не допускаются ошибки

3. Формат хранения данных

В разных форматах

Единый формат

4. Количество данных

Оперативные данные (нужные в данный момент)

Накопленные в течении продолжительного времени данные

5. Время обработки обращения

Несколько секунд

Несколько минут

6. Характер нагрузки на процессор

Постоянно-среднее

При выполнении запроса на 100%

Решение проблемы противоречивости требований для БД, OLTP и анализа является анализ на основе хранилища данных (ХД).

Хранилище данных (Data Warehouse)

Начало 90х годов – появилась эта концепция, в ее основе лежит идея о разделении данных для OLTPи OLAP систем. При этом данные для OLTP называются оперативными источниками данных (OUD). ХД-предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованных для целей поддержки принятия решений.

  1. Предметная ориентация.

Является фундаментальным отличием ХД от OUD. Позволяет хранить в ХД только те данные, которые нужны для их анализа.

  1. Интеграция.

ХД позволяет интегрировать информацию, отражающую разные точки зрения на одну предметную область.

  1. Поддержка хронологии.

Для анализа данных важно иметь возможность отслеживать хронологию изменений.

  1. Неизменяемость.

Данные, которые не нужны для оперативной обработки из OUD удаляются. Напротив, для анализа требуются данные за максимальный промежуток времени.

Структура ХД(OUD)

 

 В теории утверждается, что дублирование данных (которые хранятся и в OUD, и в ХД) будет составлять не более 1%. Это объясняется:

- фильтрация данных при переносе из  OUD в ХД

- в ХД хранится историческая информация, которая удаляется из OUD.

- в ХД информация обобщается

Избыточность информации можно свести к нулю, используя виртуальное ХД.

СППР с виртуальным ХД

В отличие от физического ХД данные из OUD не копируются в единое хранилище, а извлекаются непосредственно при выполнении запросов.

 

 Достоинства виртуального ХД:  минимизация объема памяти;  работа с текущими детализированными данными

: 2.9/5 (223 )

Похожие статьи
1: 
База данных
База Данных - логически структурированное хранилище данных, находящееся на элетронном носителе информации и имеющее собственную схему, предписывающую способы взаимодействия с ней. База Данных (или сокращенно - БД) является разновидностью хранилища да...
2: 
Мебель для сидячей работы
Основная статья - Мебель. Мебель для сидячей работы - тип мебели (по назначению), основным предназначением которого является обеспечение возможности выполнения каких-либо профессиональных рабочих функций ее пользователя с наибольшей функциональностью...
3: 
Понятие ценности информации
Возможны различные подходы к определению ценности информации. 1. Денежная стоимость: полная денежная стоимость получения информации (закупки, поиска, формирования собственными силами с учетом сопутствующих затрат); стоимость длительного хранения инфо...
4: 
Программа дисциплины Базы данных
Цель дисциплины изучение фундаментальных концепций и принципов построения реляционных баз данных и освоение базовых технологических приемов разработки локальных и многопользовательских приложений в современных СУБД. Основные задачи: ознакомление студ...
5: 
Элементы информационных систем
Любая информационная система для решения поставленной прикладной задачи оперирует с той или иной частью реального мира предметной областью, которая рассматривается как некоторая совокупность реальных объектов (сущностей) и связей между ними. Предметн...
Пользователей онлайн: 26
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016