Informix Logo


И.Т.Кадощук, Е.А.Липчинский
ОАО СЕРВЕР

Обзор технологий хранилищ данных.

 I. О чем мы говорим?

В настоящее время проблема использования большого объема накопленных данных является ключевой во многих организациях. Много усилий и средств прилагается для регистрации различных видов деятельности организации и хранения этой информации, но при этом ее большая часть не может быть использована теми, кому она более всего нужна - аналитиками и руководителями. Чаще всего эта информация доступна лишь тем подразделениям, в которых она собирается.
до недавнего времени схема использования накопляемых данных была следующей:
"База данных -> Средство Анализа"
При применении этой схемы проблемы использования накопляемых данных лежат в обеих областях.
Концепция Хранилищ данных (ХД) предлагает изменить эту схему, добавив еще одно звено, в котором концентрируется решение части указанных проблем:
"База данных -> Объекты Хранилища данных <-> Средство Анализа"
В данном материале сделана попытка рассмотреть некоторые аспекты применения этой схемы1.

II. Терминология

В области ХД, как и в любой недавно возникшей области, существует проблема терминологии. Рассмотрим основные термины.

* Хранилище данных

Это понятие является, наверное, наиболее широко трактуемым. для начала приведем ставшее уже классическим определение Б.Инмона:
Хранилище данных (Data Warehouse) это - "предметно-ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений".
достаточно часто под ХД подразумевается не только набор данных, но также и вся технология использования ХД.
В данном материале под ХД мы будем понимать только набор данных, причем не единственный, которой используется в рамках этой технологии.

* Витрина данных

Это понятие возникло несколько позже термина ХД, поэтому в некоторых источниках оно слито с понятием ХД.
В данном материале под Витриной (или Киоском) данных (Data Mart) мы будем понимать сравнительно небольшое ХД, сконструированное для использования неким подразделением с одним существенным отличием от ХД - в Витрине данных конечный пользователь может создавать свои собственные структуры данных.
Есть еще одна особенность у Витрин данных (ВД) - источником для большинства хранящихся там данных является ХД. Это приводит к тому, что при создании ВД редко используется инструменты по очистке, денормализации и унификации данных.

* Технология ХД

Под этим термином будем понимать технологию использования всех объектов связанных с ХД, как то:
* Хранилища данных
* Витрины данных
* Программное обеспечение

* Система Поддержки Принятия Решений

Термин "Система Поддержки Принятия Решений (DSS, СППР)" начал использоваться раньше возникновения концепции ХД, но до сих пор имеет множество трактовок. Ряд авторов используют его для названия всей системы в целом, включая источники данных, ХД, и средства представления и анализа данных.
В данном материале этот термин используется для обобщающего названия систем, специализированных на представлении и анализе специализированных данных, например, финансовых. При использовании технологии ХД эти системы не решают вопросы доставки, очистки интеграции данных. Кроме этого, так как СППР обычно решают вопросы некой конкретной области применения, они не всегда могут быть использованы в применении к специфической организации. В нашей же стране использование стандартных СППР очень часто бывает проблематичной.

* Информационная Система Руководителя

Информационная Система Руководителя (ИСР), как нам кажется, является не очень удачным переводом термина Executive Information System (EIS). дело в том, что такие системы обычно являются средством создания приложений без программирования, и поэтому используются не столько руководителями, сколько аналитиками, которые обычно, используя это средство, создают приложения, которыми уже пользуются руководители.

* Средства OLAP

В большинстве случаев под этим мудреным термином понимают удобную и красивую оболочку для навигации по многомерным данным. В связи с тем, что в настоящее время используется два типа хранения многомерных данных, существуют и два конкретизирующих термина:
* MOLAP - для работы с многомерными БД (Multidimensional Data Base или MDDB)
* ROLAP - для работы с реляционными БД.

* Операционные БД

Этот термин обозначает наши старые, добрые БД и введен для того, что бы подчеркнуть их существенное отличие от БД, используемых для реализации ХД.

* Средства Анализа

В данном материале этот термин обозначает весь спектр приложений для конечного пользователя, включая:
* ИСР
* СППР
* Средства OLAP
* другие специализированные средства анализа, прогноза и представления данных.

* Информационная Система Нового Поколения

В данном материале этот термин (ИСНП) вводится для обозначения всей системы, построенной по Технологии ХД, включая Источники данных, Хранилище данных и Средства Анализа.

III. Структура данных в ИСНП

A. Структура ИСНП

На Рис. 1 изображена общая структура данных в ИСНП для большой организации, имеющей самостоятельные, часто удаленные подразделения.
Операционные Базы данных (ОБД) являются основным источником информации, но не единственным. Не секрет, что часть информации (иногда даже существенная часть) храниться в форматах, не претендующих на громкое имя Базы данных. Самым распространенным таким форматом является текстовый файл, а средством доступа - файловая операционная система. Эти источники данных называются Внешними данными.
данные, попадающие в ХД, не используются напрямую системами представления и анализа. Эти системы получают данные из Витрин данных. Введение промежуточного понятия Витрин данных имеет ряд несомненных достоинств:
* Конечный пользователь работает только с теми данными, которые ему нужны.
* Повышается безопасность доступа к данным.
* Структура данных отражает требования конечного пользователя.
* Упрощается проектирование данных.
* Снижается нагрузка на основное ХД.

Хочется отметить, что понятие Витрины данных является логическим и поэтому затраты технического оборудования на их реализацию могут быть минимальны для небольших ХД. В дальнейшем с ростом ХД они легко могут быть перестроены на другую конфигурацию технического оборудования.
для больших организаций технология ХД реализуется в иерархической схеме ХД. для ХД верхнего уровня ХД уровнем ниже являются таким же источником данных, как и ОБД.
 

Рис. 1

 

B. Структура ХД

По определению Б. Инмона Хранилище данных это - "предметно-ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений".

1. Предметная ориентация

В отличие от традиционной схемы реализации информационной системы, где источником данных для Средств Анализа являются ОБД и данные ориентированы на обработку и функциональность систем сбора информации, данные в ХД ориентированы на решение задач анализа и представления данных. Предметная ориентация является фундаментальным отличием ОБД от ХД. Именно это свойство позволяет конечному пользователю работать с данными, охватывающими деятельность организации в целом. Разные приложения ОБД могут описывать одну и ту же предметную область с разных точек зрения и решение, принятое на основе данных, отражающих только одну сторону вопроса могут быть неэффективными, а порой и просто неверными.
Следует отметить, что предметная ориентация позволяет также существенно ускорить доступ к данным за счет предварительной переструктуризации данных в момент загрузки.
Предметная ориентация позволяет также хранить в ХД только те данные, которые необходимы для Средств Анализа, что существенно сокращает затраты на носители информации и повышает безопасность доступа к данным.

2. Интеграция

Различные ОБД разрабатываются различными коллективами разработчиков, зачастую в разное время и различными средствами разработки. Это приводит к тому что объекты, отражающие одну сущность, имеют различные наименования и единицы измерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.
Важность этого ключевого свойства ХД может быть продемонстрирована в различных аспектах:
* Единые правила наименования объектов
* Единые единицы измерения для однотипных объектов
* Единое физическое представление однотипных объектов
* Единые атрибуты представления однотипных объектов
* и другие.

3. Поддержка хронологии

Требования к эффективности ОБД диктуют достаточно жесткие рамки для временного периода непосредственно доступных данных. Некоторые данные в ОБД вообще не имеют временной привязки. Хронология данных в различных ОБД может осуществляться разными способами, например так, что одно и тоже значение даты в двух ОБД будет иметь различную трактовку.
Строгая и однотипная хронология в ХД позволяет решить все эти проблемы за весь временной период существования данных. В результате конечный пользователь всегда имеет точное и единое представление о временной привязке всех данных.

4. Неизменяемость

данные в ОБД могут добавляться, удаляться и модифицироваться. данные в ХД могут только загружаться и читаться. Это свойство ХД позволяет решить две проблемы:
* Однажды полученные результаты на основе исходных данных всегда сохраняют свою актуальность
* Повышение скорости доступа к данным.

На Рис. 2 изображена структура данных в Хранилище данных.
 

Рис. 2

Все данные в Хранилище данных делятся на три основных категории:
* Мета данные;
* детальные данные;
* Агрегированные данные.
В отличие от ОБД ХД имеет хорошо развитую структуру Мета данных (или данных о данных). Наличие Мета данных позволяет осуществлять быструю и удобную навигацию по различным уровням данных, а также сильно упрощает реализацию и использование Средств Анализа. Наличие Мета данных позволяет наглядно представлять реализованную структуру ХД, и для всех данных иметь информацию об источнике и произведенных над исходными данными операциях.
данные в ХД являются денормализованными, по сравнению с нормализованными данными в большинстве ОБД, которые обычно реализованы в реляционной модели. Это свойство ХД позволяет существенно повысить скорость доступа к необходимым данным, хотя и требует большей емкости носителей информации.
Наличие хорошо развитой иерархии агрегированных данных по уровням агрегации является отличительной чертой Хранилища данных.
Проведенные исследования показали, что большинство конечных пользователей не работают с детальными данными, а обращаются в основном с агрегированными показателями. Структура ХД отражает эту ситуацию и позволяет конечному пользователю быстро и удобно получать интересующую его агрегированную информацию с последующей навигацией по всем уровням агрегирования.
В процессе эксплуатации необходимость в ряде детальных данных может сильно упасть, что является причиной подразделения детальных данных на текущие и старые. В то время как текущие данные регулярно используются и поэтому хранятся на накопителях с быстрым доступом (в основном на жестких дисках), старые детальные данные могут хранится на более емких накопителях с более медленным доступом (например, на магнитных лентах).

IV. Участники ИСНП

Общая схема распределения функциональных ролей участников ИСНП представлена на Рис. 3.

Рис. 3

Следует отметить, что в реальных проектах участники могут совмещать или разделять выполнение функциональных обязанностей.
Все участники делятся на три основные группы:
* конечные пользователи
* группа развития
* группа поддержки
Так как технология ХД реализуется поэтапной реализацией проектов использования информации в отдельных предметных областях, то все группы участников могут работать параллельно, взаимодействуя друг с другом.

A. Конечные Пользователи

В системах ИСНП выделяют три типа конечных пользователей:
* Аналитики
* Среднее звено руководящих работников
* Высший эшелон руководства
Наиболее интенсивно используют данные по всем уровням агрегации аналитики. В их задачи входит глубокое и тщательное исследование данных с применением всех доступных Средств Анализа. Решение таких задач сопровождается серьезным изучением содержательной наполненности ХД, а также построением дополнительных структур данных в Витринах данных. Используя средства типа ИСР аналитики, методом создания приложений без программирования, могут строить приложения реализующие найденные в процессе исследований закономерности и представляющие результате в наиболее удобном для использования виде. Таким образом аналитики в ИСНП должны владеть не только методами исследования их предметной области, но и иметь представление о ХД, а также владеть инструментами ИСР. Во взаимодействии с группой развития аналитик может оказать неоценимую помощь в разработке дополнительных структур данных в ХД.
Среднее звено руководящих работников является ответственным за подготовку решений на уровне своего подразделения и поэтому использует данные ИСНП для информационной поддержки формирования решений. Этот тип конечных пользователей редко использует детализированные данные, сосредотачивая внимание на слабо и сильно агрегированных данных. В задачи руководителей входит также формулировка направлений исследования аналитиков. Инструментами работы с данными обычно являются стандартные СППР настроенные на использование в подразделении и специализированные приложения. При взаимодействии с группой развития помогают формулировать направления дальнейшего развития ИСНП.
Высший эшелон руководства в основном использует сильно агрегированные данные по основным показателям, отражающим деятельность организации в целом для принятия стратегических решений, применяя в основном специализированные приложения в виде интерактивных отчетов.

B. Группа Поддержки

В группе поддержки ХД выделяются следующие функциональные роли:
* Администратор ХД
* Поддержка пользователей
Функции администратора ХД значительно отличаются от функций администратора БД. Функции администратора ХД ориентированы на поддержку качества данных для анализа и поддержки принятия решений, в то время как функции администратора БД ориентированы на техническую поддержку ОБД.
Основные инструменты администратора ХД - монитор загрузки и монитор использования данных.
Контролируя информацию о загрузке данных в ХД, администратор ХД следит за выполнением регламента загрузки данных, а также за информацией автоматического контроля качества загружаемых данных, и в случае возникновения нарушений контактирует с ответственными за источник данных лицами. Ответственными за источник данных обычно назначаются руководители подразделений, осуществляющих сбор первичных данных.
Информация об использовании данных в ХД используется администратором при взаимодействии с группой развития для повышения эффективности и надежности работы.
Поддержка конечных пользователей включает в себя разработку методик и рекомендаций по использованию Средств Анализа, обучение специалистов, а также помощь в решении возникающих у пользователей проблем.

C. Группа Развития

В группе развития выделяются следующие функциональные роли:
* Постановщик задач
* Проектировщик данных
* Системная поддержка
* Разработчик приложений
Постановщик задач исследует информационные потребности организации, доступные источники информации, выделяя предметные области деятельности организации и формулируя направления и задачи развития ХД. В его обязанности входит также исследование потребностей в Средствах Анализа и постановка задач на разработку специализированных приложений.
Тесное взаимодействие с конечными пользователями и администратором ХД является необходимым требованием к постановщику задач. Только в этом случае конечные пользователи получат доступ к необходимой им информации с помощью наиболее эффективных средств.
Основной задачей проектировщика данных является создание логической структуры ХД, обеспечивающей эффективный доступ ко всем необходимым данным. Решая поставленную постановщиком задачу, проектировщик данных решает следующие проблемы:
* описание структуры детальных данных
* описание структуры агрегированных данных
* описание Витрин данных
* описание регламента и процедур загрузки, трансформации, контроля и очистки данных
Решение этих проблем невозможно без тесного сотрудничества с группой поддержки или разработки ОБД, являющимися источниками данных. При разработке логической структуры ХД большую ценность может иметь информация об использовании данных уже существующего Хранилища, полученная у администратора БД.
Системная поддержка ХД включает в себя определение и решение технических проблем создания и развития ХД. Сюда входит выбор платформы, ОС, необходимых требований по памяти и дисковому пространству, обеспечение безопасности данных и т.д.
При исследовании предметной области может выясниться, что для использования хранимой информации не достаточно стандартного набора Средств Анализа. В этом случае разработчик приложений занимается реализацией специализированных приложений анализа, прогноза и поддержки принятия решений. Обычно такие приложения строятся на основе более простых стандартных приложений, но в ряде случаев требуют отдельной серьезной разработки.

 

V. Программное Обеспечение

На Рис. 4 представлены основные компоненты ПО ИСНП.

Рис. 4

Программное обеспечение ХД делится на три основных категории:
* Средства Загрузки
* Средства Мониторинга
* Средства Создания и Развития

A. Средства Загрузки

для выполнения загрузки данных в ХД используется следующее ПО:
* диспетчер процессов
* Загрузчик данных
* Анализатор данных

1. Диспетчер процессов
для нормального функционирования ИСНП необходима регулярная загрузка новых данных в ХД. Разработка регламента процессов загрузки данных из источников является необходимой частью построения логической структуры ХД. диспетчер осуществляет выполнение процессов загрузки согласно регламенту.

2. Загрузчик данных
Источниками данных для ХД могут служить самые разнообразные ОБД, а также внешние данные в других форматах. Важно что бы загрузчик данных имел возможность доступа к максимальному количеству СУБД и других форматов данных. В функции загрузчика входит также трансформация данных в заданный формат.

3. Анализатор данных
Качество данных, из различных источников зачастую оставляет желать лучшего. Автоматический анализ данных на корректность и непротиворечивость является важной частью технологии ХД. данные, не прошедшие контроль, могут привести к выбору неверного решения и поэтому не должны быть доступны конечным пользователям.
Некоторые типы данных могут проходить обработку для выявления заранее неизвестных зависимостей и в случае обнаружения таковых создавать информативные структуры данных.

B. Средства Мониторинга

1. Монитор загрузки
цель использования технологии ХД - предоставление достоверных данных для Средств Анализа,поэтому необходимым средством является монитор загрузки данных, собирающий информацию о выполнении процессов загрузки данных и информирующий администратора о ходе этих процессов.

2. Монитор использования данных
Монитор использования данных является весьма полезной компонентой ПО для повышения эффективности доступа к данным, а также может предоставлять информацию о возможности перевода текущих детальных данных в статус старых детальных данных.

C. Средства Создания и Развития

Создание и развитие Хранилища данных требует следующих компонент ПО:

* СУБД Хранилища данных.
СУБД Хранилища данных должна быть ориентирована на особенности технологии ХД - работать с большими объемами данных, обеспечивать необходимую безопасность данных, позволять создавать очень сложные структуры данных (такие как многомерные базы данных), осуществлять быстрый многопользовательский доступ к данным.

* Средства управления структурой данных ХД.
для быстрой реализации логической структуры данных необходимо иметь удобное интерактивное средство управления структурой ХД. Качество этого средства определяет скорость разработки и развития ХД, поэтому является очень важным фактором. Средство используется не только разработчиками, но и конечными пользователями (аналитиками) для построения своих структур данных в Витринах данных и должно иметь удобный и понятный интерфейс.

* Средства задания источников данных.
Служит для задания источников данных, загружаемых в Хранилище, определения связи между структурами ХД и источников, создания процедур трансформации, очистки, автоматического анализа, задания регламента загрузки.

* Средства построения Витрин данных.
Витрины данных служат важной частью технологии ХД, и с развитием ХД часто бывает необходимо переносить Витрины данных на другое техническое оборудование, поэтому средство должно иметь гибкий интерфейс работы с Витринами данных.
 
Хочется отметить, что технология ХД хотя и помогает решать многие проблемы, само по себе не является панацеей от всех бед, а лишь улучшает уже давно используемый механизм, позволяя существенно увеличить объем и улучшить качество получаемых результатов. Поэтому не имеет смысла рассматривать концепцию ХД в отрыве от остальных компонент схемы.


Украинская баннерная сеть
 

[Home]

Сайт поддерживается группой пользователей Информикс на Украине.

Hosted by NO-more.