Informix Logo


Informix Magazine Russian Edition Апрель 1998г.

Сара Рекорд

Строя рентабельные хранилища данных.

Если выбраны подходящие проект и архитектура, хранилище данных может обеспечить 400-процентный возврат инвестиций. 

Большинство организаций сегодня буквально тонут в данных и тем не менее продолжают накапливать все больше и больше информации. Развитие технологии сбора данных за последние 15 лет - появление штрих-кодов, к примеру - привело к тому, что деловой мир "затоплен" этими данными. И все же большинство предприятий начинают осознавать, что их базы данных способны обеспечить им преимущество в ожесточенной конкурентной борьбе. Стоит только проанализировать информацию своего предприятия, как сразу становятся ясно, как оно сможет развиваться, как изменятся требования к хранению его продуктов и покупательский спрос, а также как рынок будет реагировать на появление любой новинки. Именно в расчете на такие возможности многие крупнейшие компании начали строить - или уже построили - хранилища данных. Согласно недавнему исследованию META Group, 90 - 95% компаний списка Fortune 2000 активно применяют хранилища данных, чтобы добиться преимущества в конкурентной борьбе и получить значительно большую отдачу от своих инвестиций. 

Что такое хранилище данных?

Хранилище данных представляет собой информационный центр, в котором хранятся данные предприятия. Оно собирает информацию из унаследованных приложений, стандартизирует ее, приводя в соответствие наиболее распространенным бизнес-требованиям. Информация делается пригодной для анализа, принятия решений и выработки алгоритмов. 
Хранилища данных создаются не только для обеспечения лучшего доступа к данным. Гораздо более важна другая их функция - поддерживать многочисленные бизнес-процессы и принятие решений. Хранилища упрощают анализ, систематизируя прежде никак не связанные между собою данные; для их систематизации клиенты могут пользоваться практически неограниченным числом сценариев, кроме того есть возможность генерировать отчеты, составленные не с системной, а с деловой точки зрения. С точки зрения исполнительного директора, хранилище данных - это способ реорганизовать критически важную информацию на уровне всего предприятия, так, чтобы ею могли пользоваться работники, ответственные за принятие решений. 

Взгляд на данные предприятия как единое целое

Для многих компаний возможность получить представление о данных предприятия как едином целом - главная побудительная причина создания хранилища данных. Они стремятся знать гораздо больше об особенностях и пристрастиях своих клиентов. Например, сколько продуктов реально продается? Что влияет на изменене спроса? Какие товары или услуги приносят наибольший доход? Чем точнее руководитель ответит на такие вопросы, тем эффективнее ему удастся организовать работу и тем большую прибыль получить. 
Хранилища данных помогают оперировать информацией гораздо осмысленнее. Кроме того, в анализе оказывается задействована вся информация о предприятии, поскольку данные, используемые на нем для работы, хранятся в стандартизированном виде, а их логическая организация соответствует правилам бизнеса. Таким образом гарантируется, что разнообразные функции, обслуживающие все стороны деятельнсти предприятия - циркуляция товаров, доход, географическое распределение производства - складываются в целостную непротиворечивую картину. Можно согласовывать данные различных подразделний, позволяя компаниям выявлять и изучать возможности для нового взаимодействия. Так например, финансовый отдел может обращаться к маркетинговой информации, определяя как сказывается на объеме продаж проведение целевых рекламных компаний. 

Расходы и выгоды

Вопрос о том, во сколько может обойтись разработка хранилища данных, сродни вопросу о том, насколько высоки деревья - деревья вообще. По мнению экспертов, разработки хранилища для небольшого подразделения может стоить от 400 до 600 тыс. долл.; автоматизация большого подразделения на большом предприятии "выливается" в сумму от 800 тыс. до 1,5 млн. долл.; большой корпорации придется израсходовать около 15 млн. долл. Цена зависит от объема данных и продолжительности их хранения. Столь же разнятся и сроки разработки - от шести месяцев до двух лет, при создании крупного хранилища данных для большого предприятия. 
Так или иначе, вкладывать средства в хранилище данных просто необходимо. В таком случае хочется знать, хотя бы, как скоро они окупятся? За редкими исключениями, возврат инвестиций зависит от проекта, архитектуры и правильности управления хранилищем. Трехлетнее изучение опыта 62 организаций проведенное International Data Corporation (IDC) показало, что эти организации истратили на хранилища данных в среднем 2,2 млн. долл. - и получили 400-процентный возврат своих инвестиций. 

Первым делом бизнес, ну а технология потом

Залогом высокой отдачи инвестиций в хранилище данных служат, без сомнения, вот эти слова: проект, архитектура и правильность управления. Перед тем, как приступать к разработке проекта хранилища данных, администраторы информационных систем должны проявить достаточно мудрости, и учесть все перечисленные ниже факторы. 

Главный заказчик проекта. Хранилище данных станет "домом" для корпоративной информации, которая будет циркулировать по всему предприятию. Перед разработкой хранилища совершено необходимо, чтобы высшее руководство договорилось, какие цели стоят перед этой системой, и какие бизнес-задачи она будет решать, кто будет выделять для нее требуемые ресурсы - имеется в виду и назначение сотрудников, и предоставление финансирования. 

Поэтапная разработка. При работе над проектом хранилища данных деньги имеют свойство просачиваться сквозь пальцы как песок. Еще никто как следует не понял, что происходит, а средств уже нет и работа далека до завершения. Самое безопасное в данном случае заранее определить как будут протекать работы над проектом и финансировать его поэтапно (прежде всего, сбор и анализ требований, покупка аппаратного и программного обеспечения, системная интеграция и реализация). Финансировать каждый послдующий этап следует только тогда, когда завершен предыдущий. 

Участие пользователей. Конечные пользователи должны быть вовлечены в работу над проектом с начала до конца. Наиболее удачные проекты создавались командами, состоящими из равного числа специалистов в области бизнеса и информационных технологий. Одним из способов вовлечь в проект всех нужных специалистов может служить создание многофункциональных групп, объединяющих представителей всех основных отраслей. Члены таких групп учатся друг у друга и вырабатывают все новые способы улучшить работу, совершенствовать рабочие процессы и сделать деятельность групп более слаженной. 

Содержимое хранилища данных. Критически важно определить требования оранизации к хранимой информации. Не определив заранее, какие данные потребуются организации и как они соотносятся с другими данными, можно загубить все дело. 

Стандартизация. После того, как требования к данным и источники информации определены, крайне важно установить, как будут стандартизированы исходные данные, поступающие в хранилище.В противном случае, информация, хранимая в нем, может оказаться несовместимой или избыточной. Очень может случиться так, что некоторые подразделения внутри компании не захотят изменять характер работы, поэтому на этом этапе очень важна поддержка со стороны руководства. 

Метаданные. Эксперты особо подчеркивают важность метаданных, которые представляют собой своего рода индекс данных и определяют характер их хранения внутри системы. Важно правильно организовать данные, так чтобы создать метаданные, доступ к которым для анализа можно будет осуществлять из множества приложений. Следует помнить, что никакие операции не выполняются непосредственно с данными хранилища; для наиболее эффективного использования аналитических средств хранилище данных должно быть организовано иначе, чем операционная (operational) база данных. 

Организация, разумно тратящая деньги и тщательно определяющая свои требования, привлекающая для работы над хранилищем данных специалистов различных профилей, объединяя их в многофункциональные группы имеет все шансы преуспеть с создании хранилища данных в устойчивой структурой. Эта система позволит улучшить управление, за счет принятия решений на основании информации о клиентах, собранной со всего предприятия. Отдача - а она может достигать 400% вложенных средств - стоит времени и усилий, затраченных на разработку хранилища данных. 
 

Специализированные киоски данных

Многие компании, осознающие неоходимость разработки корпоративного хранилища данных, все же на в силах справиться со всеми задачима выделения, стандартизации и объединения терабайт данных. Вместо этого они предпочитают строить киоски (или витрины) данных (data marts) -- специализированные хранилища данных, посвященные только одному направлению деятельности организации. Киоск данных - это, чаще всего, наиболее управляемая разновидность хранилища данных. Его несомненный недостаток состоит в том, что без хранилища данных, которое охватывало бы информацию всего предприятия, невозможно сравнивать и анализировать данных по всем отделам и процессам. 
Во многих компаниях уже поняли, что киоски данных могут сослужить хорошую службу и даже стать единственно возможным решением для выполнения срочных аналитических задач, но создание специализированных киосков без предварительной разработки корпоративной инфраструктуры хранилища данных, может впоследствии привести к большим затруднениям. Если разные киоски данных предприятия не соответствуют единому стандарту, но все же окажется необходимым объединить содержащиеся в них данные в единое хранилище данных, придется выполнять очень трудные задачи реконструкции. 

Масштабируемость хранилища данных - большое, огромое, гигантское

При планировании будущего хранилища данных и определения требований к данным, масштабируемость становится важным фактором, влияющим на выбор аппаратной платформы. Фактически, хранилище данных никогда не бывает закончено. Для удовлетворения требований пользователей к размещению данных из все новых и новых источников, многие компании увеличивают свои системы, доводя их до невероятных размеров - подчас до 10 терабайт. 
Какие аппаратные технологии наиболее подходят для анализа столь больших объемов данных? Возможным решением может стать массивная параллельная обработки (MPP), которая лучше всего подходит для таких систем, где требуется обработка крупных объемов данных большой "глубины" в ограниченное время. Эта технология представляет собой идеальное средство для добычи данных, поскольку в отличие от традиционных ПК или мэйнфреймов, обеспечивает сканирование миллионов строк информации в течение считанных секунд. В других случаях, более производительными оказываются альтернативные технологии, такие как симметричная мультиобработка (SMP) или битовые хешированные индексы. Кроме того, немаловажно, что для реализации MPP требуется большие капиталовложения. Стоимость крупного хранилища данных на платформе MPP может достичь 15 млн. долл., а на платформе SMP - с аналогичными возможностями - от 1 до 2 млн. долл. 
 

Выбор РСУБД для хранилища данных

Масштабируемость хранилища данных служит решающим фактором и при выборе РСУБД, на базе которой оно будет развернуто. Эта система без преувеличения - сердце хранилища данных; она должна обеспечивать накопление и управление огромными объемами данных, гарантируя при этом простоту и быстроту доступа. 
Технология баз данных компании Informix под названием динамическая масштабируемая архитектура (Dynamic Scalable Architecture(TM), DSA) доказала, что способна удовлетворять требования к хранилищам данных, подобные тем, что предъявляются к мэйнфреймам. Развернутые на ее базе системы могут накапливать очень большие объемы информации и поддерживать множество пользователей, предоставляя им мгновенные ответы на сложные запросы, которые к тому же часто требуют анализа больших объемов данных. Технология DSA положена в основу целого семейства серверов баз данных Informix, которые обеспечивают управление базами данных на любом уровне предприятия. Основанные на этой технологии серверы масштабируются от гигабайт до многих терабайт информации и от приложений уровня подразделения до систем масштаба предприятия, работающих в средах SMP или MPP, подходящих даже для самых крупных хранилищ данных. 
Старший класс серии серверов DSA представлен семейством систем INFORMIX-OnLine Dynamic Server, INFORMIX-OnLine Extended Parallel Server (OnLine XPS) и INFORMIX-Universal Server. Из них OnLine XPS предназначен специально для обработки очень больших баз данных в кластеризованных средах SMP и MPP. INFORMIX-Universal Server представляет собой объектно-реляционную СУБД уровня предприятия. Благодаря поддержке сложных типов данных INFORMIX-Universal Server открывает двери целому новому поколению хранилищ данных. 

Больше, чем просто алфавитно-цифровые данные - новое поколение хранилищ данных

Традиционные реляционные базы данных способны хранить и обрабатывать только символьную информацию, числа, даты и большие бинарные объекты (BLOB). Этих возможностей сегодня явно недостаточно. Многие организации хотят использовать временные ряды, геопространственную информацию, выполнять статистические функции и другие типы данных, причем делать это с той же простотой, с какой прежде обрабатывались только алфавитно-цифровые данные. Кроме того, им необходимо, следуя за изменениями бизнес-требований, быстро и безболезненно добавлять новые функциональные возможности и новые функции хранилища данных. 
INFORMIX-Universal Server рассчитан как раз на удовлетворение этих, пока только зарождающихся требований. Повторно используемые модули расширения, получившие название DataBlade, которые интегрируются с сервером позволяют неограниченно расширять возможности хранилища данных, создавая настроенные решения для конкретных бизнес-задач. Существуют модули DataBlade для решения статистических задач, многомерного анализа, извлечения данных и их очистки, поддержки геопространственных данных, временных рядов, добычи данных, изображений, управления документами, видео, аудио и многих других типов данных и аналитических функций, составляющих основу реализаций хранилищ данных. 
 
Архитектура Universal Server позволяет организациям прозрачно использовать все эти типы информации непосредственно с базе данных, а не оперировать с ними вне ее, как это было необходимо при работе во всеми другими базами. Пользуясь аналитическими функциями системы INFORMIX-MetaCube, встроенной в Universal Server, можно определять функции анализа непосредственно в базе данных. В результате повышается производительность и масштабируемость самого хранилища данных и средств многомерного анализа. Все основные многомерные функции, включая определяемые пользователем, могут выполняться параллельно: определенное пользователем агрегирование, сравнительный анализ, анализ корзины, многомерное вращение и поддержка презентаций, и также выработка статистических профилей. Вопросы, для решения которых требуется больше данных, чем может сразу обработать аналитический процессор, такого типа, как "Каков уровень продаж во всех магазинах, входящих в сотню лучших в Западном регионе?" лучше обрабатывать в сервере базы данных, нежели в специальном присоединяемом приложении, так как в последнем случае может возникнуть переполнение трафика в сетях с низкой пропускной способностью. 
 

Статистические функции работают с данными

Предполжим, компания запасает в хранилище данных большую информацию о продажах. Как в этом случае установить связь определенных рекламных компаний с показателями продаж конкретного продукта? Проводя анализ традиционными средствами, придется извлекать данные из хранилища и размещать в открытом файле. С полученным файлом далее будут работать независимые статистические пакеты. Этот сложный процесс порождает миллионы строк записей и требует массу времени. 
Расширяемая серверная архитектура компнии Informix позволяет подключать статистические функции, реализованные в форме модулей DataBlade, непосредственно к базе данных. В результате, аналитики могут выполнить настроенный сложный статистический анализ не перегружая сеть, со скоростью и гибкостью, присущими параллельному, масштабируемому, объектно-реляционному процессору базы данных. 
 

Очистка данных

Аббревиатура GIGA (garbage in, garbage out) - мусор внутрь, мусор вон - как нельзя лучше характеризует то, что происходит в хранилище данных. Если хранилище перегружено неточными, повторяющимися, и, в силу этого, низкокачественными данными, принятые на их основе решения будут столь же некачественными. Именно поэтому вопрос очистки данных - обработки информации, загружаемой хранилище, гарантирующей ее точность и качество - имеет превостепенное значение для профессионалов в области ИС и производителей. 
Особое значение очистка данных приобретает тогда, когда информация собирается из множества унаследованных систем. К примеру, две операционные системы могут пользоваться различными структурами представления информации об одном и том же покупателе. Возможны разночтения в написании собственных имен, отличающиеся телфонные номера, другие несоответствия. Все они в конечном итоге приводят к тому, что при объединении информации из этих источников, по одному и тому же предмету в хранилище данных оказывается несколько записей. Предлагаются модули DataBlade для очистки данных которые позволяют анализировать данные на предмет ошибочных и повторяющихся записей. Пользуясь этими модулями можно и выполнять необходимые изменения. 
 

Простой геопространственный анализ

Геопространственная информация - адреса, почтовые индексы, указания широты и долготы, названия населенных пунктов и дорог - имеет решающее значение для принятия интеллектуальных решений по всем вопросам, так или иначе связанным с географией. Манипуляции с данными такого рода всегда отличались сложностью. Представим себе, что некая компания пытается оценить отдачу от вложений в предприятия, находящиеся на таком-то расстоянии от штаб-квартиры. Прежде подобные задачи решались с привлечением почтовых индексов. Для этого создавались программы длиной в миллионы строк, которые устанавливали соответствие между индексами и физическим расстоянием от определенной точки. Эти программы отличались особой неповоротиливостью, и именно они быстрее всего устаревали. Если компании случалось переехать в другой город, приходилось переписывать всю систему целиком. 
Другим затруднением является малое число приложений, способных обеспечить достаточную для географических систем масштабируемость и быстроту доступа. В большинстве своем географические данные хранятся в виде больших бинарных объектов (BLOB) в независимых открытых файлах. Географические информационные системы (GIS), к примеру, накапливают информацию в одной файловой системе, изображения - в другой, тексты - в традиционной реляционной базе данных или же в третьей файловой системе. От такого несоответствия страдает производительность, поскольку приходится осуществлять доступ и передачу больших объемов информации - подчас речь идет о многих терабайтах - между различными файловыми системами и базами данных. INFORMIX-Universal Server позволяет управлять сложными геопространственными данными в пределах одного информационного хранилища, только подключая соответствующий модуль DataBlade. 
 

Встроенная интеллектуальная поддержка временных рядов

Итак, предприятию нужно сравнить темпы возврата инвестиций в этом году со средними показателями за несколько прошлых лет. Этот вопрос относится к числу традиционных для хранилищ данных. Однако чтобы реализовать функции, с помощью которых было бы легко ответить на него, средствами традиционных баз данных, потребуется написать тысячи строк программ. 
Модули DataBlade, поддерживающие временные ряды, обеспечивают естественную поддержку регулярно повторяющихся событий, представленных в виде помеченных последовательностей данных. Можно легко установить фрагментацию по времени - по секундам, минутам, дням или, к примеру, месяцам или неделям. 
 

Высокопроизводительная добыча данных

Эффективность принятия решений, которую обеспечивает INFORMIX-Universal Server, безусловно определяется тем, что он может работать с модулем DataBlade, поддерживающим функции добычи данных. Эти функции служат лучшим средством выявления тенденция и устоявшихся схем, скрытых в "толще" информации. Компании из самых разнообразных отраслей - розничной торговли, финансов, здравоохранения, производства, транспортные и авиакомпании - уже широко применяют инструменты и технологии добычи данных дабы заставить работать всю информацию, накопленную ими за годы деятельности самостоятельно или полученную от других организаций. 
Средства добычи данных позволяют предсказать будущие тенденции, анализируя изменения, происходившие в прошлом. Умение заглянуть немного вперед дает бизнесменам преимущество в конкурентной борьбе. Кроме того, можно выявить новые взаимоотношения и закономерности, выделить новые классы в больших базах данных. Вопросы, которые традиционно требовали долгого анализа методом проб и ошибок, теперь решаются легко на основании уже имеющихся данных. Например, проанализировав базу данных по розничной торговой сети, можно установить, что 89% покупателей, приобретающих французкие вина и сыры, предпочитают также и Французкие булочки. 
Кстати, предприятия розничной торговли - самые большие потребители средств добычи данных. С помощью этих средств они выясняют, что представляют собой их клиенты, и как лучше их обслуживать. Финансовые службы пользуются добычей данных для выявления случаев мошенничества и оценки риска кредитования. Эта технология опирается на опыт, накопленный за годы исследований в области искусственного интеллекта, конкретнее говоря, индуктивного анализа данных. 
Для работы большинства технологий добычи данных сегодня требуется большое количество низкоуровневых атомарных данных, извлеченных из базы данных и размещенных в открытом файле, который должен быть обработен вне базы, чтобы с ним мог работать алгоритм добычи данных. При этом извелечении приводятся в движение терабайты данных, для которых требуется значительные ресурсы пропускной способности и памяти. INFORMIX-Universal Server обеспечивает оболочку для добавления новых сложных алгоритмов, таких как добыча данных непосредственно в объектно-реляционной базе данных. При этом операции добычи данных вообще не загружают сеть и не приводят к созданию файлов с повторяющейся информацией, поскольку весь анализ протекает непосредственно с хранилище данных. 
 

Создание хранилищ данных для получения преимущества перед конкурентами

Какого рода отдачу ожидают представители делового мира от хранилища данных? В действительности возможости этих систем почти безграничны. Так например, предприятия розничной торговли могут выполнять "тонкую настройку" структуры закупок и хранения, могут "заглянуть внутрь" каждого магазина, проанализировать эффективность каждого сервиса. Что же касается банков, то возможность разделять информацию, получаемую многочисленными службами - кредитных карт, займов, инвестиций и так далее - позволяет им значительно повышать эффективность работы. 
Во всех сферах деятельности хранилища данных неизмеримо повышает потенциал предприятий за счет прямого маркетинга. Используя информацию, собранную хранилищами данных, руководители могут увеличить инвестиции в наиболее прибыльные сферы деятельности и не тратить значительные средства на то, что прибыли не приносит. Не принимать хранилищ данных, значит не принимать необходимости поддерживать принятие стратегических решений и подвергать себя опасности быть оттертым назад более активными конкурентами. 

Сара Рекорд (sara@tdagroup.com) - работает в лаборатории The TDA Group в Лос-Альтосе (шт. Калифорния). Начиная в 1987 она пишет статьи по базам данных. 

 
Глоссарий 

Создание хранилища данных - Сбор информации, содержащейся с подсистемах предприятия, и объединение ее для формирования единого представления о деятельности компании. Масштаб получающейся в итоге системы зависит от того, является ли она хранилищем данных (уровень предприятия), или киоском данных (данные ограничены одним подразделением или бизнес-задачей). 
Хранилище данных - Огромная база данных, содержащая очищенные данные, собранные из различных систем поддержки транзакций. Перед записью в хранилище данные стандартизируются, кроме того в них исправляются ошибки, устраняются несоответствия, пропуски и избыточность. 
Киоск данных - Специализированное небольшое хранилище данных, посвященное одной бизнес-задаче. 
Метаданные - Данные о данных, находящихся в хранилище данных. Метаданные служат индексом информации и средством контроля за использованием данных. 
Оперативная аналитическая обработки (OLAP) - Известна также как многомерная обработка. Эта технология позволяет анализировать сложные запросы к базе данных. Вместо простого формирования отчета о работе, к примеру, всей торговой сети, эта система позволяет получать данные по группе магазинов в некотором конкретном регионе. 
Добыча данных - Тип системы OLAP, которая становится практически неотъемлемой частью приложений, в которых необходимо получить значимую информацию их огромной массы данных. Киоски данных представляют собой инструмент на основе искусственного интеллекта, позволяющий устанавливать закономерности, в том числе и скрытые, в хранимой информации, которые невозможно выявить другими средствами. 
Инструментарий для обработки запросов - Программное обеспечение, которое способствовало значительной демократизации доступа к базам данных. Прежде доступ к базам данных был прерогативой специалистов языка SQL. Теперь, пользуясь этим инструментарием, практически любой может обратиться к базе данных на естественном языке, затратив на разработку запроса несколько часов, а не недель. 
Хранилище данных Web - Хранилище данных, доступ к которому возможен из intranet или Internet. Стандарты Сети позволяют информации перешагнуть барьеры, созданные аппаратными платформами, или недостаточной подготовкой, и неизмеримо упрощают создание, применение и поддержку хранилища данных. 


Украинская баннерная сеть
 

[Home]

Сайт поддерживается группой пользователей Информикс на Украине.

Hosted by NO-more.