В России корпоративные хранилища данных (КХД) начали активно внедряться около 15 лет назад. Цифровая зрелость компаний в этом направлении уже значительно выросла. Тех, кому нужно создавать хранилище с нуля, становится все меньше. Более актуальным стал вопрос развития существующих КХД. Об особенностях этого процесса рассказывает Михаил Рощин, заместитель директора отделения управления проектами и архитектуры IBS.
Благодаря КХД компания может работать с большими объемами данных, стоить различную аналитику, находить возможности для оптимизации процессов. Недостаточно просто внедрить хранилище, в любом случае потребуется его развитие, как с точки зрения потребностей бизнеса, так и выхода компании на уровень новых технологий.
Хранилище данных всегда отражает текущее состояние бизнеса. Если компания расширяется, запускает новое направление, КХД должно трансформироваться вслед за бизнес-процессами и предоставлять аналитику по изменившимся вводным. Организационные изменения в структуре бизнеса тоже влияют на КХД. Когда две крупные организации принимают решение о слиянии, они начинают объединять свои активы, в том числе ИТ. Возникает необходимость выбрать систему, которая станет основной, либо найти способ «подружить» существующие. Долговременное использование нескольких хранилищ данных в одной компании — не самая лучшая стратегия. КХД должно обеспечивать консолидацию данных и выступать в роли единого источника достоверной информации.
Второе направление развития КХД — технологическое. Это может быть импортозамещение из-за ухода вендора с рынка, выполнение новых требований регуляторов по срокам хранения данных либо ответ на то, что текущие решения не справляются с нагрузкой на фоне возросших объемов данных.
Чаще всего у бизнеса нет выбора, развивать хранилище или нет. В большинстве случаев это объективная необходимость, продиктованная внешними факторами. При этом задачи по развитию КХД всегда решаются в комплексе. Не бывает так, что компания занимается только импортозамещением, полностью забывая о получении прибыли. Как правило, технологические трансформации совпадают с тем, что некоторые бизнес-процессы, сформировавшиеся 5–10 лет назад, утратили актуальность и требуют пересмотра.
Объем затрат на развитие КХД в разных компаниях отличается. По нашим оценкам, в среднем на эти цели приходится около четверти всех ИТ-инвестиций организации, остальное идет на поддержку и развитие других систем. В зависимости от приоритетов в конкретный момент времени это соотношение может меняться: если модернизация КХД — ключевая задача, на эти цели может быть направлено до 90% инвестиций.
В целом мировой рынок аналитики данных растет на 12% в год. На эти цифры можно ориентироваться, оценивая динамику в области КХД. Однако подобные показатели не всегда линейны. Появление перспективной технологии, позволяющей по-новому собирать или анализировать данные, может в момент дать взрывной прирост.
Хранилище данных нуждается в постоянном развитии. Один из явных признаков того, что необходимы перемены, — возникновение проблем при росте объемов данных. Например, начались сбои при формировании отчетов или загрузка данных вместо нескольких часов стала занимать больше суток. Если время на выполнение той или иной операции выходит за рамки регламента, надо принимать меры.
Запросы бизнеса со временем меняются. Еще лет пять назад пользователи спокойно относились к тому, что подготовка отчета занимает день. Сейчас ожидание в 15 минут может быть слишком долгим. К тому же желательно, чтобы данные были доступны с мобильного устройства.
Есть еще один хороший показатель, сигнализирующий о необходимости развития КХД: если бизнесу проще получить какую-то аналитику вручную, а не с помощью инструментов хранилища данных, значит, с КХД проблемы.
Кроме того, не редкостью становится ситуация, когда из компании уходит целая команда ИТ-специалистов и хранилище остается без технической и сервисной поддержки. В случае некачественно задокументированных процессов вместе с командой можно потерять и технологии. Это тревожный сигнал для бизнес-пользователей и владельцев компаний: нужно не просто исправить саму ситуацию, но и принять меры для недопущения подобного в будущем. Для решения проблемы желательно привлечь внешнего подрядчика с опытом работы в этой сфере. Специалисты проведут аудит, реверс-инжиниринговые работы, восстановят документацию, обучат сотрудников, при необходимости возьмут поддержку и развитие хранилища на себя.
Развитие КХД — это непрерывный, цикличный процесс, который не совсем корректно делить на отдельные этапы. Один и тот же цикл повторяется снова и снова, но каждый раз начинается на более зрелом уровне.
Этапы внутри цикла представляют собой стандартные шаги, знакомые по любому процессу разработки. Все начинается с осознания потребности изменений, затем проводится их анализ, формируется документация. После этого осуществляются разработка, тестирование и вывод изменений в продуктив.
Сами циклы могут идти параллельно и асинхронно. В рамках одного хранилища часто ведется одновременная разработка сразу нескольких компонентов, при этом команды могут находиться на разных этапах: кто-то уже завершает тестирование, а кто-то еще только выявил потребность.
При развитии КХД нужно стремиться к сокращению time-to-market — времени от момента, когда бизнес осознает необходимость изменений, до их внедрения в систему. Чем короче этот цикл, тем выше гибкость компании и тем быстрее она реагирует на рыночные вызовы.
Желательно действовать проактивно. Например, если бизнес понимает, что через месяц стартуют новые маркетинговые программы, ИТ-команда должна заранее начинать подготовку. К моменту запуска все должно быть готово: и система, и отчеты, и потоки данных. Если же на создание пула отчетов, которые нужны бизнесу сейчас, уходит полгода, нужно задуматься об эффективности процессов.
Стоит признать, что технический долг по развитию хранилища будет всегда. Это естественное состояние любой сложной системы. Можно провести аналогию с уборкой дома: даже если все идеально вычищено, вскоре снова появляется пыль. В хранилище тоже регулярно возникает необходимость в дополнительных доработках. Их следует рассматривать как нормальный бэклог задач, который нужно планомерно отрабатывать, определяя приоритеты.
На рынке сейчас достаточно специалистов для работы с КХД, а отечественные и open source-решения в целом выполняют функции импортозамещения, пусть пока и не достигли уровня зрелости продуктов от глобальных вендоров. Среди преимуществ российских ИТ-решений можно отметить стоимость лицензий и более оперативную реакцию разработчиков на запросы пользователей.
С развитием искусственного интеллекта роль КХД становится еще значимее. Хранилище является фундаментом, на котором строятся все остальные решения. Например, машинное обучение (ML).
ML-модели уже хорошо зарекомендовали себя в прогнозировании, демонстрируя существенный прирост точности. На синтетических данных она может достигать 90%, для «живых» данных отличным показателем считается точность 70-80%. Если говорить про использование ML-моделей непосредственно внутри КХД, они отлично справляются с задачами, связанными с обеспечением качества данных: помогают проводить их нормализацию, находить корреляции, выбросы и т. д. Такие инструменты особенно востребованы там, где есть долгие рутинные операции либо применяется сложный поиск.
Среди перспективных направлений для развития КХД также можно назвать Data Lakehouse — архитектурный подход, сочетающий достоинства классического хранилища данных и озера данных. Эта модель умеет работать со структурированными и неструктурированными данными, хорошо масштабируется, а также поддерживает высокую нагрузку, динамически распределяя ресурсы. Массовых внедрений Data Lakehouse пока нет, но лидеры рынка уже активно пробуют такую архитектуру. Еще один интересный подход — Data Mesh, децентрализованное управление данными.
Внедрение подобных решений — это длительные и достаточно дорогостоящие проекты. На любую молодую технологию участники рынка смотрят настороженно и одновременно с надеждами: можно вложиться и получить много преимуществ, а можно прогадать. Так что требуется продуманный подход и умение работать с новой технологией. Не стоит забывать и про устоявшиеся проверенные решения — классические хранилища данных, фабрики данных и т. д.
В процессе развития КХД важно опираться на современные технологии и подходы. Однако внедрение не должно реализовываться просто ради технологии, основная задача любого нового решения — реальная помощь бизнесу.