Львиная доля опрошенных в ходе нового исследования назвала интеграцию данных самой сложной частью проектов по большим данным. 79% респондентов отметили, что им пока не удалось до конца интегрировать данные из различных источников.
В исследовании «Разгадывая головоломку данных: как успешные компании заставляют большие данные работать» (Cracking the Data Conundrum: How Successful Companies Make Big Data Operational) эксперты консалтинговой компании Capgemini сформулировали несколько интересных наблюдений о том, как внедряются большие данные в крупнейших мировых корпорациях и что им мешает. В опросе приняли участие 226 руководителей подразделений по работе с большими данными из ритейла, промышленности, финансовых организаций, энергетических, коммунальных и фармацевтических компаний. В географию исследования вошли Европа, Северная Америка и Азиатско-тихоокеанский регион.
79% опрошенных в ходе исследования Capgemini назвали интеграцию данных самой сложной частью проектов по большим данным и отметили, что им пока не удалось до конца интегрировать данные из различных источников. Главную трудность при внедрении составляют разрозненные массивы информации. При этом 27% респондентов назвали опыт внедрения аналитики больших данных «удачным» и только 8% охарактеризовали его как «очень удачный».
Только 38% респондентов констатировали, что пилотные проекты по внедрению больших данных в их компании оказались успешными. Однако экспертам бывает сложно оценить даже то, что топ-менеджеры называют успешным внедрением: по данным Capgemini в 67% компаний, принявших участие в исследовании, нет четко сформулированных критериев для того, чтобы судить об успехе внедрения больших данных.
Два основных препятствия на пути полномасштабного внедрения технологий больших данных – это отсутствие единой системы управления потоками информации и зависимость от ранее установленных систем. Многие корпорации до сих пор «привязаны» к ранее установленным системам: по данным Capgemini, только 36% используют облака для хранения больших данных и работы с аналитическими платформами, а 31% использует open-source-решения.
«В проекте больших данных обычно ставится задача подтянуть не только хорошо структурированные и «организованные» данные, но и те, которые собираются вне стандартных бизнес-процессов, а также внешние данные из различных источников, чтобы анализировать эти наборы в комплексе. Но мутное «озеро данных», собранное из неполных, некачественных и плохо совместимых источников вряд ли даст качественные ответы на вопросы бизнеса, – говорит Татьяна Лякишева, директор направления генерации, сбора, очистки и атрибутирования данных IBS. – Если до начала работ не была проведена ревизия источников и оценка их пригодности для решения поставленной задачи, проблемы данных выявляются только на этапе непосредственно интеграционной разработки».
Чтобы справиться с проблемой интеграции, эксперт рекомендует внедрять процессы управления данными, провести ревизию источников и задуматься над созданием системы управления мастер-данными. При постановке интеграционных задач Лякишева считает обязательным провести профилирование источников и определить критерии качества, требуемого для решения конкретной бизнес-задачи.
Несмотря на то, что в исследовании Capgemini преимущественно говорится о проблемах проектов больших данных, общий тон остается весьма оптимистичным. 60% топ-менеджеров уверены в том, что технологии обработки больших данных смогут поменять правила игры в их индустрии в ближайшие три года. «Я вижу, как большие данные входят в тот же цикл развития, что и интернет или e-commerce. На этом рынке лишь немногие компании преуспеют. Те компании, которые работали с большими данными, но потерпели поражение, все равно приобретут бесценный опыт. Они увидят, насколько важную роль играет основанное на анализе больших данных принятие решений в бизнесе. Успехи отдельных игроков на рынке станут катализатором и ускорят реализацию других проектов», – комментирует вице-президент Capgemini и глава отдела управления бизнес-данными Джеф Хантер (Jeff Hunter).
По его словам, сегодня к работе корпораций с большими данными применимо то же правило, что и к стартапам: лучше быстро «провалиться», чтобы осознать ошибку в управлении, а в итоге – стать успешнее и научиться извлекать бизнес-дивиденды из аналитики больших данных.