Общепринятого определения явления Big Data аналитики и эксперты пока не выработали. С одной стороны, объемы разноформатных данных, имеющих отношение к той или иной компании, объективно растут. С другой стороны, пока не всем понятно, зачем нужно тратить деньги на их хранение и как их можно использовать, чтобы эти затраты окупить.
Стремление понять, чего больше – маркетинга или живых потребностей бизнеса – стоит сегодня за «большими данными», познакомиться с опытом зарубежных и российских компаний, уже использующих их в повседневной деятельности, узнать о технологиях и продуктах, позволяющих эту деятельность вести, объединило участников мероприятия «Big Data Россия 2013», организованного Adam Smith Institute/Adam/SmithConferences в Москве.
В чем аналитики сходятся, так это в перечне характерных признаков Big Data. Помимо больших объемов, им свойственны высокая скорость возникновения, сложность и несогласованность. К «большим данным» может относиться как структурированная информация (в этом случае речь идет как раз об очень больших объемах), так и неструктурированная (комментарии пользователей в социальных сетях, их голосовые обращения в контактные центры, записи систем видеонаблюдения, действия, которые совершают абоненты со своих мобильных устройств). Кроме того, данные, попадающие в разряд «больших», можно условно разделить на внутренние и внешние.
Пионеры в области «больших данных» – ведущие системы интернет-поиска еще в 90-х годах научились автоматически обрабатывать огромное количество пользовательских запросов в минуту. Сегодня на переднем крае Big Data находятся кредитные организации, учитывающие данные о поведении клиентов в процессе скоринга для снижения кредитных рисков, операторы связи, маркетологам которых нужно формировать персонализированные предложения. За ними следуют торговые розничные сети, а также компании из других секторов, которым для успеха в бизнесе необходимо собирать, хранить и анализировать информацию о своих клиентах, заказчиках и партнерах. Например, BI-система National Speciality Retail компании Coca-Cola в США, обслуживающая более 2,4 тыс. пользователей, еженедельно обрабатывает более 20 тыс. запросов на отчеты, а также информацию о заказчиках ее продукции из социальных сетей. Тем не менее Джастин Хономан, вице-президент подразделения Coca-Cola North American Group, признал на конференции: для того, чтобы понять, что такое «большие данные», потребуется еще несколько лет.
Другой пример – внушительные объемы информации, которые обрабатываются в международной торговой сети Metro Cash & Carry, чья аналитическая система Data WareHouse интегрирует данные из различных источников и хранит их в детализированном виде в течение трех лет. К концу 2012 г. объем данных в ее хранилище составил 85 Тбайт. Кстати, в прошлом году в системе было запущено 8,5 млн отчетов в интересах 16 тыс. пользователей. Единым «источником правды для компании» назвал эту систему Александр Борисов, руководитель службы финансового контроля Metro Cash & Carry в России.
Такие области, как общественный транспорт и безопасность, тоже могут выиграть от обработки «больших данных», считает Денис Сизов, представлявший на конференции Gartner. Единых подходов к решению этой задачи и технологий, которые нужно использовать, пока не выработано. Однако отдельные проекты по анализу Big Data в интересах обеспечения информационной безопасности уже реализованы. Один из них – подсистема ИБ в крупном госрегуляторе (в каком именно, не раскрывается), позволяющая собирать, анализировать логи пользователей внутренних ИТ-ресурсов и на основании этого анализа находить ситуации, в которых их поведение отклонялось от стандартных сценариев. Эту подсистему на архитектуре, основанной на стеке IBM, создали для госзаказчика специалисты компании IBS.
Также в активе системного интегратора проект для зарубежной компании по построению корпоративной социальной сети для взаимодействия сообществ практиков и система анализа госзакупок для распределенной федеральной госструктуры. Последняя позволяет осуществлять поиск и анализ данных, в том числе единичных цен, идентифицирует предметы контракта, а также обеспечивает формирование динамических досье субъектов закупок. Располагает компания IBS и тестовой лабораторией, в которой представлены наработки в области бизнес-аналитики таких крупных вендоров, как Oracle, SAP, DMH, IBM, и лучшее достижение в области свободного ПО – технология Hadoop.
В области «больших данных» вышеупомянутые международные поставщики программного обеспечения двигаются по пути кооперации с сообществом разработчиков СПО и даже «усиливают» Hadoop своими продуктами, отметил Элиот Гойхман, директор по информационным технологиям МДМ Банка.
Для многих компаний – поставщиков программных средств бизнес-аналитики Big Data стали возможностью завернуть старую продукцию в новую бумагу. Абсолютно маркетинговым терминам назвал ее Вячеслав Цыганов, вице-президент и директор по информационным технологиям Банка «Тинькофф Кредитные Системы», работающего исключительно по виртуальной модели и обрабатывающего ежемесячно около 5 млн входящих и исходящих звонков. Увидев, что традиционные BI-системы, имевшиеся на его вооружении, перестают успевать за темпами развития бизнеса, банке сформулировал требования к новому решению. Помимо масштабируемости, оно должно было быть недорогим, вендоронезависимым, т.е. устанавливаться на любой стек. Одновременно была осознана потребность в получении больших объемов данных в режиме реального времени, чтобы максимально быстро реагировать на происходящие изменения. После изучения рыночных предложений поставщиком была выбрана компания Attunity. В подтверждение работоспособности разработанного ею решения спикер привел одну цифру: ежедневно в банке «Тинькофф Кредитные Системы» производится 3 млрд операций – вставок в хранилище данных.
Компаниям, желающим пойти по его пути, СIO банка посоветовал присматриваться к решениям, которые приходят «снизу» и распространяются через профессиональное community, а также присматриваться к опыту «соседних» индустрий.
Впрочем, и это признали многие участвовавшие в конференции эксперты, готовых решений, позволяющих бизнесу получить преимущества от анализа «больших данных», нет. Поэтому компаниям, прежде чем ввязываться в такой проект, предстоит понять, какие задачи они могут с его помощью решить, затем остановиться на тех или иных технологиях, которые им подходят, и, конечно же, сформулировать ожидания в отношении экономической эффективности Big Data.