Технологии больших данных уже достигли зрелости, но функциональных решений на их базе не хватает, считает Сергей Кузнецов, директор по технологиям и руководитель комитета по R&D дивизиона данных IBS. В интервью CNews он рассказал о самых интересных стартапах, создающих решения для больших данных, и о роли российских разработчиков в укрощении больших данных.
CNews: Как вы оцениваете текущее состояние технологий больших данных? Есть еще много направлений развития или технологии уже достаточно зрелые?
Сергей Кузнецов: Технологическая зрелость уже наступила. Мы разработали ряд критериев, по которым рассматриваем решения вендоров при формировании своего продуктового портфеля. В их числе не только технологическая новизна платформы, но и легкость адаптации в России, наличие у вендора отраслевого опыта и консалтинговой экспертизы на нашем рынке. Эти критерии помогают выбирать решения, не только технологически зрелые, но и подходящие для нашего рынка.
Сейчас существует ряд хорошо проработанных технологий, причем как у больших производителей, так и у мелких компаний. При этом зачастую очень интересные технологические решения предлагают компании меньшего масштаба, стартапы. Однако у них могут быть пробелы, такие как сложная адаптация для российского рынка, нехватка отраслевой экспертизы, какие-либо другие нюансы.
CNews: Какие вы видите направления развития для этих технологий?
Сергей Кузнецов: Многие проблемы уже решены, но нет предела совершенству, и будут возникать новые алгоритмы и технологические подходы к хранению и анализу информации.
Сейчас очень серьезно развивается направление потоковой аналитики, которое за последние полтора года сформировалось как отдельная ниша и отличается от классических in-memory хранилищ данных, ярким примером которых является SAP HANA. С другой стороны, это не традиционное хранилище MPP-архитектуры (Massive Parallel Processing, массово-параллельная архитектура); на этом рынке лидируют Teradata, IBM и Oracle. Это действительно новая ниша, в которой есть несколько ярких стартапов, а также ряд решений от больших вендоров.
Мы проводили технологическую конференцию, посвященную «лямбда-архитектуре». Это набор технологических компонентов, соединенных вместе для решения задач потоковой аналитики. Она позволяет принимать очень быстрые решения на основе анализа входящего потока данных и архивной информации для потокового сегментирования.
Другое перспективное направление развития связано с организационными вопросами обработки больших данных, решаемых технологическим путем. Некоторые заказчики привлекают внешних поставщиков для решения аналитических задач, например, банковского скоринга или борьбы с мошенничеством. Данные, необходимые для анализа, находятся в различных системах заказчика и зачастую не могут быть переданы третьей стороне в связи с законодательными ограничениями или из соображений безопасности.
Сейчас мы решаем проблемы работы с персональными и бизнес-критичными данными организационно: работаем с частью данных или замаскированной информацией. Эта проблема может быть решена при помощи новых инструментов получения и хранения информации. Нужны решения, которые позволят проводить анализ информации на месте, не забирая данные физически. Для этого сейчас развиваются подходы виртуализации данных и виртуальных хранилищ данных, однако реальных работающих примеров пока мало.
Все больше мы сталкиваемся с задачами, связанными с обогащением данных, и здесь особенно актуальны виртуальные хранилища. В банковской отрасли, в телекоме мы можем использовать для клиентской аналитики (или сегментации клиентской базы) данные из открытых источников – соцсетей, Росреестра и прочее. В этой ситуации возникает задача соединения всей возможной информации, как защищенной и критичной для бизнеса, хранящейся у заказчика, так и открытой, получаемой из других источников.
CNews: Приведите примеры прикладного применения потоковой аналитики.
Сергей Кузнецов: Один из примеров, востребованных сейчас, — мобильная реклама. Когда мы проходим мимо определенной торговой точки, нам приходит SMS с информацией об интересной акции в этом магазине. Это таргетированная реклама, основанная на сегментации клиентской базы сотового оператора и анализе потоковых данных о ваших перемещениях.
Другой пример: предположим, какая-то компания выводит новый продукт, ей важно оценить первичную реакцию рынка. Как это сделать? Можно пойти на улицу и спросить у людей, что они думают. Но скорее всего, они не знают о продукте ничего. А можно анализировать информационное поле, которое создается о продукте в интернете, соцсетях, блогах и т.д. Это огромный поток гетерогенной информации — большие данные в классическом понимании. И эта информация нужна здесь и сейчас, пока компания не потерпела финансовые и имиджевые убытки из-за возможных ошибок.
Здесь мы сталкиваемся с потоковой аналитикой, работающей с выплеском эмоций потенциальных пользователей в интернете. А мы знаем, что в интернет попадает все больше и больше именно такой информации. И компании заинтересованы в ее анализе. Как раз сейчас мы в процессе разработки такого проекта с одной из финансовых организаций.
CNews: Расскажите о решениях для потоковой аналитики.
Сергей Кузнецов: Есть опенсорсный проект, объединяющий лямбда-архитектуру и Hadoop — он так и называются Lambdoop. Это абсолютно свежее решение. Я воздержался бы от его рекомендаций с точки зрения практического использования, поскольку проект находится в стадии разработки. Но мы видим, что тренд подкрепляется реальной разработкой.
Есть очень интересная компания Parstream. Она разработала технологическое решение без функциональной и отраслевой привязки. База пропускает потоки данных и строит сиюминутную аналитику на информации, которая, условно говоря, ненадолго задерживается в этом прокси-хранилище.
Мы наблюдаем еще один тренд: набирают обороты компании, продуктом которых является уже не какая-то технологическая новинка, связанная с новым алгоритмом обработки данных, а уже функциональный продукт, часто отраслевой.
CNews: Можете привести пример такого функционального стартапа?
Сергей Кузнецов: Один из примеров — это американская компания Uber, разработавшая сервис для вызова такси по мобильному телефону. Казалось бы, что здесь такого и при чем здесь большие данные? Дело в том, что они еще и собирают сведения о водителях, о перемещениях транспорта, отзывы и еще кучу другой информации, например, от аэропортов и вокзалов. Все это вместе агрегируют, делают единый скоринг водителей, профили клиентов и проводят геотаргетинг. Их статистика впечатляет: 95–96% возвращающихся клиентов. Для такси это очень хороший показатель. И достигают его именно за счет очень персонифицированного подхода, который они реализовывают чисто технологически, благодаря обработке всех имеющихся данных о водителях, транспортных средствах, пожеланиях потенциальных клиентов.
CNews: Оправдано ли, на ваш взгляд, внимание инвесторов к стартапам, работающим с большими данными?
Сергей Кузнецов: Gartner говорит, что сейчас самый пик ожиданий инвесторов от стартапов больших данных. Я считаю, что ранний этап вложений инвесторов в эти технологические стартапы завершается. Уже известны игроки, есть рейтинги, в которые входят MongoDB, Cloudera и ряд других известных компаний. Кто хотел, уже вложился. Технологические стартапы будут появляться, но можно с уверенностью сказать, что пик пройден.
Сергей Кузнецов: Сейчас очень серьезно развивается направление потоковой аналитики
В то же время есть функциональные стартапы, которые не просто разрабатывают новые алгоритмы или хранилища данных, а решают определенные задачи — антифрод, перевозки и многое другое. Вложения в них сейчас в стадии роста. То есть фокус будет смещаться в сторону функционального использования технологий.
CNews: Это связано с тем, что технологии уже достигли зрелости?
Сергей Кузнецов: Да.
CNews: Как вы оцениваете шансы российских стартапов, работающих с большими данными, в борьбе за инвестиции?
Сергей Кузнецов: И на российском рынке есть ряд очень интересных стартапов. Один из них — News360. Я бы его отнес к категории функциональных стартапов больших данных. У нас есть гигант в этой отрасли — компания «Яндекс». Масштабы ее инвестиций и инноваций в сфере технологий больших данных впечатляют. Это компания международного уровня.
В России есть большие команды разработчиков, ставшие очень серьезными участниками сообщества разработчиков решений с открытым кодом для работы с большими данными. Мы недавно делали обзор проектов организации Apache Software Foundation. Один из них — проект Samza. В нем задействовано очень много российских разработчиков. И даже в проектах самой экосистемы Hadoop участвует много специалистов, базирующихся в России, в том числе из входящей в группу IBS компании Luxoft.
CNews: Пользуются ли решения стартапов для работы с большими данными спросом в России или у нас все же любят крупных вендоров?
Сергей Кузнецов: И да, и нет. Конечно, исторически большие вендоры — это уже сложившийся рынок, процедуры взаимодействия, устоявшаяся бизнес-модель. Для стартап-компании в первую очередь встает вопрос выхода на локальный рынок, адаптации на нем, поддержки интеграторов — это всегда определенный объем инвестиций. В сложившейся бизнес-модели это понятное разделение ролей и ясное распределение инвестиций. В случае со стартап-компаниями это каждый раз диалог заново. Мы видим, что компании активно стремятся выйти на российский рынок. Я уже упомянул Parstream — с ними мы сейчас ведем этот диалог. Примером успеха можно считать компанию Cloudera, которая вышла на российский рынок и имеет несколько успешных внедрений.
Зачастую успешные стартапы покупаются большими компаниями, уже имеющими каналы выхода на российский рынок. Например, Informatica таким образом и вышла на наш рынок. Дверь не закрыта. Есть успешные примеры как одного сценария, так и другого.
CNews: А какие преимущества у стартапов?
Сергей Кузнецов: Как правило, это технологическая новизна. Небольшие стартапы часто дают большую гибкость и совместимость с популярными платформами, потому что они заинтересованы в интеграции с большими вендорами.
CNews: Расскажите, какие из последних стартапов привлекли ваше внимание.
Сергей Кузнецов: Я уже говорил о функциональных стартапах, но есть интересные технологические. Один из них — Reltio. Это новая технология, которая развивает уже устоявшиеся решения класса MDM (Master Data Management, управление мастер-данными), в России их часто называют НСИ (нормативно-справочная информация), но понятие MDM шире. Сегодня появляются новые источники данных, которые зачастую имеют иерархическую природу. Компания Reltio предлагает решение, связанное с эффективной загрузкой, хранением и управлением не только данными, но и связями между ними. Решение основано на самых передовых технологиях больших данных. Компания американская, но офис разработок расположен в России. У них интересный пул клиентов в фармацевтике и в финансовом секторе.
CNews: Расскажите о ваших R&D-проектах.
Сергей Кузнецов: Поскольку мы являемся интегратором, то во многом перекладываем бизнес-задачи с функционального языка на технологический. С точки зрения R&D мы видим для себя развитие именно в области функциональных проектов, где у нас накоплен большой опыт — системы НСИ и построение хранилищ данных. Мы разработали продукты по клиентскому и продуктовому каталогу для ряда отраслей: телеком, банки, ритейл и госсектор, который всегда стоит чуть особняком.
В направлении классических больших данных — аналитики в реальном времени — сейчас очень востребованы решения по борьбе с мошенничеством. Мы разработали и внедрили свое антифрод-решение у одного из лидеров нашей телеком-отрасли. Недавно на той же технологической платформе мы сделали банковский антифрод и активно его продвигаем. Парадигма предоставления услуг включает классическую лицензионную модель и сервисную модель — SaaS.
Интересной оказалась работа над банковским скорингом, поскольку здесь мы привлекли не только технологический стек решений для работы с большими данными, но и применили наукоемкий подход, включая алгоритмизацию, построение статистики и многое другое.
CNews: Ваше обращение к активным разработкам инструментов для больших данных связано с нехваткой функциональных решений на рынке?
Сергей Кузнецов: Таких решений немного, а должно быть на порядок больше, чем технологических. Они используют технологические решения, но зачастую имеют явно выраженную принадлежность той или иной отрасли. А индустрий гораздо больше, чем технологий.
CNews: Насколько важна адаптация технологий к стране?
Сергей Кузнецов: Она очень важна. И, говоря об адаптации, мы, конечно же, имеем в виду не только смену лейблов с английского на русский. Необходимо учитывать, что данные пишутся на другом языке, имеют другую семантику. Это очень важно, если мы говорим о неструктурированных данных. Здесь кроется потенциал российских стартапов. Никто другой этого не сделает.
CNews: Кто должен делать страновую адаптацию: вендор или интегратор?
Сергей Кузнецов: Это всегда диалог между ними, поскольку это связано с распределением инвестиций. В состоявшихся бизнес-моделях он уже прошел. Да, многие производители ПО делают адаптацию к другим странам, иногда частично. Если речь идет о технологических новинках, даже большим вендорам нужен живой проект для адаптации. То есть это вопрос готовности инвестировать. И здесь решение принимает иногда вендор, иногда крупный интегратор. Например, в одном крупном проекте мы вынуждены были сделать локализацию программы для демонстрации конечному пользователю, в то время как вендор официально выпустит поддержку только в июне этого года.