Вот уже несколько лет аналитики твердят о том, что «Большие данные» следует рассматривать как один из ключевых драйверов развития ИТ-рынка. В первую очередь это связано с тем, что в эпоху информационных технологий, особенно из-за взрывного роста числа пользователей социальных сетей, по каждому из них из Интернета стал накапливаться значительный объем информации, что в конечном счете и предопределило развитие направления Big Data. В результате значимость накопленных данных возросла настолько, что их все чаще называют «новой нефтью». Но, как подметил в ответах на наши вопросы Игорь Хмельков, директор по R&D в лаборатории данных (DataLab) компании IBS, можно сколь угодно долго повторять эти красивые слова, но пока бизнес не научится добывать эту нефть промышленным способом, хранить, перевозить и делать из нее «бензин», она так и будет использоваться в качестве средства от боли в суставах – так ее применяли древние шумеры.
«Если бы не было статистики,
мы бы не знали,
как хорошо мы работаем».
Анатолий Новосельцев, к/ф «Служебный роман»
Андреас Олах, старший аналитик исследования European Datacenters & Big Data компании IDC, уверен: ««Большие данные» и аналитика заняли первую строчку в повестке дня руководителей и разработчиков в EMEA, так как технология стала более зрелой, и менталитет в организациях начинает меняться. Главная задача – не сами данные и не их объем, а способность извлечь из них ценную информацию. Многие заказчики пока лишь в самом начале пути и еще не знают, с чего начать. У других серьезные намерения и ясные цели, но их тормозят растущие сложности и отсутствие хорошо подготовленных аналитиков данных и знающих разработчиков».
Правда, несмотря на подобную оценку готовности клиентов к внедрению данных технологий, прогнозы аналитиков более чем оптимистичны. По их подсчетам, к 2019 г. рынок инфраструктуры Big Data в EMEA утроится, достигнув 5,4 млрд. долл.
А как обстоят дела с «промышленной добычей» новой нефти в России? На этот вопрос у наших экспертов однозначного ответа нет.
Так, Татьяна Поволоцкая, директор управления бизнес-решений группы компаний Softline, считает, что российские клиенты только присматриваются к решениям из этой области: «Но непростая финансовая обстановка играет Big Data на руку. Компании начинают рассматривать собираемые и хранящиеся у них данные как некий актив, который можно использовать для роста бизнеса. Но таких компаний немного».
Алексей Талаев, руководитель департамента прогнозной аналитики и оптимизационного планирования ИТ-компании Navicon, также полагает, что «российский рынок Big Data находится на этапе становления, но развивается достаточно быстрыми темпами. К примеру, IDC прогнозирует ежегодный прирост больших данных на 48%». При этом он отмечает, что в ближайшее время основой любого бизнеса станет работа на основе анализа получаемой информации. Поэтому будущее – за теми, кто раньше и лучше других научится использовать имеющиеся у них данные и подходы Big Data, будь то прогнозирование вариантов развития бизнеса или повышение лояльности и удовлетворенности клиентов.
Аналогичной точки зрения придерживается и Сергей Байтеряков, руководитель отдела биснес-консалтинга компании MOLGA Consulting: «Технологии востребованы... абстрактно. Т.е. «продвинутые» руководители уже представляют что это такое и, в целом, для решения каких задач это можно использовать. Но до реального использования в работе пока еще мало кто доходит. А если технология и используется – то под очень локальные задачи».
Заметим, что, по данным аналитического отчета, подготовленного Московской биржей и компанией IPOboard (по итогам 2014 г.), компания IDC оценивала рынок Big Data в России в 340 млн. долл., из которых 100 млн. долл. приходилось на решения SAP, а примерно 240 млн. долл. – на аналогичные решения Oracle, IBM, SAS, Microsoft и др. Темп роста российского рынка «Больших данных» в момент составления отчета прогнозировался не менее 50% в год. Кроме того, утверждалось, что позитивная динамика в этом секторе сохранится даже в условиях общей стагнации экономики. Это связано с тем, что бизнес по-прежнему предъявляет спрос на решения, позволяющие повысить эффективность работы, а также оптимизировать расходы, улучшить точность прогнозирования и минимизировать возможные риски компаний.
А вот в представительствах зарубежных производителей уверены, что в России использование технологий «Больших данных» уже входит в стадию зрелости.
«Нет ни малейшего повода считать, что решения для анализа и обработки «Больших данных» не будут востребованы в России. Технологии не просто приходят в страну – они давно уже здесь», – считает Ирина Яхина, руководитель подразделения технологических решений Hitachi Data Systems (HDS).
Владислав Буянов, представитель по развитию бизнеса, IBM Analytics поддерживает коллегу: «В последние годы рынок информационных технологий в России переходит от этапа сбора и накопления информации к этапу ее анализа и извлечения той ценности, которая позволит организациям перейти на качественно иной уровень развития. Многие российские организации уже являются нашими клиентами по направлению Big Data, но еще больше – активно интересуются и выделяют ресурсы для определения пользы от внедрения и делают пилотные проекты. При этом стоит отметить, что проявляемый сейчас интерес уже сопровождается пониманием того, что инструментарий Big Data – не просто очередной набор средств для повышения эффективности существующих бизнес-процессов, а возможность трансформировать деятельность организации в соответствии с вызовами среды. Безусловно, с развитием подобных взглядов потребности российского рынка в решениях Big Data будут расти опережающими темпами».
«Есть немало примеров, когда российские заказчики создают экспериментальные лаборатории по «Большим данным» в своем бизнесе, в которых выявляют возможности монетизации этих технологий, определяют перспективные сценарии их применения, а затем обращаются к нам за реализацией этих сценариев. Решение Oracle Big Data Appliance мы предлагаем тем заказчикам, которые накопили достаточное количество данных (хотя бы несколько десятков терабайт), ясно представляют, какой результат хотят получить, и им требуется эффективный инструмент для этого. Другими словами, мы ищем компании, которые вышли на определенный уровень зрелости в понимании задач, где требуется Hadoop, и способах их решения», – соглашается Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга, Oracle СНГ.
Поддерживает коллег и Евгений Степанов, руководитель направления HPE Big Data Platform в России: «Технологии более чем востребованы, об этом мы можем судить по динамике продаж наших решений. Начиналось всё медленно и трудно, но сейчас бизнес понимает, в чем выгода от применения Big Data, решения стали более цельными, и заказчики уже не верят обещаниям построить Big Data и таким образом решить все их проблемы, а прагматично подходят к выбору лучшей технологии».
Андрей Горяйнов, заместитель генерального директора SAP СНГ, так же отмечает, что объем рынка технологий в сфере больших данных ежегодно увеличивается, как в России, так и в мире: «Мы видим, что за последние три года интерес к системам в области Big Data значительно возрос у российских заказчиков. Вместе с интересом возросли и требования. Клиенты ожидают от современных решений в области больших данных не только хранение и быструю обработку информации, но и способность выявить скрытые закономерности в ее массивах, возможность строить прогнозы на основе предыдущих действий и монетизировать исторические данные. Подобные задачи стоят не только перед компаниями, занимающимися работой с клиентской базой (телеком операторы, ретейл, транспорт, банки), но и производственными компаниями, которые строят прогнозы по выходу из строя оборудования и переходят от «ремонтов по плану» к «ремонтам по состоянию»».
Справедливости ради отметим, что похожей точки зрения придерживается большинство наших респондентов. Так, Александр Богданов, архитектор Big Data компании AT Consulting, уверен, что многим компаниям необходимо все больше дискового пространства, поэтому рынок «Больших данных» уже несколько лет активно растет как в России, так и за рубежом.
«Примерно с 2014 г. мы наблюдаем стремительное увеличение числа проектов, связанных с Big Data, – соглашается с предыдущими мнениями Антон Заяц, директор по развитию SAS Россия/СНГ. – В этой области пока мало стандартизированных задач и процессов, поэтому большинство проектов идут в режиме test&learn, они разделяются на небольшие этапы, каждый из которых приносит тот или иной результат, пусть даже не очень значительный. Бизнес видит ценность в работе с «Большими данными» и использовании соответствующих технологий. Это касается широкого спектра инструментов, включая технологии сбора и хранения информации, текстовой аналитики, которые позволяют проанализировать и использовать неструктурированную информацию, идут проекты по применению сложных аналитических моделей на значительных объемах данных в высокопроизводительных средах. Кроме того, мы наблюдаем большой интерес к инструментам интерактивной отчетности и анализа данных, которые базируются на in-memory технологиях, позволяющих значительно ускорить получение результатов».
О востребованности этих технологий говорит и Александр Смирнов, Hadoop-евангелист, Teradata Россия: «Компании наконец-то разобрались, что такое Big Data, перестали бояться этого термина и вовсю приступили к внедрению. На данный момент эти технологии используются российскими заказчиками в первую очередь как средство оптимизации существующей инфраструктуры данных, через внедрение «Озер данных» (хотя, что занятно, многие компании и особенно государственные организации чрезвычайно боятся этого термина и придумывают для него различные эвфемизмы, такие как, например, «гибридное хранилище»)».
В этом комментарии слова «заказчики наконец-то разобрались...» мне кажутся очень показательными. Несмотря на то что термин Big Data существует не первый год, он до сих пор вызывает множество споров. Многие полагают, что речь идет лишь об объеме накопленной информации. Но не стоит забывать и о технической стороне – данное направление включает в себя технологии хранения, вычисления, а также услуги.
Заметим, что IDC под объемом этого рынка понимает сумму поставок серверов для Big Data и ежегодно внедряемой емкости хранения для Big Data. При этом в докладе Московской биржи отмечается, что аппаратная составляющая – это 38% всего мирового рынка Big Data. Около 22% приходится на ПО, а оставшиеся 40% – на услуги.
Именно поэтому, когда речь заходит о «Больших данных» так важно определиться, о чем же, собственно, идет разговор.
«Многие наши заказчики обрабатывают огромные объемы данных, используя дата-центровые технологии Cisco: серверы и сеть. Но, на мой взгляд, Big Data начинается тогда, когда промежуточные результаты вычислений перестают помещаться в оперативную память одного сервера, – считает Дмитрий Хороших, эксперт Cisco в области решений для ЦОД и виртуализации. – Это влечет за собой полную смену парадигмы вычислений: применения других алгоритмов, подходов, другого стека технологий хранения и обработки данных».
А Игорь Хмельков определяет Big Data как «данные, которые невозможно обработать за приемлемое для бизнеса время на одном компьютере, пусть даже с ненормально большим объемом ОЗУ и количеством процессорных ядер».
Подытоживая все вышесказанное, Андрей Новиков, руководитель проекта SocialMaps, предлагает свое видение термина «Большие данные»: ««Большие данные» – это общее название набора технологий, позволяющих синтезировать из множества разрозненных данных выводы, значимые для принятия бизнес-решений. Сила и одновременно ахиллесова пята Big Data в том, что сами технологии работают на уровне данных, а извлечение и интерпретация результатов – дело сведущих в отраслевой специфике экспертов. То есть требуется дополнительный, предметный экспертный слой. Из-за этой особенности «Большие данные» настолько полезны, насколько в индустрии наработаны вертикальные или функциональные практики их использования. Поэтому область «Больших даных» как таковых сейчас разрабатывается не столько отдельными компаниями, сколько профессиональным сообществом тех, кто эти технологии создает и монетизирует. Сейчас мы уже можем говорить о формировании в России профессионального сообщества, от взаимодействия с которым любой заказчик может ожидать ясных ответов, по крайней мере, на два вопроса: «Какую пользу можно извлечь из моих данных?» и «Кто сможет разобраться в специфике моей задачи?»».
А Алексей Смирнов, технический директор ИТ-компании «Нетрика», описывает тренды, которые уже сформировались на российском рынке Big Data: «Большую популярность завоевали свободные инструменты работы с данными: такие решения, как ApacheHadoop и ApacheSpark, стали практически стандартом даже в больших корпорациях. ...Меняются подходы и способы хранения Big Data – происходит не только переход в облачные системы хранения, но также и перевод инфраструктуры на нереляционные (NoSQL) базы данных там, где этого требует бизнес. И если в предыдущие годы все думали, что «чем больше данных, тем лучше», и основным вопросом был «Как же это всё хранить?», то сейчас наблюдается тенденция к развитию интеграционной инфраструктуры разработанных ранее решений, а также делается акцент на разработке более быстродействующих алгоритмов обработки накопленных данных».
«Нам нужно только то,
что нам нужно».
А. П. Чехов
По мнению наших респондентов, в России уже сформировался первоначальный слой потребителей технологий «Больших данных». Как и во всем мире, «они востребованы в определенных областях, где данные генерируются в достаточных количествах, чтобы быть, собственно, «big»», – отмечает Игорь Хмельков.
Поддерживает коллегу и Роман Зинченко, руководитель практики SAP группы компаний «Пилот»: «Интерес к Big Data возникает у компаний, чья работа связана с генерацией большого объема транзакционных данных в ходе операционной деятельности. Появляется естественная потребность и желание обрабатывать эту информацию, получать из нее знания, коммерческую выгоду для повышения эффективности бизнеса».
Соответственно на российском рынке наибольшим спросом технологии и услуги в сфере обработки «Больших данных» пользуются в тех отраслях, где наиболее динамично развиваются взаимоотношения компаний или госструктур с конечными пользователями, идет накопление значительных массивов разнообразных данных, присутствует высокая конкуренция и появляется возможность прорыва за счет абсолютно новых, ранее не использовавшихся знаний.
И все-таки в основном в России, как и в мировой практике, по мнению Андрея Новикова, эти технологии применяют крупнейшие телекоммуникационные компании, решая свою ключевую задачу – прогнозирование оттока клиентов. Кроме того, в «телекомах» нарабатывается практика продажи таргетинга мобильной рекламы на основе местоположения и поведения клиента – впрочем, она пока что находится на низком уровне развития.
Второй значимый сегмент – политический и корпоративный PR. Аналитические технологии позволяют составить полное описание информационного окружения бренда или публичного лица, вовремя заметить информационные атаки и адекватно отреагировать на них, а во многих случаях и отследить источник таких атак. В предвыборный период это направление очень актуально как на федеральном уровне, так и в регионах.
На местах в сфере управления также складывается практика создания аналитического портрета региона на основе новостных лент, данных социальных сетей, статистики по различным отраслям. На выходе получается анализ слабых и сильных сторон региона в экономике, политике, науке, образовании, социальной жизни. Складывается легко проверяемая и в значительной степени объективная картина: перечень основных рисков развития, а также каталог наиболее перспективных направлений и лидеров соответствующих групп. А результаты этих исследований закладываются в стратегии регионального развития.
«Среди решаемых нами задач в области «Больших данных» для госзаказчиков есть проекты как федерального, так и регионального уровня, – приводит примеры Алексей Смирнов. – Во-первых, федеральный сегмент информационной системы «Контингент», реализованный по заказу Минкомсвязи РФ. Это первый в России опыт сбора и всестороннего анализа данных об образовании российских детей по всем регионам страны. Данные агрегируются оперативно, в полном объеме и на одном ресурсе. Система консолидирует данные, поступающие из региональных сегментов всех субъектов РФ – сферы высшего образования, информационных систем федеральных органов государственной власти и государственных внебюджетных фондов. После обработки и анализа информации пользователи системы смогут получать как статистическую, так и аналитическую информацию по различным срезам. В федеральной системе собраны различные сведения о детях: ФИО, пол, информация о месте и дате рождения, номер записи акта о рождении, серия и номер паспорта (после его получения), адрес регистрации, СНИЛС, сведения о родителях, о месте и периоде обучения, успеваемости и достижениях (включая информацию о победах на олимпиадах и конкурсах), освоенные образовательные программы, документы об образовании и сведения о здоровье. Кроме того, в системе содержится информация об образовательных учреждениях и педагогах, а также статистические и нормативно-справочные данные. При помощи создаваемой системы федеральные органы власти рассчитывают значительно повысить качество образования в РФ и решить такие проблемы, как, например, очереди в детские сады, вторые и третьи смены в школах, т. к. система поможет прогнозировать загрузку образовательных учреждений в конкретных регионах в зависимости от миграции населения».
Еще один интересный проект, по словам Алексея Смирнова, – «N3.Индекс пациентов», решение по идентификации пациентов лечебных учреждений, реализованное на уровне города (Санкт-Петербурга). Система анализирует поступающие из разных медицинских организаций данные пациентов и может с высокой степенью точности отнести те или иные сведения к правильному пациенту даже в случае ошибочной записи. В результате обеспечивается корректная идентификация пациента и формируется интегрированная электронная медицинская карта, в которой хранится информация обо всех обращениях за медицинской помощью в разные лечебные учреждения. Система адаптирована к процессам российского здравоохранения и способна заменить зарубежные аналоги. Применение сервиса не ограничено отраслью здравоохранения, он может применяться везде, где нужно идентифицировать человека.
Государство – один из основных «поклонников» «Больших данных», согласна Ирина Яхина: «В России стремительно развиваются мобильные сервисы, делающие жизнь городских жителей более комфортной. Так, большой популярностью пользуется интернет-сервис ЕМИАС – медицинский портал, предоставляющий консолидированную информацию о поликлиниках Москвы и предлагающий записываться к врачу и контролировать график посещений поликлиники через приложение для смартфона. Еще дальше пошли разработчики проекта «Электронная Москва». С помощью решения для хранения и обработки данных проект смог организовать электронный документооборот почти трех тысяч госорганов и ведомств. «Электронная Москва» в определенном смысле избавила горожан от необходимости разбираться с большим количеством справок и документов, а учреждениям, в свою очередь, позволила сократить штат чиновников и ускорить процесс принятия решений. В основе работы всех этих сервисов лежат решения Hitachi Data Systems, разработанные специально для того, чтобы хранить и анализировать большое количество неструктурированной информации».
Третий важнейший рынок, потребляющий Big Data, – ритейл. Здесь активно осваивается онлайн-пространство, крупные и большинство средних компаний имеют представительства в основных соцсетях. Роль аналитики в этой области состоит в том, чтобы средства вкладывались максимально точно. Для этого нужно не только тщательно сегментировать аудиторию (это делает сейчас практически любое SMM-агентство), но видеть объемную картину покупательской среды: лидеров мнений, информационные потоки, влияние различных каналов. Это агрегация онлайн- и традиционных офлайн-методов, что уже сейчас эффективно работает.
Другое применение для ритейла – анализ данных продаж. Вопросы, которые решаются здесь, – эффективность рекламных кампаний, оптимизация цен, персонализированные предложения. Это направление уже можно назвать традиционным, по нему наработан значительный опыт.
Дополняя вышесказанное, Андрей Пивоваров рассказывает, что чаще всего такими технологиями, как Hadoop, интересуются крупные предприятия – в первую очередь банки, телекоммуникационные компании и розничные сети, причем речь идет о вполне конкретных бизнес-задачах и технологиях для их решения. Интерес к Hadoop вполне объясним: эта технология позволяет собрать воедино и хранить не только те данные, что обычно загружались в хранилища, но и старые структурированные и неструктурированные сведения из различных источников и пр. Что касается обработки больших потоков данных, требующих использования Oracle Event Processing, то основной спрос наблюдается со стороны производственных компаний – нефтегазовой отрасли, транспорта, машиностроения, телекома и некоторых других. Есть потребность и в сборе и хранении данных из Интернета, в первую очередь у банков, использующих эти данные для скоринговой оценки своих клиентов.
Антон Заяц утверждает: «В банках мы реализовали уже порядка десяти проектов внедрения инструментов текстовой аналитики для работы с неструктурированными данными, в том числе из Интернета. Больше 20 российских компаний используют для отчетности и исследования данных BI-систему SAS Visual Analytics. Для быстрой и безотказной работы с «Большими данными» адаптируются хранилища – они переводятся на GRID-технологии. Мы видим интерес к решениям для обработки потоковых данных, позволяющим анализировать информацию, которая поступает в режиме реального времени. Работа с «Большими данными» позволяет не только шире смотреть на ситуацию за счет доступа к большему количеству факторов, но и повысить точность анализа и соответственно качество принимаемых решений. Кроме того, меняется сам подход к работе. Например, взаимодействие с клиентом становится не просто интерактивным, но и контекстным, то есть учитывающим ситуацию, в которой происходит контакт».
То, что банки и операторы связи стали пионерами этого движения, по мнению Дмитрия Хороших, вполне логично: «Законодательство обязывает такие компании накапливать и хранить достаточно большой объем данных клиентов. Логично их использовать. Самые известные паттерны – скоринг, выявление мест наибольшего скопления людей, потоки людей или машин и т. д. Каждый проект по работе с «Большими данными» – это в первую очередь постоянный планомерный процесс выдвижения и проработки гипотез, какие результаты можно получить из того или иного накопленного объема данных. Правильные гипотезы являются интеллектуальной собственностью и строго охраняются. Здесь можно провести аналогию с технологией химической переработки. На сегодняшний день сложно назвать отрасль, в которой не существовало бы потенциальных кейсов для Big Data. Но общего рецепта нет, гипотезы, успешно работающие в одном сегменте или на одной территории, могут оказаться бесполезными в других условиях».
«У корпораций из данных вертикалей есть что анализировать, – считает Татьяна Поволоцкая. – И нет проблем с использованием персональных данных, куда относятся детализация вызовов, число и объемы банковских транзакций, а также пользовательское поведение в Интернете. Когда человек становится клиентом банка, интернет-компании или сотового оператора, он отчуждает персональные данные и тем самым разрешает оператору их собирать и анализировать. Еще одна перспективная вертикаль с точки зрения «Больших данных» – это ритейл. Скорее всего, большой массив «Биг Даты» сосредоточен в оборонной промышленности, но проверить это непросто: военные делают системы сбора и анализа информации in-house».
При этом Александр Богданов уверен, что российские практики использования этих технологий в банковских и телекоммуникационных компаниях практически не отстают от западных: «Интерес к Big Data со стороны заказчиков вызван как низкой стоимостью хранения информации, так и скоростью ее обработки. Уже сегодня у нас есть решения, способные «переваривать» терабайты информации в онлайн. Стоит отметить, что вокруг понятия Big Data существует очень много мифов, и часто заказчики не вполне понимают, что на самом деле представляет собой эта технология. Если вы думаете, что Big Data могут заменить традиционные реляционные СУБД, то глубоко заблуждаетесь. Высоконагруженные отказоустойчивые OLTP-системы (системы оперативной обработки транзакций), такие как карточный процессинг банков, вряд ли когда-то будут работать на технологии Big Data. Еще одно распространенное заблуждение ИТ-специалистов – простота обработки «Больших данных». То, что легко реализуется на языке SQL с применением аналитических функций несколькими join-ами и группировкой, на Hadoop займет гораздо больше сил и времени, чем вы думаете».
Соглашаясь с коллегами, что подобные решения сегодня, в большинстве своем, востребованы в ритейле, телеком-индустрии, транспорте и финансовом секторе, Андрей Горяйнов приводит и другие примеры использования данных технологий: «В то же время увеличилось количество запросов со стороны нефтегазовой, металлургической, химической, энергетической индустрий. Стоит заметить, что в последнее время появилось много стартапов, которые разрабатывают абсолютно новые решения.
Например, в одной из металлургических компаний с помощью технологий Big Data появилась возможность прогнозировать качество выпускаемой продукции. Данные собираются с датчиков, установленных на оборудовании, быстро анализируются, и компания может выявлять факторы, которые оказывают влияние на качество продукции и заранее вносить корректировки в производственный процесс.
Наши проекты с зарубежными клиентами также могут быть очень интересны российским заказчикам. Большие данные все глубже проникают в мир спорта. У SAP был уникальный проект со сборной Германии по футболу. В процессе тренировок и турнирных игр непрерывно автоматически регистрировались и анализировалось данные по игре каждого футболиста команды (локация, скорость, направление перемещения, владение мячом и т. д.) В итоге мы получили и проанализировали огромный массив данных, который предоставили тренерам команды. Это помогло им разработать стратегию игры и послужило одним из факторов победы на Чемпионате мира по футболу – 2014.
Компания T-Mobile USA после внедрения технологии SAP HANA смогла ускорить процесс анализа оттока абонентов в 56 раз, что по самым скромным подсчетам экономит телеком оператору более 25 млн долларов в год. А возможность предоставлять персонализированные предложения в режиме реального времени стало стратегическим направлением деятельности компании.
Есть заинтересованность в Big Data и со стороны госструктур, например, полиция Чикаго. Мы взяли большой массив данных, накопленный их департаментом за долгое время, и сделали тепловую карту по городу – где происходят преступления, в какой час и т.д. Затем совместно с полицией Чикаго мы проанализировали конкретные зоны и сегментировали совершенные в них преступления. В результате полиция понимает, как работает модель преступности и может заранее направлять свои экипажи в те или иные районы».
Свое мнение по данному вопросу высказывает и Владислав Буянов: «Если говорить о реалиях сегодняшнего дня, то решения класса Big Data наиболее востребованы двумя типами клиентов: заказчиками с традиционно высоким уровнем информатизации бизнеса (телеком, банки, ритейл и т.п.) и заказчиками, владеющими большими данными либо доступом к ним (государственные организации, образовательные учреждения, некоторые виды производств и др.). Важно, что эффективность применения инструментария Big Data определяется не только наличием у заказчика больших данных, но и специалистов по работе с большими данными: Data Scientist, Data Developer, Data Engineer, Data Researcher и многих других. Это во многом объясняет интерес к технологиям по работе с большими данными со стороны высших учебных заведений и научно-исследовательских институтов. Обладая необходимыми знаниями и пониманием собственных данных, такие заказчики могут эффективно использовать инструментарий Big Data в своей работе. В частности, мы работаем с рядом ВУЗов и научно-исследовательских институтов как в Москве, так и в регионах. Кстати говоря, территориальная принадлежность и объем бизнеса заказчиков не связаны напрямую с их интересом к технологиям Big Data. Потому что ключевая особенность решений Big Data заключается в том, что они дают возможность формулировать вопросы и находить новые пути развития, а не просто решать существующие задачи, как это делают многие привычные для нас ИТ-инструменты».
Ирина Яхина напоминает о транспортном сегменте, в частности, об автопроизводителях (правда, пока зарубежных), которые проявляют к «Большим данным» нешуточный интерес: «Уже сегодня одна из крупных автомобильных марок предлагает своим клиентам решения, способные анализировать положение автомобиля на дороге во время движения: технология не дает водителю по невнимательности «съехать» с полосы и призвана предупреждать аварии. Сейчас автопроизводители совместно с поставщиками ИТ-решений работают над технологией, способной оценивать состояние человека за рулем: давление, сердцебиение, концентрацию на дороге, – всё это данные, которые можно анализировать в режиме реального времени и с их помощью влиять на скорость автомобиля и состояние его владельца. Так что в скором времени мы забудем об автокатастрофах, вызванных усталостью или рассеянностью водителя. Если же говорить о российском опыте, то прекрасным примером превращения данных в бизнес может служить приложение «Яндекс.Пробки», без обращения к которому многие автовладельцы даже не решаются сесть за руль. В основе сервиса – технологическое решение, обрабатывающее данные спутника, дорожных камер, комментарии автомобилистов и составляющее с помощью этих сведений карты магистралей. Выгода очевидна: пробок меньше, водители могут планировать свое передвижение, нагрузка на транспортную сеть снижена – а производитель тем временем зарабатывает деньги».
В свою очередь Сергей Байтеряков уверен, что эти технологии найдут свое применение и в сфере «управления человеческими ресурсами»: «Это, в первую очередь, будет интересно крупным компаниям с большим количеством персонала и/или с его (персонала) большой текучкой. Второй принципы использования Big Data – это продвинутые компания в области HR в целом. Т.е. одно из важнейших условий, заставляющих задуматься о применении в компании технологий Big Data – это высокий уровень зрелости менеджмента. Именно на больших объемах персонала, вовлеченных в процессы, «Большие Данные» могут показать свои выгоды.
Внедрение технологии Big Data в настоящее время дает заказчику возможность перейти от субъективных оценок – к оценкам на основе данных. От оценок «по случаю» – к оценкам в процессе. Пример: если принципы Big Data внедрены для процедуры подбора персонала, то мы получаем инструмент отсева или поиска людей, которые не ищут сейчас работу активно, но готовы рассматривать предложение. Т.е. происходит либо сокращение трудозатрат, либо улучшение процессов. А в некоторых случаях Big Data предоставляет возможности, которые не дают иные инструменты. Например, возможность подобрать людей с близкими ценностями (в том числе и благодаря анализу их поведения в социальных сетях).
А Юлия Епифанцева, директор по развитию бизнеса компании PROMT в России, компетенция которой прежде всего распространяется на текстовые Big Data, рассказывает о технологиях работы с текстовыми неструктурированными данными: «На наш взгляд, у бизнеса еще не вполне сформировано понимание того, как такие данные можно использовать и для каких целей. Разговоров об анализе текстов и извлечении из них полезной информации много, а каких-то конкретных, особенно тиражируемых кейсов намного меньше. Тем не менее можно говорить, что на концептуальном уровне интерес и потребность есть. Текстовые неструктурированные данные – это достаточно непростой контент, потому что только математических методов для точного анализа и извлечения информации из них недостаточно. Для того чтобы повысить точность и релевантность анализа, необходимо применять лингвистические технологии, учитывать морфологию, синтаксис и семантику естественных языков. Текстовые данные могут быть представлены на разных языках, что тоже создает проблему. Кроме того, текстовые данные порой извлекаются из так называемой устной речи, например из записи телефонных разговоров, речи дикторов. Когда устная речь переводится в тексты, то эти тексты по своей структуре, лингвистическим особенностям и общему качеству сильно отличаются от тех, которые изначально создавались в письменной форме».
По ее словам, среди отраслей, в которых технологии анализа текстовых данных сегодня активно применяются: банковская, телекоммуникационная, а также СМИ. Широко известна компания «Медиалогия» и ее онлайн-сервис для оперативного мониторинга прессы, электронных СМИ и блогов. Благодаря технологиям Big Data сервис предоставит информацию о влиятельности того или иного источника СМИ, оценит заметность публикаций, с его помощью можно получить сведения о значимых объектах (персонах, компаниях, брендах). В этой информации заинтересованы как сами СМИ, так и аналитические, маркетинговые и PR-агентства. Кроме этого востребована аналитика социальных медиа – по статистике, в них публикуется до 40 млн. русскоязычных сообщений, а это 99% информационного поля. Аналитика соцмедиа используется, например:
Технологии Big Data применяются в работе служб поддержки – для анализа запросов (причины обращения, кто обращается), в рекрутменте – для анализа резюме по разным показателям.
Что касается того, каким компаниям (крупным или средним) могут быть интересны такие технологии, то, по мнению Юлии Епифанцевой, у крупной компании, скорее всего, больше данных или шире информационное поле, которое ей интересно, поэтому она будет подходить к Big Data более глобально, делать собственные проекты, внедрять технологии in-house. Для средних и малых участников рынка более интересны сервисы в Интернете, чтобы по мере необходимости делать аналитику, получая доступ, например, по подписке.
При этом Евгений Степанов считает, что в первую очередь на технологии «Больших данных» следует обратить внимание стартапам, причем как отдельным небольшим компаниям, так и «частям» глобальных или российских корпораций: «Всех их объединяет одно – желание построить организацию, где решения принимаются на основе данных, и аналитический инсайт является ключевым конкурентным преимуществом. Если мы начинаем большую трансформацию существующей инфраструктуры на технологию Big Data, то это часто приводит к неудаче, в том числе из-за противоречивой постановки задачи, отсутствия знаний и мотивации сотрудников, неподготовленности технологии. Если же за основу берется конкретная бизнес-задача, с четкой постановкой, определенным составом спонсоров, менеджмента и исполнителей, то такая задача решается, как правило, в кратчайшие сроки и результат всех устраивает. Более того, мы видим у наших заказчиков, что в таком формате wow-эффект превосходит ожидания, и новые задачи появляются как грибы после дождя».
Поддерживает коллегу и Ирина Яхина: «Мы не можем точно сказать, какие компании получат от использования «Больших данных» больше преимуществ: крупные, располагающие значительным бюджетом, или стартапы, рискнувшие и однажды вложившиеся в инновацию, сделав ее основой своего бизнеса. С учетом того, как быстро мобильные приложения заменяют нам физические учреждения (мониторинг активности и электронный тренер вместо похода в фитнес-клуб, мобильный банк вместо физического), можно ожидать, что малый бизнес, совершивший прорыв в анализе данных, сможет зарабатывать больше, чем крупная компания, работающая с «Большими данными» точечно и с осторожностью».
Правда, не все наши респонденты согласны с таким мнением. По наблюдениям Александра Богданова, в первую очередь внедрением Big Data занимаются крупные компании: «Малому бизнесу, в том числе в регионах, сложнее это сделать, так как для управления «Большими данными» необходимо нанимать дорогих высококвалифицированных специалистов, которых к тому же сложно найти. Но и в такой ситуации есть выход – использование сторонних сервисов по обработке «Больших данных». В России их немного, в основном этим занимаются интернет-гиганты и интеграторы».
В то же время Александр Смирнов напоминает: «...Основной отличительной чертой работы с данными сегодня стал процесс, который мне хочется назвать «демократизацией данных». Имеется в виду, что благодаря широкому распространению Open Source решений и облачных сервисов даже небольшие компании могут успешно извлекать выгоду из накапливаемых данных. Наиболее очевидный пример такой демократизации – некрупные онлайн-ритейлеры, которые без серьезных капитальных затрат занимаются исследованием поведения пользователей на своих площадках, в результате чего серьезно улучшают операционные показатели».
В заключение статьи хотелось бы отметить, что наши респонденты отмечали не только то, что уже удалось сделать на российском рынке Big Data, но и указывали на трудности, с которыми сталкиваются как компании, решившие внедрить эти технологии у себя, так и те, которые этими внедрениями занимаются. Поразмышляли участники статьи и о перспективах рынка. Но это уже темы для следующих статей.