Big data — удовольствие, пока доступное не многим компаниям. Но в том, что умение работать с такими данными предоставляет серьёзное конкурентное преимущество в бизнесе, уже мало кто сомневается.
По информации International Data Corporation (IDC), международная компания в среднем тратит около $19 млн в год на эксперименты и инструменты для работы с большими данными и аналитикой. Крупные компании охотно рассказывают, как big data помогает решать их бизнес–задачи.
«Так, Walmart с помощью данных о покупках клиентов сумел сделать более интересные предложения конкретным покупателям, Uber анализирует данные о поездках и тарифах, чтобы предлагать минимальные цены даже в пиковые часы, а тот же Netflix делает такие хорошие рекомендации ровно потому, что научился разбираться во вкусах и потребностях зрителя», — говорит Сергей Полунин, руководитель группы защиты инфраструктурных IT–решений компании «Газинформсервис».
В середине нулевых большими данными было принято считать базы размером более 8 Гбт, то есть стандартного размера оперативной памяти персонального компьютера. Сейчас такими объёмами оперативной памяти никого не удивишь, говорит Дмитрий Шатохин, архитектор программного обеспечения компании Support Partners.
«Единого определения big data в мире нет, как и чёткого количественного критерия. Зачастую имеется в виду база данных, размер которой слишком велик, чтобы информацию можно было хранить и анализировать с помощью распространённых программных продуктов», — говорит Павел Павлов, эксперт Moscow Business School.
Поэтому цена сбора и хранения big data может быть очень значительной для малых и средних компаний. «Компании могут столкнуться с проблемами сбора, хранения и анализа данных, если они не обладают необходимыми знаниями и не имеют нужного набора инструментов. Однако ценность больших данных обычно превышает затраты на их сбор и хранение, ведь полученная информация может помочь компаниям повышать эффективность бизнеса и в конечном итоге увеличивать прибыль», — говорит Сергей Белов, эксперт в области информационных технологий и CEO компании AtreIdea.
Стоимость проекта работы с big data варьируется в зависимости от объёма имеющихся данных, методов их сбора и хранения, а также от инфраструктуры, необходимой для обработки информации, уточняет Илья Ким, эксперт в области анализа данных. Для исследования большого массива информации обычно используются горизонтально масштабируемые хранилища (данные при этом распределяются по большому количеству серверов), системы для обработки данных in–memory (анализируют даже слабоструктурированную информацию в режиме реального времени), реляционные системы управления базами данных (СУБД).
Сергей Белов называет несколько способов снижения издержек на сбор и хранение big data. Для получения полезной информации необязательно сразу собирать всё самому, можно использовать открытые источники, такие как социальные сети, государственные реестры и другие доступные ресурсы. Чтобы избежать сбора избыточных данных, перед стартом работ важно определить, какая информация является наиболее ценной и полезной для бизнеса. А использование облачных решений для хранения и обработки данных позволит сократить затраты на инфраструктуру и поддержку.
«Выгода применения облачных сервисов для работы с большими данными бесспорна. Например, цена за большой объём гигабайтов или терабайтов в облачных хранилищах значительно ниже, чем в локальных инсталляциях. Сотни или тысячи виртуальных серверов с приемлемой отказоустойчивостью гораздо дешевле, быстрее и проще запустить в облачной платформе, чем на своей площадке. Самые современные инструменты и технологии по работе с данными тоже обычно уже есть в развёрнутом виде в облаке провайдера, что не только экономит время, но и позволяет переложить часть задач на квалифицированную команду поставщика», — говорит Тимур Бадретдинов, руководитель направления инфраструктурных решений «Сиссофт».
Но по–прежнему остаётся дорогим труд профильных специалистов, которые умеют работать с big data. И спрос на них стабильно высок. «Можно немного сэкономить, обратившись к поставщику услуг BDaaS (Big data as a service), но там экономия будет в основном на инструментарии, живого специалиста пока вам никто не заменит», — отмечает Сергей Полунин. А услуги команды из пяти экспертов уровня data scientist в месяц могут обойтись примерно в 800 тыс. рублей.
Между тем в современных реалиях big data предоставляет огромный потенциал для развития бизнеса. «С помощью анализа данных компании могут получить ценные инсайты о клиентах, рынке, конкурентах, эффективности своих процессов и т. д. Эти инсайты помогают принимать более обоснованные решения и оптимизировать процессы», — объясняет Сергей Белов.
Больший объём информации позволяет точнее строить аналитику и обучать предиктивные модели.
«Как следствие, бизнес получает правильные решения, работающий таргетинг, повышенную прибыль или экономию средств. Наиболее релевантные примеры использования big data есть в телекоме, — говорит Михаил Рощин, директор отделения хранения и обработки данных IBS. — Это таргетирование абонентов по их трафику, перемещениям между базовыми станциями и, соответственно, проведение анализа абонентской базы».
Андрей Румянцев, Head of ML (ML — машинное обучение) в банке «Точка», сравнивает big data c глиной, из которой опытный гончар может сделать прекрасную вазу, а искусный скульптор — настоящий шедевр. При этом сама по себе глина, как сырой необработанный материал, ценной не будет. «Бизнес может извлечь из big data самые разнообразные знания, которые помогут сделать продукт или сервис удобнее, клиента счастливее, финмодель эффективнее, а риски бизнеса ниже, — говорит он. — Всё это достигается за счёт скрупулёзной аналитики, строгих математических моделей, статистики и машинного обучения. Сегодня придуманы и реализованы уже миллионы различных успешных кейсов применения данных с существенной пользой для компаний».
В отрасли digital–рекламы big data стали фактически базой для работы. «Без использования больших данных уже невозможно провести таргетированную рекламную кампанию в онлайне и оценить её эффективность, — говорит Елена Фесенко, коммерческий директор Platforma. — Ещё одно активно растущее направление — геоаналитика. Этот инструмент позволяет построить максимально полное представление о той или иной локации и на основе этого принять решение, стоит ли в этом месте развивать розничный бизнес».
Опережающими темпами big data используются в ретейле, электронной коммерции, финансовом, и в частности страховом, рынке. Например, в ЮMoney (до 2020 года сервис назывался «Яндекс.Деньги», а сейчас входит в экосистему «Сбера») большие данные используются для автоматической классификации клиентов ЮKassa (сервис по приёму платежей через интернет в пользу юрлиц, ИП и некоммерческих организаций) и прогнозирования прибыльности операций, а также для сегментации клиентской базы пользователей кошельков ЮMoney.
«С помощью big data мы можем повышать качество обслуживания и лояльность клиентов, а также снижать расходы», — уточняет Александр Матвеев, директор департамента бизнес–аналитики ЮMoney. Он уверяет, что бизнес–потенциал big data в платёжных компаниях будет только расти — в том числе из– за падения маржинальности этого бизнеса.
Успешным примером использования big data в производстве является ввод в эксплуатацию на ОАО «Магнитогорский металлургический комбинат» сервиса «Снайпер» от Yandex Data Factory, который позволяет оптимизировать расход сырья и материалов при производстве стали, говорит Павел Павлов, эксперт Moscow Business School.
«Аналитическая платформа обрабатывает данные по исходному составу и массе сырья и материалов, учитывает требования к содержанию химических элементов в готовой стали и формирует рекомендации по настройке производственного оборудования. В результате экономия сырья и материалов после внедрения в 2016 году составила до 5%», — пояснил он. Максим Кулаев, программный директор факультета «Анализ данных» в Skillbox, рассказывает, что аналитика данных стабильно помогает онлайн–маркетплейсам увеличивать продажи. «Вместе с выбранным при покупке товаром пользователи видят ленту предложений.
Это не случайный список позиций, а специально подобранный набор на основе личных предпочтений и истории поиска. Так повышается вероятность, что пользователь купит не только конкретный товар, но и сопутствующие позиции из списка», — отмечает он.
Примерно так же работает лента рекомендаций у «Авито»: она подстраивается под действия пользователей на основе анализа информации, какого типа объявления привлекают внимание, в каких категориях пользователь чаще начинает диалог с продавцом и так далее.
«Чем больше будет кликов, тем адаптивнее будет лента, то есть будет больше соответствовать интересам. Больше половины контактов покупателей с продавцами происходят благодаря хорошо подобранным рекомендациям, — рассказывает Андрей Рыбинцев, директор Trust&Safety компании «Авито». — Мы анализируем около 10 млрд пользовательских действий ежедневно — это действия, которые пользователи совершают на платформе. Все эти данные идут дальше в производственный цикл: аналитику, обучение моделей и создание продуктов».
По его словам, big data позволяют автоматизировать и провести модерацию сообщений: 99% из 10 млн объявлений в день проверяются без участия человека благодаря огромному пласту информации, который накопила компания.
«Впрочем, безусловно, самым крупным обладателем big data в нашей стране является государство, которое оцифровало практически все сферы взаимодействия с гражданами: так, «Госуслуги» содержат подробнейшую информацию о личных документах, членах семьи и имуществе пользователей, уже появляются цифровые медицинские карты», — напоминает Геннадий Нагорнов, генеральный директор и основатель Genius Group.
«Big data — как молодёжный секс. Все считают, что другие этим занимаются, но сами ещё не пробовали, — шутит Александр Старостин, СЕО и сооснователь First Data. — Если серьёзно, обработка big data даёт инструменты для взвешенных решений на основании фактов, а не ощущений и домыслов. А сегодня, в условиях высокой неопределённости рынка, обоснованные шаги важны как никогда».
Стелла Рудь, директор по развитию компании Digital Vision, проводит аналогию с поиском иголки в стоге сена. «Но в случае с big data вместо иголки компания ищет драгоценный ларец, внутри которого находится сакральное знание, в каком направлении развивать бизнес», — резюмирует она.
По сути big data — это океан, каждая капля воды в котором это единица информации. Отдельная компания — это судно, идущее по этому океану. Чтобы провести его к цели, нужны специальные инструменты, карты, приборы и знания. Иначе движение превратится в дрейф, а небольшой шторм спровоцирует потопление. Многие компании пока готовы лишь к тому, чтобы отдать швартовы и отправиться в путь по этому океану.