Сбербанк 6 июня 2016 года опубликовал список заявок на тендер, в рамках которого ему необходимо поставить распределенную систему хранения и обработки супермассивов данных на платформе Hadoop.
При начальной цене в 12,5 млн рублей Teradata предложила свои услуги за 12,24 млн, Glowbyte Consulting – за 11,56 млн, Huawei – за 11,27 млн, AT Consulting – за 11,17 млн.
Минимальную цену – 0 рублей – Сбербанку предложила корпорация IBM. В протоколе рассмотрения заявок дается уточнение, что необходимые лицензии уже были приобретены и оплачены банком в рамках договора с IBM от ноября 2014 года. Стоимость лицензий по курсу на 5 июня 2016 года составляет 3,275 млн рублей.
Все заявки отправлены на рассмотрение в рабочую группу, сказано в протоколе. Выбор победителя намечен на 27 июня 2016 года.
Платформа Hadoop выбирается в качестве стандарта Сбербанка, говорится в тендерной документации.
Hadoop представляет собой свободно распространяемый набор ПО для разработки и выполнения распределенных программ, работающих на кластерах, состоящих из сотен и тысяч узлов. В системе предусмотрено дублирование на случай выхода из строя узлов, она поддерживает несколько рабочих копий данных. Работа Hadoop основана на принципе параллельной обработки данных, что позволяет увеличить скорость работы. Объемы обрабатываемой информации измеряются петабайтами. Платформа написана на языке Java.
Система, которую заказывает Сбербанк, должна удовлетворять требованиям к решениям, предъявляемым к классу задач Big Data, следует из ТЗ. В ее состав должны быть включены следующие open-source компоненты, осуществляющие хранение и обработку данных:
В рамках конкурса банк приобретает систему в объеме 61 узла с гарантийной поддержкой. Подрядная организация должна будет предоставить неисключительную лицензию на Hadoop на срок не менее одного года. Победитель заключит со Сбербанком рамочный лицензионный договор, при этом банк вправе определять объемы и сроки приобретения системы по своему усмотрению.
Также в числе требований тендера – наличие внедрений такой системы в России, не менее двух внедрений в крупнейших мировых банках, входящих в рейтинги Forbes 500 или Fortune 500 и совокупно наличие не менее 200 внедрений системы с момента ее выпуска на рынок.
В Сбербанке заявили TAdviser, что платформа необходима банку для хранения и обработки данных большого объема и различной структуры. Причины выбора Hadoop в качестве стандарта представители Сбербанка объяснили тем, что он органично дополняет другие уже имеющиеся в банка технологии для хранения обработки данных (МРР- и реляционные СУБД) и обладает важными особенностями. В их числе – низкая стоимость совокупного владения из расчета на 1Тбайт хранимых данных за счет использования commodity-оборудования и возможность проводить машинное обучение на всей совокупности хранимых данных.
Речь идет не о замене, а, скорее, о расширении технологических возможностей. Наряду с уже имеющимися МРР- и реляционными СУБД скоро мы начнем использовать Hadoop вместе со Spark и другими инструментами для работы с большими данными, – пояснили TAdviser в Сбербанке.
В рамках конкурса покупается только платформа Hadoop, реализующая методы распределения данных по вычислительным узлам, их параллельной обработки и сведения результатов. Всю логику работы и конкретные аналитические алгоритмы только предстоит разработать, замечает Владимир Дубинкин, руководитель отдела сетевых решений в компании IBS.
Это лишь инструмент для разработчиков, а не аналитическая система сама по себе, – отмечает представитель IBS. – Масштаб же приобретаемой системы довольно значительный – более 60 узлов, что позволяет ей обрабатывать, при наличии соответствующих аппаратных ресурсов, петабайты данных.
О преимуществах применения Hadoop в решении банковских задач представители Сбербанка рассказывают на профильных конференциях уже около трех лет, напомнил TAdviser Роман Баранов, руководитель направления бизнес-аналитики компании «Крок».
Функционал систем, создаваемых инструментами Hadoop, по мнению Баранова, может быть схож с тем, что реализуется с помощью Cloudera/MapR/HW, то есть решаются задачи кластеризации данных и выдачи оптимального предложения для клиента (Next Best Offer), которое формируется на основе таких характеристик как совершенная покупка, клиентский профиль и поведение похожих клиентов.
Также актуальными остаются задачи оценки кредитных рисков, оптимизации остатков кэша в отделениях и банкоматных сетях, прогнозирования отказов банкоматов и прочие, добавляет он.
Область банковского применения Hadoop крайне обширна и поддерживает такие ключевые направления, как формирование эффективной модели оценки индивидуальных клиентских и партнерских рисков, выявление мошеннических схем в транзакционных и биллинговых каналах, а также высокоточная сегментация всей клиентской базы для генерации наиболее целевых коммерческих предложений и оптимизации маркетинговых коммуникаций, рассказывает директор по маркетингу «Айкумен ИБС» Андрей Лысенко.
Помимо прикладного значения, кластеры Hadoop активно используются банковскими аналитиками для создания тестовой среды при исследовании новых типов данных, разнообразие которых растет в геометрической прогрессии, говорит он.
При внедрении Hadoop банк может столкнуться с традиционным набором затруднений, возникающий при внедрении новых технологий, полагают в самом Сбербанке: это необходимость наращивания компетенций, встраивание новой технологии во внутренние процессы и интеграция с имеющимся ИТ-ландшафтом.
Технологически внедрение платформы Hadoop несложно и сводится к развертыванию стандартных модулей на серверах вычислительного кластера, отмечают опрошенные TAdviser эксперты. Тем более, что в данном случае речь идет не об open-source решении, а о системе конкретного производителя, сопровождающейся поддержкой вендора. Также предъявляются высокие требования к наличию учебных курсов и уже довольно большого числа сертифицированных специалистов в России.
Дубинкину из IBS основной сложностью видится последующая разработка программного обеспечения для решения аналитических задач Сбербанка, в том числе, оптимизация программного кода для эффективного использования аппаратных ресурсов платформы. Кроме того, задачи анализа больших объемов данных имеют свою специфику и требуют привлечения профильных специалистов, так называемых data scientist, которых пока в России крайне мало.
Пока Hadoop распространен довольно слабо, и число участников каждой конференции по большим данным это только подтверждает, добавляет Баранов из «Крок». Открытых инсталляций эксперт смог насчитать всего порядка 10.
Практика «Айкумен ИБС» определяет основные сложности развертывания в организации управления, апгрейда и мониторинга состояния Hadoop-кластеров, когда счет АПК идет на десятки машин. Например, открытый Cloudera Manager уже не позволяет эффективно контролировать систему из свыше 30 машин и требует дополнительных расходов в виде платного лицензирования, говорит Андрей Лысенко.