Максим Исаев, менеджер по развитию бизнеса программно-аппаратных комплексов компании IBS, принял участие в качестве эксперта в обзоре технологий для работы с большими данными (часть 1)
Над землей нависла угроза очередного всемирного потопа, только на этот раз его стихия – не вода, а информация. Из года в год объемы генерируемых в мире цифровых данных неуклонно растут: только в 2011 году человечество породило в электронном виде больше информации, чем за все время своего существования вплоть до XX века включительно. Данный тренд вынуждает IT-рынок искать ответы на вопрос: как совладать с бесконечным информационным потоком?
В 2012 году, по самым скромным прогнозам аналитиков, объем хра-нящихся в мире цифровых данных увеличится на 50%: с 1,8 до 2,7 зет-табайт. При сохранении таких темпов роста к 2015 году, по оценкеЛоуренса Джеймса (Laurence James), менеджера по маркетингу продукции, альянсов и решений компании NetApp, каждые 10 минут в миребудет генерироваться столько же данных, сколько их было накоплено человечеством к 2003 году. Значительную лепту в этот процесс вносят неструктурированные данные из новых источников, такие как мобильные устройства, RFID‑метки, камеры наблюдения и всевозможные датчики телеметрии. Но наибольшую волну информации порождает Интернет: каждую минуту в нем появляется свыше 600 новых записей в блогах и 34 тыс. постов в Twitter. К 2015 году объем мирового интернет‑трафика превысит 966 эксабайт в год, а глобальное онлайновое видеосообщество вырастет до 1,5 млрд пользователей. При этом если до 2010 года почти 100% трафика генерировали ПК, то в ближайшие три года их потеснят мобильные гаджеты. Кроме того, меняется характер создаваемых в Интернете цифровых данных: если раньше это в основном была структурированная текстовая информация, то теперь большая часть приходится на разнородный мультимедийный трафик.
Глобальный информационный поток получил наименование Big Data («большие данные»), которое впервые было введено в обиход в конце 2000-х годов применительно к ситуациям, когда данные становятся большой проблемой. Однако с легкой руки игроков IT-рынка вскоре под данным термином стали подразумевать не только проблемы, но и методики обработки и анализа «больших данных», а также сопутствующие технологии. По словам Артема Гришковского, заместителя генерального директора компании Sybase CIS, наиболее точное определение термина Big Data гласит, что это «совокупность структурированных и неструктурированных данных в таких объемах, которые невозможно проанализировать традиционными технологиями за разумный отрезок времени». При этом Дмитрий Хорошев, менеджер компании Cisco по развитию бизнеса в области ЦОД, отмечает, что у задач, объединенных термином Big Data, есть ярко выраженные особенности, которые отличают их от традиционных методов работы с данными. Среди них – обработка данных внутри базы без создания промежуточных копий, возможность работы с неструктурированными данными, использование для хранения и обработки информации большого количества вычислительных узлов в параллельном режиме, в том числе и для реакции на один информационный запрос.
По оценке Александра Котенко, руководителя направления по продвижению СХД компании «Инфосистемы Джет», четкие рамки «больших данных» не определены – все зависит от конкретных задач, типов данных и требований к скорости их обработки, а также множества других факторов. Но, как показывает практика, в большинстве случаев традиционные методы обработки информации становятся непригодными для использования при объемах от нескольких сотен терабайт и более.
«Чаще всего, когда упоминают Big Data, имеют в виду сверхбольшие объемы. Например, если говорить о решениях Oracle, то оптимизированный программно-аппаратный комплекс Oracle Big Data Appliance позволяет хранить и обрабатывать до 216 Тбайт данных», – комментирует Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ.
Однако большинство экспертов сходится во мнении, что охарактеризовать Big Data одним лишь объемом невозможно, поскольку не менее важны такие их характеристики, как скорость потока и разнообразие. «Если сочетание этих факторов делает обработку данных при помощи традиционных инструментов невозможной или экономически неэффективной, то это и есть Big Data», – подчеркивает Илья Гершанов, старший технический консультант компании ЕМС в России и СНГ. «Проблематика «больших данных» порождается не столько их объемом, сколько сложностью обработки, поэтому для одних отраслей Big Data это несколько десятков гигабайт информации, а для других – петабайты», – добавляет Дмитрий Лисогор, заместитель генерального директора и руководитель департамента по бизнес-аналитике и технологиям компании SAP в СНГ.
Глобальная сеть приучила людей практически мгновенно реагировать на запросы и вести быстрый поиск информации: за несколько секунд поисковые системы выдают результаты, для получения которых требуется обработка десятков и даже сотен терабайт информации, и в день они удовлетворяют сотни миллионов запросов. Между тем в большинстве областей бизнеса такие показатели пока что недостижимы: к примеру, среднестатистический банк успевает обработать лишь несколько тысяч транзакций в день, притом что размер автоматизированной банковской системы в среднем колеблется от сотен гигабайт до нескольких терабайт.
«Для любой компании предвестником «больших данных» являются показатели, которые определяют масштабы ее деятельности: количество клиентов и выполняемых бизнес-операций, а также сопутствующие объемы хранимой и обрабатываемой информации. Для предприятий федерального и международного уровня, количество клиентов которых исчисляется миллионами, а бизнес-операции – десятками миллионов в месяц, эпоха Big Data уже наступила», – отмечает Денис Первушин, директор департамента бизнес-приложений Oracle компании «АйТи».
Вячеслав Ковалев, начальник отдела ЦОД компании «Открытые Технологии», полагает Big Data закономерной эволюцией технологий обработки информации, доступной в различном виде из различных источников. По его словам, анализ накапливающихся со временем неструктурированных данных дает возможность компаниям адаптировать свой бизнес к реалиям рынка и принимать правильные бизнес-решения. Главная же проблема состоит в том, как правильно соотнести разрозненную и неструктурированную информацию с уже накопленными данными, дабы получить на выходе стройную систему, позволяющую принимать правильные решения.
По оценке Сергея Лихарева, руководителя направления по продажам решений для бизнес-аналитики компании IBM в России и СНГ, сбор и анализ бизнес-данных, вне зависимости от их типа, объема и темпов роста, приобретает ключевое значение для принятия взвешенных решений в бизнесе. «Скептики могут рассматривать Big Data как очередной маркетинговый трюк, но реальность такова, что многие компании в перспективе могут потонуть в потоке данных, не сумев извлечь из них пользы для своего бизнеса», – подчеркивает Лоуренс Джеймс (NetApp). По его словам, главная задача IT-индустрии – решать подобные проблемы посредством соответствующих технологий.
По итогам 2011 года исследовательская компания Gartner признала Big Data одним из ключевых факторов, оказывающих влияние на IT-рынок. По словам Валерия Юринского, директора отделения технологического консалтинга компании «ФОРС», под воздействием этого тренда принципиально меняется подход к хранению информации: все чаще ее просто невозможно собрать в одном месте для последующего анализа. Кроме того, необходимо учитывать разнообразие, скорость поступления и изменения данных в реальном времени и многое другое. Именно поэтому аналитики Gartner предложили формулировку «Big Data and Extreme Information Processing and Management» (дословно: «Большие данные и экстремальная обработка и управление информацией») как более полную и лучше отражающую суть происходящего явления.
Максим Исаев менеджер по развитию бизнеса ДСР компании IBS, отмечает, что на текущем этапе рынок Big Data еще не разогрет и поэтому вендоры пытаются принять в его развитии активное участие. По его оценке, Россия немного отстает от других европейских стран по объемам продаж и количеству инициированных проектов в области Big Data. Денис Первушин («АйТи») объясняет это тем, что бизнес-задачи, решаемые с помощью анализа «больших данных», актуальны лишь для компаний, достигших определенного уровня зрелости и осознающих оправданность инвестиций в соответствующие технологии, а внедрение решений класса Big Data требует существенных временных и материальных ресурсов. «Big Data повторяет путь облачных вычислений: пока рынок не понимает смысл этой технологии и не умеет ее использовать, она кажется всем маркетинговой уловкой, но как только приходит понимание ее сути и появляется первый опыт применения, она начинает восприниматься рынком как готовое решение реальных проблем», – констатирует Владимир Колганов, руководитель направления систем хранения данных компании КРОК.