Сегодня мы удивительно быстро привыкаем к новым возможностям, которые дают нам современные технологии. Прогресс в технологической области действительно колоссальный. В 2000 году в мире был 1 млрд мобильных телефонов, сегодня в среднем один мобильный телефон приходится на одного жителя Земли. Более того, это совсем другие мобильные телефоны – каждый из них является мини-компьютером, непрерывно находящимся онлайн. Драматически упала стоимость вычислительных ресурсов – сегодня, покупая недорогой планшетный компьютер, мы покупаем фактически суперкомпьютер 30-летней давности. Широкополосный доступ в Интернет доступен практически повсеместно, предоставляя безграничные возможности для обмена информацией.
Развитие цифровой инфраструктуры ведет к тому, что человечество сегодня очень быстро создает и накапливает данные во всех областях своей жизни. Возник даже специальный термин – «цифровая вселенная», который означает создающееся и непрерывно растущее гигантское информационное поле. Сегодня мы постоянно обмениваемся данными с Сетью в режиме онлайн, а значит, каждый из нас является обитателем этой цифровой вселенной.
Аналитики IDC предсказывают, что объем «цифровой вселенной» будет удваиваться каждые 2 года и к 2020 году на каждого жителя Земли будет приходиться по 5 терабайт данных. Для сравнения, оцифрованная библиотека Конгресса США заняла бы 20 терабайт.
Есть масса новых областей применения технологий, за счет которых будет происходить этот рост. Это социальные сети, геолокационные данные, интернет-трафик, видео- и аудиоинформация. Любое сложное техническое устройство сегодня оснащено огромным количеством датчиков, информация с которых пока используется лишь эпизодически. Но теперь она может быть собрана и использована для анализа! Например, огромный объем новых данных для анализа возникнет в результате внедрения электронных медицинских карт. Имеющиеся сегодня рукописные медицинские записи не пригодны для анализа. Более того, сегодня в медицине около 90% информации (например, данные с кардиомониторов или видеозаписи хирургических операций) не сохраняются в цифровом виде. Между тем, если бы мы могли собрать и обработать эту информацию, мы могли бы получить новые важные данные об эффективности разных методов лечения, причинах заболеваний, путях возникновения эпидемий и так далее.
Проблема в том, что хотя мы видим, где информация возникает и как она обрабатывается, мы еще не научились правильно ее собирать, интегрировать и, что самое главное, анализировать. Только 0,5% цифровой информации сегодня доступны для анализа, остальные данные остаются необработанными. Феномен, связанный с необходимостью вовлечь в анализ новые большие объемы цифровых данных, получил название «аналитика больших данных» и стал одним из ключевых вопросов для нынешней мировой ИТ-индустрии.
Огромный и практически свободный сегодня рынок анализа «больших данных» с потенциалом в 24 млрд долларов к 2016 году – отличная новая цель для применения талантов наших математиков и инженеров
Использующиеся сегодня технологии обычно позволяют работать с весьма ограниченными потоками информации и только с определенными ее видами и типами. Чтобы увидеть ценность данных, нужно создать новый инструмент, который позволяет рассматривать данные со всех сторон и, так сказать, «с максимальной детализацией». Создание и внедрение новых технологий и платформ, которые способны справиться с этими возросшими на порядок объемами данных, – это первый шаг, который нам предстоит совершить.
Второй важный шаг – найти людей, готовых к работе с «большими данными». Для такой работы необходимы профессионалы нового типа: эту новую специальность называют сегодня Data Analyst или Data Scientist. Это специалисты с уникальным профилем знаний, поскольку они обладают сочетанием компетенций сразу из трех областей: информационные технологии, математическая статистика и знания бизнес-области, в которой проводится анализ. Вопрос поиска таких людей для решения задач «больших данных» будет для бизнеса важнейшим на ближайшие несколько лет, все более сложным по мере роста спроса на аналитику больших данных.
Международная исследовательская компания McKinsey опубликовала исследование по большим данным, в котором оценила потенциальную потребность экономики США в специалистах класса Data Analyst почти в полмиллиона человек в 2018 году. При этом образовательная система США способна подготовить максимум 300 тысяч человек такого профиля. То есть дефицит на аналитиков будет колоссальный!
И тут самое время вспомнить о месте России на международном рынке. Исторически сложилось, что Россия сегодня гораздо лучше обеспечена людьми, подходящими по профилю знаний для работы в качестве Data Scientist, нежели большинство западных стран. В России порядка 60% студентов в государственных вузах учатся на технических и инженерных специальностях, и эта доля год от года растет. Потенциал России на этом рынке подчеркивают и аналитики McKinsey, называя в своих отчетах Россию в числе потенциальных стран, где мировой рынок будет черпать ресурсы для решения своих аналитических задач.
Благодаря высокому проценту выпускников-технарей и достижениям нашей инженерной школы уже сегодня Россия занимает заметные позиции на международном рынке разработки программного обеспечения. Успех российских программистов тем более значим, что они в конкурентной борьбе отвоевали долю рынка у мощных конкурентов, таких как Индия и Китай.
Почему бы теперь России не стать главным мировым исследовательским центром для «больших данных»? Огромный и практически свободный сегодня рынок анализа «больших данных» с потенциалом в 24 млрд долларов к 2016 году – отличная новая цель для применения талантов наших математиков и инженеров. Наша задача сегодня – в масштабах государства увидеть для себя этот рынок как стратегическое направление и создать условия для развития в стране высокотехнологических сервисных бизнесов. И тогда, возможно, Россия станет родиной новых успешных компаний, которые покорят мировой рынок.