Новости отрасли
Данных много не бывает?
Как не утонуть в озёрах данных и выудить нужную информацию для бизнеса.
Ажиотаж последних лет вокруг «больших данных» не спадает, и мы постоянно замечаем приметы внедрения этой технологии в нашу повседневную жизнь – в индивидуализированных рекламных предложениях, которыми нас ежедневно засыпают бренды, в подсказках социальных сетей, в чудо-приложениях, позволяющих нам следить за дорожной ситуацией, в работе «умных» светофоров, корректирующих свой режим в зависимости от плотности трафика, и во всем, на что только может хватить фантазии.
Неудивительно, что все больше компаний стремятся включиться в эту гонку за владение информацией, в которой главный приз, как принято считать, - владение миром.
У кого-то это получается весьма эффективно. Данные собираются, сразу же сегментируются, анализируются – и находят применение в собственном и даже чужом бизнесе: не секрет, например, что крупные ритейлеры продают рекламодателям обезличенные данные о покупателях, которые собирают в торговых точках.
В сфере транспорта и логистики умелое использование данных позволяет повысить эффективность планирования и маршрутизации, оптимизировать расход горючего, отслеживать местоположение и техническое состояние парка транспортных средств и обеспечить полную видимость логистических цепей.
Другие компании, воодушевленные успехами лидеров рынка, тоже инициируют сбор информации. Не имея ресурсов и возможностей производить их полноценный анализ, компании накапливают данные «впрок», для дальнейшего к ним обращения, используя, чаще всего, архитектуру так называемых «озёр данных».
Озёра данных – это репозиторий, хранилище большого объема разнообразных данных, без структуры и иерархии, которые собираются или генерируются организацией. Их использование соблазнительно: данные, предназначенные для хранения в озере, не требуют никакой предварительной обработки или анализа, они не фильтруются и хранятся «как есть», в сыром виде, а обратиться с запросом к ним можно в любое время.
Рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, – MarketsandMarkets
Насколько востребованными становятся такие хранилища, можно судить потому факту, что согласно прогнозу исследовательской компании MarketsandMarkets, рынок озёр данных ежегодно увеличивается на 28,3% и к 2021 году достигнет объема в 8,81 млрд. долларов США, при этом стоимость содержания озёр данных крайне невысока.
Но у такой модели есть и «темная» сторона. Часто в озёра данных попадает вся информация без разбора, без присвоения метатегов и идентификаторов, такое озеро практически не поддается управлению и в конечном итоге становится болотом – настоящей свалкой информационного мусора, разобраться в котором нет никакой возможности. И по утверждению экспертов, это типичная ситуация на сегодняшний момент: часто компании, собирая информацию, не понимают, что с ней делать дальше.
Как же извлечь пользу из озёр данных?
- Прежде всего, необходимо определить, какой цели планируется достичь при помощи собираемой информации, и сохранять только то, что соответствует вашей задаче. Так вы сможете отделить действительно ценную информацию от информационного шума.
- Дальнейшая рекомендация парадоксальна: надо ограничить сбор данных. Начните с малого. Значительно легче масштабировать успешный проект, нежели погрязнуть в огромном объеме неуправляемой информации.
- Не засоряйте озеро данных, не пренебрегайте присвоением идентификаторов и метатегов: так впоследствии будет легче извлекать нужные сведения.
- Обеспечьте безопасность персональных данных, исключите возможность утечки информации.
- Внедряйте машинное обучение для автоматизированного анализа полученных данных.
По результатам опроса, проведенного компанией Synesort, разработчиком программных решений для Big Data, в 2018 году 70,8% ИТ-профессионалов будут взаимодействовать с озёрами данных традиционным методом ETL (от англ. Extract, Transform, Load – дословно «извлечение, преобразование, загрузка»), то есть обеспечивать сбор, очистку и помещение данных в хранилище, 63,5% будут использовать данные в целях предиктивной аналитики и 60,4% специалистов – для аналитики в режиме реального времени.