Меню
09.04.2019
москва
Когда данные стали «большими»: краткая история Big Data 04.02.2019
Когда данные стали «большими»: краткая история Big Data

Активный рост неструктурированных данных начался в 2008 году. Тогда Клиффорд Линч, редактор журнала Nature, опубликовал знаменитую статью «Как на будущее повлияет работа с большими объемами данных». В ней впервые прозвучал термин Big Data. В деловой лексике англоязычной среды много словосочетаний с приставкой Big, обозначающих широкий спектр технологий в определенных сферах: Big Oil, Big Ore и т. д. Потому словосочетание «большие данные» выглядело в материале вполне органично, и неологизм Линча прижился.

Этот термин мы используем и сейчас, правда, подразумевают под ним не просто пакет информации. Насколько и как Big Data разрослись в наше время – далее в статье.

Большие данные: что это и как их определить

Big Data – неоднозначное понятие, потому и определения ему дают разные. Обобщая все существующие версии, можно сказать, что большие данные – это комплекс методов обработки структурированной и неструктурированной информации. Определить Big Data можно по трем главным характеристикам («три V»), предложенным компанией Meta Group:

  • volume – большая величина физического объема данных (от +/- 100 Гб);
  • velocity – высокая скорость прироста новых данных и постоянная необходимость в ускорении их обработки;
  • variety – возможность одновременно обрабатывать различные типы данных: картинки, фото, видео, текст.

Набор этих критериев довольно старый, потому позднее появилась интерпретация IBM с «четырьмя V». В нем к трем существующим добавилась veracity (достоверность), что всячески обыгрывалось в рекламах компании. Потом критериев стало пять: IDC в своей версии наделила список viability (жизнеспособностью) и value (ценностью). Теперь их вообще семь: в перечень дополнительно включили variability (переменчивость) и visualization (визуализация).

Несмотря на разные подходы в составлении критериев, общая мысль одна: большие данные характеризует не только их физический объем, но и категории, которые помогают оценить сложность обработки и анализа информации.

Источниками для поиска больших данных в таком случае могут стать:

  • лог-файлы пользователей;
  • социальные сети;
  • данные с GPS-датчиков автомобилей;
  • данные с датчиков в Большом адронном коллайдере;
  • информация о транзакциях клиентов банка;
  • информация о покупках и покупателях в крупной ритейл-сети и т. д.

Также Big Data используют для обучения нейросетей. Огромное количество неструктурированной информации помогает ИИ обучаться самостоятельно.

AI Conference: Kogda dannyie stali «bolshimi»: kratkaya istoriya Big Data 1

Направления в сфере больших данных: Big Data Engineering и Big Data Analytics

Работу в сфере Big Data можно разделить на два направления – Big Data Engineering и Big Data Analytics. Они взаимозависимы, но отличаются друг от друга.

Big Data Engineering – это направление, занимающееся разработкой ПО для сбора и хранения данных, которое делает их доступными для потребительских и внутренних приложений. Дата-инженеры проектируют и развертывают системы, над которыми потом будут выполняться вычисления.

В то же время Big Data Analytics – среда использования данных из готовых систем, разработанных в Big Data Engineering. Это направление включает анализ тенденций, разработку систем классификации, прогнозирование и интерпретацию этих данных.

Техники и методы анализа больших данных

Количество источников данных стремительно растет, а значит, технологии их обработки становятся более востребованными. Самыми популярными инструментами для работы с Big Data, по версии консалтинговой компании McKinsey, можно назвать:

  • Data Mining – для обнаружения новой информации в «сырых» данных, которая может быть использована в практических целях;
  • Краудсорсинг – для привлечения большого количества людей к решению масштабных задач;
  • Смешение и интеграция – для адаптации данных под единый формат, чтобы облегчить их обработку (например, превращение контента из видео- и аудиофайлов в текст);
  • Машинное обучение – в частности, создание обучающихся нейросетей для быстрой и более качественной обработки информации;
  • Прогнозная аналитика, статистический анализ, визуализация аналитических данных – для последующего создания готового информационного продукта.

Почему Big Data важны?

На Всемирном экономическом форуме 2019 года Вирджиния Рометти, глава IBM, заявила: «Все говорят, что большие платформы вроде Facebook и Google владеют огромным массивом данных людей. На самом деле они владеют только 20% собираемой в мире информации».

Чтобы подтвердить это, Рометти представила статистику своей компании: на данный момент услугами IBM пользуются почти все банки мира, 90% авиалиний и 50% всех телекоммуникаций. Однако даже этот охват уступает масштабам работы китайских компаний.

Глава крупнейшего производителя аппаратного и программного обеспечения также отметила, что демократические взгляды западных стран серьезно проигрывают Китаю в сборе данных своих же граждан.

Китайские компании собирают всю доступную информацию с фитнес-трекеров, смартфонов и систем умных домов, будь они в Китае или за границей. В то же время у европейских и американских компаний нет доступа к Big Data китайцев, так как они защищены своим законодательством.

Получается, демократические законы должны развиваться в сторону защиты персональной информации. Однако беспрепятственный сбор данных все еще необходим для быстрого развития искусственного интеллекта – самой перспективной технологии нашего времени.


Больше актуальных новостей о технологиях искусственного интеллекта узнайте на AI Conference,
которая состоится 9 апреля в Москве.

Зарегистрироваться

Новости AI-индустрии и кейсы для вас