Управление финансами

«Большие данные»: как из мухи делают слона

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

«Большие данные», о необходимости которых все время говорили аналитики, стали фикцией. Такой вывод можно сделать, сопоставив сентябрьские отчеты PwC и Accenture на эту тему. Представители бизнеса плохо понимают, что такое «большие данные»: каждый называет этим термином что-то свое. В прошлогодней статье The Washington Post утверждалось, что этот термин вообще не означает ничего определенного; если принять эту версию, он не имеет смысла.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое. По типичному пресс-релизу «Компания N внедрила решение Big Data» невозможно понять, о какой системе идет речь, как она работает и в чем ее польза. В результате этот сегмент рынка не производит впечатление устойчивого и надежного.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое

Рассуждая о «больших данных», аналитики PwC дают им странное определение: это«новая волна электронной информации, получаемой в большом объеме из растущего количества источников (т.е. не просто данные, собранные отдельной организацией в ходе своей обычной деятельности)» — «the recent wave of electronic information produced in greater volume by a growing number of sources (i.e., not just data collected by a particular organisation in the course of normal business)».

ИТ-специалисты и маркетологи сразу заметят, что это определение ведет к путанице, неверным ответам респондентов на вопросы аналитиков и ошибочным решениям в бизнесе. Конечно же, данные, собираемые из фиксированного количества источников одной организацией в ходе своей обычной деятельности, тоже бывают «большими». В том же отчете PwC приведен пример: оператор собрал данные о 25 млн своих клиентов (очевидно, речь идет о статистике сеансов связи) и сделал бесхитростный вывод, что сеть нового поколения (4G) выгоднее всего строить вдоль главных транспортных магистралей.

Аналитики Accenture не решились дать в отчете свое определение, а лишь отметили, что «у многих компаний есть разные определения больших данных». Зато они привели результаты опроса 1007 специалистов, использующих эти данные на практике. Респонденты с сильным сомнением отнесли к «большим» данные следующих категорий (или из следующих источников):

  1. Файлы объемом более 20 терабайт (так считают 65% респондентов).
  2. Углубленная аналитика или анализ (60%).
  3. Данные от программ визуализации (50%).
  4. Данные из социальных сетей (48%).
  5. Неструктурированные данные (видео, открытый текст, звукозапись) (43%).
  6. Геолокационные данные (38%).
  7. Социальные медиа / мониторинг / преобразование (37%).
  8. Телематика (34%).
  9. Неструктурированные данные / логи / произвольный текст (25%).

Ответы респондентов на вопрос: «Что из перечисленного вы считаете частью больших данных (независимо от использования этого в вашей компании)?»

Источник: Accenture, сентябрь 2014

Эта бессистемная классификация напоминает знаменитую «китайскую классификацию животных» Борхеса. Впрочем, главное в ней — это признание того факта, что к «большим данным» относятся обычные информационные объекты, с которыми люди работали (создавали, изучали, систематизировали, использовали в бизнесе) задолго до появления компьютеров: книги, служебные документы, фотографии и так далее. Ничего сложного.

К «большим данным» относятся обычные информационные объекты, с которыми люди работали задолго до появления компьютеров: книги, служебные документы, фотографии и так далее

Ниже я дам правильное определение «больших данных», а пока — несколько слов о происхождении этого термина и его применении в ИТ-индустрии. Он возник в научной среде как неопределенный образ, означающий, по мнению некоторых авторов, просто «ценную исследовательскую информацию» («research data can also be big by being of lasting significance»). Вскоре его заметили маркетологи, решив, что он поможет увеличить продажи. Например, продажи компьютеров.

Представьте, что вы выпускаете хорошие компьютеры. Они надежны и годами работают в дата-центрах клиентов. Те довольны и не хотят покупать новые. Зачем, если старые отлично работают, решая все задачи бизнеса?

В такой ситуации полезно подкинуть клиентам новые задачи. Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи. Но для этого нужны особые компьютеры, которые непременно должны работать в кластерах, то есть распределять одну задачу на 10, а лучше на 100 системных блоков, одновременно выполняющих вычисления. Поэтому их надо покупать в большом количестве, заполняя длинные ряды серверных стоек.

Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи

У системных администраторов есть шуточное определение «больших данных»: «Если на одном сервере не умещаются, значит большие». В этой шутке есть доля истины: термин часто ассоциируется с распределенными вычислениями. Многие вендоры продают в качестве готовых решений для «больших данных» серверы с пакетом программ «Хадуп» (Hadoop) или подобным. Считается, что он упростит клиенту программирование для распределения своей задачи на несколько системных блоков. В остальном это просто серверы: обычная конфигурация включает корпус со сдвоенным блоком питания, системную плату с CPU и модулями памяти, HDD и Linux в придачу.

Распределенные вычисления — это не отличительный признак «больших данных». И, конечно, этим признаком не является «Хадуп», тем более что он рассчитан только на узкий класс задач. Остальные, не укладывающиеся в его парадигму, требуют принципиально других решений.

Распределенные вычисления — это не отличительный признак «больших данных»

Есть много способов повысить эффективность бизнеса с помощью анализа собранных данных на одном компьютере, безо всяких распределенных вычислений. Вспомните: статистические данные успешно анализировали и 20, и 30 лет назад — а в то время «сервер корпоративного уровня» за сотни тысяч долларов сильно уступал современному бытовому компьютеру.

Итак, что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата. Специалисты называют «большим» массив или поток информации, если его структура, объем или иные особенности не позволяют решить конкретную задачу по его обработке с помощью стандартных, общепризнанных, проверенных временем технологий. В таких случаях приходится искать нестандартные, уникальные решения или менять постановку задачи.

Что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата

Один и тот же массив данных (скажем, статистика покупок в сети магазинов за квартал) может быть «большим» для одной задачи (точного прогнозирования спроса на следующий квартал) и «маленьким» для другой (подсчета квартальной выручки). Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла.

Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла

Приведу наглядный пример. В городе Пуэрто-Сомбра завелся маньяк, убивающий старушек. Мэр распорядился развесить на улицах 100 видеокамер, круглосуточно снимающих все вокруг. У сыщика есть 100 видеозаписей продолжительностью 7 суток каждая. Задача: автоматически сопоставляя записи, вычислить маньяка. Время дорого: один день — одна старушка.

В данном случае относительно большой объем данных — это не главное. Гораздо важнее, что задача крайне сложна математически. Для ее решения нужен прежде всего хороший алгоритм распознавания объектов (точнее, субъектов) в информационном потоке, присвоения им идентификаторов и составления карты всех перемещений по городу. Кто-то должен придумать этот алгоритм и написать по нему хороший код. Если код будет «кривым», неэффективным, то решение задачи займет в десятки, сотни или даже тысячи раз больше времени.

Наш сыщик плохо ориентируется в рынке ПО? Тогда он должен первым делом обратиться за консультацией к системному интегратору. Не исключено, что нужное ПО уже существует и остается лишь адаптировать его для решения конкретной задачи. Это гораздо быстрее и дешевле, чем написать аналогичное ПО с нуля. Именно на этой стадии выяснится, являются ли данные «большими» по состоянию на данный момент. Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат.

Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат

Указанный тип задачи хорошо подходит для распределения на 100 системных блоков. Если для анализа каждой видеозаписи выделить отдельный компьютер, то результат будет получен примерно в 100 раз быстрее, чем при последовательном анализе всех записей на одном компьютере такой же мощности.

Если готового ПО нет и приходится придумывать алгоритм, писать код, а затем проводить параллельные вычисления на 100 компьютерах одновременно, то перед нами классический пример работы с «большими данными».

Сравните с другой ситуацией: никакого маньяка нет, а видеозаписи надо лишь упорядочить на сайте мэра, чтобы показать идиллию на улицах Пуэрто-Сомбра. Данные остаются теми же самыми, но теперь они уже не могут считаться «большими». Это типовая задача, для нее есть готовые решения, и с ней справится любой местный студент-программист с бытовым компьютером за 200 тысяч песо.

Многие компании нуждаются в анализе коммерчески ценной информации. Но они, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ. Теперь у них нет никого, кто мог бы оценивать текущие задачи и сопоставлять их с возможностями доступных на данный момент информационных технологий.

Многие компании, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ

В результате случаются анекдотические ситуации: возомнив себя знатоком, директор решает выделить большой бюджет на «большие данные», хотя на самом деле его компания нуждается лишь в простейшей доработке реляционной базы данных с переносом на новый сервер. Или наоборот, сложнейшая проблема, требующая создания уникального алгоритма и длинного кода, кажется руководителю простой; он поручает ее одному сотруднику и через неделю злится, что ничего не получается.

Говоря чуть ли не о жизненной необходимости модных «больших данных», многие менеджеры и аналитики на самом деле имеют в виду всего лишь бизнес-аналитику. Так называют сочетания данных и задач, для которых существуют стандартные решения — в том числе в форме серийно выпускаемых программных продуктов.

Посмотрите на диаграмму. Мнения респондентов о «больших данных» в основном восторженные. 89% считают, что по революционному воздействию на бизнес «большие данные» сопоставимы с интернетом. 79% считают, что компании, не использующие их, ослабнут или вовсе разорятся. Судя по всему, респонденты имеют в виду не распределенные вычисления и не индивидуальное создание кода для каждого случая бизнес-аналитики, а очевидное утверждение: «Для успеха в бизнесе надо анализировать доступную информацию и делать верные выводы».

Мнения респондентов о важности «больших данных» для бизнеса

Источник: Accenture, сентябрь 2014

Ваша компания теряет конкурентоспособность из-за растущих объемов данных? Не тратьте деньги на специализированные серверы и модные программы. Вместо этого обратитесь за консультацией к экспертам. Они правильно сформулируют и классифицируют ваши задачи, подберут готовые решения для одних и огорчат их отсутствием для других. Только потом можно будет думать о «железе» и «софте». Обратите внимание: на первой стадии любого проекта надо платить экспертам не за решение задач, а за их независимую оценку и правильную формулировку.

Начать дискуссию

НДФЛ

Минфин не готов освободить от налога дивиденды на ИИС

Инвесторы будут платить НДФЛ с дивидендов, которые они получили от акций на индивидуальном инвестиционном счете.

Курсы повышения
квалификации

20
Официальное удостоверение с занесением в госреестр Рособрнадзора
Банки

ЦБ повысит надбавки по необеспеченным потребительским кредитам

Чтобы ограничить долговую нагрузку населения, регулятор ужесточает требования к банкам. Они будут больше платить за риски.

Банки

Сбер переведет заблокированные активы на отдельное юрлицо

До 31 декабря 2024 года подсанкционные банки имеют право перевести заблокированные активы и обязательства перед иностранными кредиторами на новую компанию.

Лучшие спикеры, новый каждый день
Общество

Министр труда: в регионах злоупотребляют материнским капиталом

Власти предлагают устанавливать пригодность для жилой недвижимости, которую покупают получатели материнского капитала.

В России могут ввести программу «Сельскохозяйственный гектар»

Зампредседателя Госдумы Ирина Яровая предложила сформировать специальную программу «Сельскохозяйственный гектар».

CRM

👩‍💻Популярные CRM для бухгалтерского аутсорсинга. Опрос

Не важно, у вас аутсорсинговая компания или бы бухгалтер-фрилансер с большим количеством клиентов или даже с помощниками. Невозможно держать в голове все сделки, выставленные счета, проведенные переговоры, не говоря уже о сроках сдачи отчетов и выдаче задач подчиненным. На помощь приходят CRM.

1
Опытом делятся эксперты-практики, без воды
Банки

Суд начал принудительную ликвидацию банка «Стрела»

В ходе ликвидации вкладчики и кредиторы получат свои средства. Процедуру будет проводить Агентство по страхованию вкладов.

Я руководитель, который никогда не уйдет от микроменеджмента, плохо это или хорошо. Интервью с Мариной Снеговской

Издатель «Клерка» Марина Снеговская рассказала о работе редакции, о том, чем не может пожертвовать «Клерк» и причем тут вечная гонка.

Я руководитель, который никогда не уйдет от микроменеджмента, плохо это или хорошо. Интервью с Мариной Снеговской
12

У ИП личные и предпринимательские налоги идут на одном ЕНС

НК не предусматривает разделение ЕНС на единый налоговый счет индивидуального предпринимателя и на ЕНС его же как физлица, не являющегося ИП.

⚡️ Итоги дня: жительница Великобритании приютила 74 детей, уборку улиц доверят роботам, а в Крым пришли дожди с песком

Подготовили обзор главных событий дня — 26 апреля 2024 года. Все самое интересное, что писали и обсуждали в сети, в одной подборке.

Экспорт

Росфинмониторинг: экспортеры не нарушают указ о продаже валютной выручки

Крупнейшие экспортеры выполняют требования властей в полном объеме и продают выручку по внешнеторговым контрактам на территории РФ.

Фейковых приложений банков стало на 25% больше

Мошенники пользуются тем, что иностранные магазины мобильных приложений блокируют официальный банковский софт, и предлагают пользователям скачать фейковые приложения.

Миникурсы, текстовые и видеоинструкции для бухгалтеров

Налоговикам можно задавать вопросы только про свои налоговые дела, но не про чужие

Абы кому ФНС не дает разъяснения по налогам.

Хочу научиться инвестировать в бизнес. Топ–16 площадок и телеграм–каналов для обучения

Финансовое образование (хотя бы на базовом уровне) — это один из первых шагов, которые стоит сделать перед тем, как вкладывать куда-либо деньги. На каких площадках и телеграм-каналах можно научиться инвестировать в бизнес?

Иллюстрация: создано с помощью ИИ OpenAI © Вера Ревина/Клерк.ру

Губернаторам хотят разрешить продлевать майские праздники

В Госдуме хотят разрешить местным властям давать больше выходных в майские праздники. Но только если большинство жителей поддержит перенос выходных с новогодних праздников.

Применение метода Критического Пути в управлении проектами

Любой проект является многозадачным, и часть задач находится во взаимной зависимости. В результате одни из них оказывают воздействие на решение других. Те из задач, что имеют наибольшее значение, должны находиться под непрерывным контролем.

Применение метода Критического Пути в управлении проектами

Физлицам до 2 мая нужно сдать уведомления о КИК

Если не представить уведомление о контролируемой иностранной компании, придется заплатить штраф в размере 500 000 рублей.

Как ваши интернет-бухгалтерии уменьшают налог на взносы? Опрос

Одна из подписчиц рассказала нам о том, как устроен расчет налога по УСН в онлайн-бухгалтерии Тинькофф, и прислала нам скрины переписки с поддержкой. Нас подход удивил и мы решили устроить опрос — а как работают ваши онлайн-бухгалтерии?

Допустимое время сверхурочной работы по ТК предложено увеличить

В настоящее время Трудовой кодекс разрешает переработки по 4 часа в течение двух дней подряд, то есть работать по 12 часов в день.

Интересные материалы

НДС

ФНС планирует сократить сроки возмещения НДС

Сейчас бизнесу возвращают НДС в течение 2-х месяцев, но глава ФНС хочет сократить эти сроки до нескольких недель.