Управление финансами

«Большие данные»: как из мухи делают слона

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

Аналитики и менеджеры запутались в мифе о «больших данных», называя этим термином совершенно разные вещи. Что же он означает на самом деле?

«Большие данные», о необходимости которых все время говорили аналитики, стали фикцией. Такой вывод можно сделать, сопоставив сентябрьские отчеты PwC и Accenture на эту тему. Представители бизнеса плохо понимают, что такое «большие данные»: каждый называет этим термином что-то свое. В прошлогодней статье The Washington Post утверждалось, что этот термин вообще не означает ничего определенного; если принять эту версию, он не имеет смысла.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое. По типичному пресс-релизу «Компания N внедрила решение Big Data» невозможно понять, о какой системе идет речь, как она работает и в чем ее польза. В результате этот сегмент рынка не производит впечатление устойчивого и надежного.

Чем больше размывается понятие «больших данных», тем больше теряют взаимопонимание участники рынка. Все чаще продавец «решений Big Data» имеет в виду одно, а покупатель рассчитывает на что-то другое

Рассуждая о «больших данных», аналитики PwC дают им странное определение: это«новая волна электронной информации, получаемой в большом объеме из растущего количества источников (т.е. не просто данные, собранные отдельной организацией в ходе своей обычной деятельности)» — «the recent wave of electronic information produced in greater volume by a growing number of sources (i.e., not just data collected by a particular organisation in the course of normal business)».

ИТ-специалисты и маркетологи сразу заметят, что это определение ведет к путанице, неверным ответам респондентов на вопросы аналитиков и ошибочным решениям в бизнесе. Конечно же, данные, собираемые из фиксированного количества источников одной организацией в ходе своей обычной деятельности, тоже бывают «большими». В том же отчете PwC приведен пример: оператор собрал данные о 25 млн своих клиентов (очевидно, речь идет о статистике сеансов связи) и сделал бесхитростный вывод, что сеть нового поколения (4G) выгоднее всего строить вдоль главных транспортных магистралей.

Аналитики Accenture не решились дать в отчете свое определение, а лишь отметили, что «у многих компаний есть разные определения больших данных». Зато они привели результаты опроса 1007 специалистов, использующих эти данные на практике. Респонденты с сильным сомнением отнесли к «большим» данные следующих категорий (или из следующих источников):

  1. Файлы объемом более 20 терабайт (так считают 65% респондентов).
  2. Углубленная аналитика или анализ (60%).
  3. Данные от программ визуализации (50%).
  4. Данные из социальных сетей (48%).
  5. Неструктурированные данные (видео, открытый текст, звукозапись) (43%).
  6. Геолокационные данные (38%).
  7. Социальные медиа / мониторинг / преобразование (37%).
  8. Телематика (34%).
  9. Неструктурированные данные / логи / произвольный текст (25%).

Ответы респондентов на вопрос: «Что из перечисленного вы считаете частью больших данных (независимо от использования этого в вашей компании)?»

Источник: Accenture, сентябрь 2014

Эта бессистемная классификация напоминает знаменитую «китайскую классификацию животных» Борхеса. Впрочем, главное в ней — это признание того факта, что к «большим данным» относятся обычные информационные объекты, с которыми люди работали (создавали, изучали, систематизировали, использовали в бизнесе) задолго до появления компьютеров: книги, служебные документы, фотографии и так далее. Ничего сложного.

К «большим данным» относятся обычные информационные объекты, с которыми люди работали задолго до появления компьютеров: книги, служебные документы, фотографии и так далее

Ниже я дам правильное определение «больших данных», а пока — несколько слов о происхождении этого термина и его применении в ИТ-индустрии. Он возник в научной среде как неопределенный образ, означающий, по мнению некоторых авторов, просто «ценную исследовательскую информацию» («research data can also be big by being of lasting significance»). Вскоре его заметили маркетологи, решив, что он поможет увеличить продажи. Например, продажи компьютеров.

Представьте, что вы выпускаете хорошие компьютеры. Они надежны и годами работают в дата-центрах клиентов. Те довольны и не хотят покупать новые. Зачем, если старые отлично работают, решая все задачи бизнеса?

В такой ситуации полезно подкинуть клиентам новые задачи. Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи. Но для этого нужны особые компьютеры, которые непременно должны работать в кластерах, то есть распределять одну задачу на 10, а лучше на 100 системных блоков, одновременно выполняющих вычисления. Поэтому их надо покупать в большом количестве, заполняя длинные ряды серверных стоек.

Хорошая идея для расширения продаж вычислительной техники — убедить клиентов, что компьютерный анализ больших объемов информации (например, статистики поведения потребителей) поможет им увеличить их собственные продажи

У системных администраторов есть шуточное определение «больших данных»: «Если на одном сервере не умещаются, значит большие». В этой шутке есть доля истины: термин часто ассоциируется с распределенными вычислениями. Многие вендоры продают в качестве готовых решений для «больших данных» серверы с пакетом программ «Хадуп» (Hadoop) или подобным. Считается, что он упростит клиенту программирование для распределения своей задачи на несколько системных блоков. В остальном это просто серверы: обычная конфигурация включает корпус со сдвоенным блоком питания, системную плату с CPU и модулями памяти, HDD и Linux в придачу.

Распределенные вычисления — это не отличительный признак «больших данных». И, конечно, этим признаком не является «Хадуп», тем более что он рассчитан только на узкий класс задач. Остальные, не укладывающиеся в его парадигму, требуют принципиально других решений.

Распределенные вычисления — это не отличительный признак «больших данных»

Есть много способов повысить эффективность бизнеса с помощью анализа собранных данных на одном компьютере, безо всяких распределенных вычислений. Вспомните: статистические данные успешно анализировали и 20, и 30 лет назад — а в то время «сервер корпоративного уровня» за сотни тысяч долларов сильно уступал современному бытовому компьютеру.

Итак, что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата. Специалисты называют «большим» массив или поток информации, если его структура, объем или иные особенности не позволяют решить конкретную задачу по его обработке с помощью стандартных, общепризнанных, проверенных временем технологий. В таких случаях приходится искать нестандартные, уникальные решения или менять постановку задачи.

Что такое «большие данные»? Их отличительный признак — это непригодность (или неэффективность) типового решения для получения из них нужного результата

Один и тот же массив данных (скажем, статистика покупок в сети магазинов за квартал) может быть «большим» для одной задачи (точного прогнозирования спроса на следующий квартал) и «маленьким» для другой (подсчета квартальной выручки). Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла.

Понятие «больших данных» вне контекста определенной задачи обычно не имеет смысла

Приведу наглядный пример. В городе Пуэрто-Сомбра завелся маньяк, убивающий старушек. Мэр распорядился развесить на улицах 100 видеокамер, круглосуточно снимающих все вокруг. У сыщика есть 100 видеозаписей продолжительностью 7 суток каждая. Задача: автоматически сопоставляя записи, вычислить маньяка. Время дорого: один день — одна старушка.

В данном случае относительно большой объем данных — это не главное. Гораздо важнее, что задача крайне сложна математически. Для ее решения нужен прежде всего хороший алгоритм распознавания объектов (точнее, субъектов) в информационном потоке, присвоения им идентификаторов и составления карты всех перемещений по городу. Кто-то должен придумать этот алгоритм и написать по нему хороший код. Если код будет «кривым», неэффективным, то решение задачи займет в десятки, сотни или даже тысячи раз больше времени.

Наш сыщик плохо ориентируется в рынке ПО? Тогда он должен первым делом обратиться за консультацией к системному интегратору. Не исключено, что нужное ПО уже существует и остается лишь адаптировать его для решения конкретной задачи. Это гораздо быстрее и дешевле, чем написать аналогичное ПО с нуля. Именно на этой стадии выяснится, являются ли данные «большими» по состоянию на данный момент. Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат.

Если есть готовое типовое решение, то о «больших данных» говорить не приходится: надо просто купить или взять в аренду (SaaS) соответствующую систему, ввести в нее данные и получить результат

Указанный тип задачи хорошо подходит для распределения на 100 системных блоков. Если для анализа каждой видеозаписи выделить отдельный компьютер, то результат будет получен примерно в 100 раз быстрее, чем при последовательном анализе всех записей на одном компьютере такой же мощности.

Если готового ПО нет и приходится придумывать алгоритм, писать код, а затем проводить параллельные вычисления на 100 компьютерах одновременно, то перед нами классический пример работы с «большими данными».

Сравните с другой ситуацией: никакого маньяка нет, а видеозаписи надо лишь упорядочить на сайте мэра, чтобы показать идиллию на улицах Пуэрто-Сомбра. Данные остаются теми же самыми, но теперь они уже не могут считаться «большими». Это типовая задача, для нее есть готовые решения, и с ней справится любой местный студент-программист с бытовым компьютером за 200 тысяч песо.

Многие компании нуждаются в анализе коммерчески ценной информации. Но они, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ. Теперь у них нет никого, кто мог бы оценивать текущие задачи и сопоставлять их с возможностями доступных на данный момент информационных технологий.

Многие компании, следуя моде на облака, давно отдали свою ИТ-инфраструктуру внешним подрядчикам, лишившись важного элемента современного бизнеса — человеческого капитала в сфере ИТ

В результате случаются анекдотические ситуации: возомнив себя знатоком, директор решает выделить большой бюджет на «большие данные», хотя на самом деле его компания нуждается лишь в простейшей доработке реляционной базы данных с переносом на новый сервер. Или наоборот, сложнейшая проблема, требующая создания уникального алгоритма и длинного кода, кажется руководителю простой; он поручает ее одному сотруднику и через неделю злится, что ничего не получается.

Говоря чуть ли не о жизненной необходимости модных «больших данных», многие менеджеры и аналитики на самом деле имеют в виду всего лишь бизнес-аналитику. Так называют сочетания данных и задач, для которых существуют стандартные решения — в том числе в форме серийно выпускаемых программных продуктов.

Посмотрите на диаграмму. Мнения респондентов о «больших данных» в основном восторженные. 89% считают, что по революционному воздействию на бизнес «большие данные» сопоставимы с интернетом. 79% считают, что компании, не использующие их, ослабнут или вовсе разорятся. Судя по всему, респонденты имеют в виду не распределенные вычисления и не индивидуальное создание кода для каждого случая бизнес-аналитики, а очевидное утверждение: «Для успеха в бизнесе надо анализировать доступную информацию и делать верные выводы».

Мнения респондентов о важности «больших данных» для бизнеса

Источник: Accenture, сентябрь 2014

Ваша компания теряет конкурентоспособность из-за растущих объемов данных? Не тратьте деньги на специализированные серверы и модные программы. Вместо этого обратитесь за консультацией к экспертам. Они правильно сформулируют и классифицируют ваши задачи, подберут готовые решения для одних и огорчат их отсутствием для других. Только потом можно будет думать о «железе» и «софте». Обратите внимание: на первой стадии любого проекта надо платить экспертам не за решение задач, а за их независимую оценку и правильную формулировку.

Начать дискуссию

УК РФ

На юрлиц стали чаще возбуждать уголовные дела за таможенные нарушения

Таможенные органы отчитались, что возбудили 641 уголовное дело в 1 квартале 2024 года.

Курсы повышения
квалификации

20
Официальное удостоверение с занесением в госреестр Рособрнадзора

Стартовал эксперимент с электронными студенческими билетами и зачетками: что дает

Электронные студенческие билеты и зачетные книжки появятся на Госуслугах. Их можно использовать наравне с бумажными.

Договор ГПХ: на какой срок можно заключить

Компании и предприниматели сотрудничают с внештатниками на основании договора ГПХ. Рассказываем, на какой срок можно составить договор гражданско-правового характера, и какие последствия могут быть, если указать срок неверно.

Договор ГПХ: на какой срок можно заключить
Лучшие спикеры, новый каждый день

До 17,5% от Абрамовича. Свежие облигации: Евраз на размещении

Горняки и металлурги пришли к нам за деньгами, а инвесторы и рады, что не только в лизинг и стройку можно инвестировать. Круто, но есть нюанс — отсутствует финансовая отчётность после 1П2022. Ни за весь 2022 год, ни за 2023 год отчётности нет. Посмотрим, как же так получается, и оценим необходимость участия в этом размещении.

До 17,5% от Абрамовича. Свежие облигации: Евраз на размещении

С Днём Победы!

9 мая, когда мы отмечаем День Победы, мы вспоминаем не только о тех, кто сражался на фронтах, но и о тех, кто с огромным мужеством выдерживал испытания в тылу. Среди них моя бабушка, Ольга Ефимовна, чья история наполнена не только горечью утраты, но и невероятной жизненной силой.

Путин: через 6 лет смертность от ДТП должна снизиться в 1,5 раза

В рамках достижения национальной цели «Комфортная и безопасная среда для жизни» президент поставил задачу снизить смертность в результате дорожно-транспортных происшествий.

Опытом делятся эксперты-практики, без воды
Инвестиции

Неприятие потери, или почему ты не можешь продать Сегежу с Газпромом

Ситуация: ты покупаешь акции компании, которая внезапно становится токсичной и месяц за месяцем нащупывает новое дно. Классический пример — ВТБ. Но это было всегда, а вот более свежие примеры — Сегежа или народное достояние. Газовая компания вообще держится в топ-3 по популярности среди акций, а её ближайшие перспективы не менее туманны, чем Альбион.

Неприятие потери, или почему ты не можешь продать Сегежу с Газпромом
Социальный вычет

Изменился состав документов для получения налогового вычета за обучение

По расходам на образование с 1 января 2024 года в налоговую нужно принести справку об оплате услуг. Раньше для получения социального налогового вычета по НДФЛ были нужны платежные документы и договор.

5

📕 💪 Акция «Не МАЙся — заниМАЙся»! Самые нужные курсы по 3 690 рублей!

Успейте купить топовые курсы «Клерка» за 3 690 рублей до 13 мая! Для акции мы выбрали нужные для бухгалтера онлайн-курсы: они помогут освоить востребованные навыки, актуализировать знания к лету, освоить новую нишу, чтобы вырасти в карьере и увеличить доход.

Иллюстрация: Вера Ревина/Клерк.ру
1

🔥 Акция «Не МАЙся — заниМАЙся!»: топовые онлайн-курсы по 3 690 рублей

До 13 мая вы можете купить лучшие онлайн-курсы «Клерка» по учету на маркетплейсах, финансовому моделированию, ВЭД, зарплате и бухгалтерии с нуля за 3 690 рублей!

Уважаемые коллеги! Поздравляем вас с Днем Победы!

Коллектив «Клерка» поздравляет всех с Днем Великой Победы!

Уважаемые коллеги! Поздравляем вас с Днем Победы!
3
Законопроекты

Губернаторам могут разрешить продлевать майские праздники

Госдума начинает рассматривать законопроект, который может разрешить региональным властям давать людям больше выходных в майские праздники. Но только если большинство жителей региона поддержит перенос выходных с новогодних праздников.

Миникурсы, текстовые и видеоинструкции для бухгалтеров
Инвестиции

8% в валюте на удобрениях. Свежие облигации: Акрон CNY на размещении

Нет ничего постыдного в том, чтобы инвестировать в навоз, даже если этот навоз берёт долги в юанях под 8%. Сегодня у нас в гостях Акрон — очередной эмитент, который позволяет инвесторам заработать в валюте. Крайне интересный выпуск, достойный находиться в портфелях всех любителей валюты.

8% в валюте на удобрениях. Свежие облигации: Акрон CNY на размещении

Проблема навигации на «Клерке». 20 лет мы искали решение и вот

Теперь навигационное меню можно свернуть и оно запомнит свое состояние.

Проблема навигации на «Клерке». 20 лет мы искали решение и вот

Сравнение сервисов для подачи отчетности. Обзор для бухгалтера

Статья представляет сравнительный обзор трех сервисов для подачи отчетности: 1С-Отчетность, СБИС и Контур Экстерн. Описаны их ключевые функции и ценовые предложения.

1

Правильно подобрали переводчиков и локализовали сайт: как за 2 месяца мы помогли торговой компании открыть филиалы в ОАЭ, Турции и Казахстане

Когда открываешь филиал компании за рубежом нужно заранее разобраться с требованиями местного законодательства: почитать гражданское и корпоративное право страны, в которой регистрируешь бизнес, и собрать правильный пакет документов. Все сертификаты, лицензии, разрешения должны быть профессионально переведены и заверены.

Правильно подобрали переводчиков и локализовали сайт: как за 2 месяца мы помогли торговой компании открыть филиалы в ОАЭ, Турции и Казахстане

Грядет очередной эксперимент по маркировке

C 1 сентября 2024 по 31 августа 2025 года Минпромторг планирует проведение эксперимента по маркировке отдельных видов смазочных материалов и специальных автомобильных жидкостей.

1

К 2036 году у 99% населения России будет интернет

Президент в качестве национальной цели обозначил увеличение доли домохозяйств, которым обеспечена возможность качественного высокоскоростного широкополосного доступа к интернету.

Зачем обращаются в Росреестр чаще всего: официальные данные

Росреестр отчитался, с какими вопросами чаще всего обращались заявители в 2023 году.

Интересные материалы

Ведение бизнеса

Выручка малых технологических компаний должны вырасти в 7 раз

Для достижения национальной цели «Технологическое лидерство» президент поставил целевой показатель по росту выручки малых технологических компаний (МТК).