Бухгалтерские программы

Инструменты data mining: что лучше выбрать?

Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:

Материал Intersoft Lab.

Вопрос о том, как правильно выбрать пакет инструментов data mining (DM), актуален уже несколько лет. Ответ на него, рассматриваемый в данной статье, будет построен, исходя из двух основных положений:

  • лучшего инструмента, который подходил бы для всех, не существует;
  • самые полезные средства – это те, что упрощают большую часть задач для тех приложений data mining, которые необходимы конкретной компании.

В прошлом разработка инструментов data mining была нацелена преимущественно на обеспечение мощных аналитических алгоритмов. Однако аналитические "машины" обрабатывают только небольшую часть всех задач DM-проекта. Большинству специалистов известно, что от 70% до 90 % DM-проекта составляет подготовка данных. Кроме того, хорошие инструменты для прямого маркетинга должны включать средства оценки моделей.

Инструменты оценки моделей

В аналитической теории лучшая модель – та, которая дает максимальную точность в прогнозировании всех классификационных состояний целевой переменной и достаточно надежна при работе с тестовым набором данных.

Этот подход получил название метода Global Accuracy (Глобальной точности). Большинство инструментов data mining используют этот метод для идентификации "лучшей" модели. Однако тут есть одна хитрость. Теория, лежащая в основе метода глобальной точности, основана на предположении, что затраты на все классификационные ошибки одинаковы. Этот подход хорошо работает в учебном классе, однако в реальной ситуации (например, при подготовке маркетинговых кампаний по рассылке), результаты могут получиться не столь блестящими.

Фактически, это одна из причин, по которой многие проекты поддержки маркетинговых кампаний в прошлом были не очень удачными. Основа для оценки моделей имела мало отношения к наиболее интересным для маркетинга понятиям – максимизации положительной реакции клиентов и минимизации расходов на эту цель. Большинство инструментов data mining направлены на обеспечение общей точности прогнозирования, но полностью игнорируют вопрос затрат.

В маркетинговых кампаниях расходы на рассылку потенциальному покупателю, который в итоге на нее не отреагирует (это называется "ложно-положительной" ошибкой), в общем-то невелики; однако потенциальные потери по причине отсутствия рассылки тому клиенту, который, вероятно, откликнулся бы ("ложно-отрицательная" ошибка), могут быть достаточно большими (если вычислить ценность клиента в течение его жизненного цикла, размеры невыплаченных сумм и не приобретенных услуг). Это значит, что методы оценки модели должны быть направлены на минимизацию ложно-отрицательных, а не ложно-положительных ошибок. Так как специалисты в области маркетинга заботятся только об уровне отклика и затратах, рассылка первым 30% клиентов, покрывающая 60% откликающихся, как правило, решает обе задачи. Рассылка не отвечающим (ложно-положительные ошибки) среди первых тридцати процентов – это вполне приемлемая затрата ради 60% отвечающих. Такой вариант привлечения клиентов обнаруживает 100%-ое превышение над случайной выборкой и более эффективен, чем массовая рассылка.

Большинство DM-инструментов используют для оценки модели метод глобальной точности. Иногда этот метод приходится использовать, чтобы выявить лучшую модель с помощью возможностей отчетности инструментов. Оценка лучшей модели среди многих, выполненных на различных алгоритмах, не должна проводиться путем сравнения отчетов точности каждого из инструментов. Критерием сравнения должно быть качество сегментации клиентов с положительным откликом среди первых нескольких десятков из списка, отсортированного по вероятности прогнозирования.

Имея четкое представление о правильной оценке DM-моделей, можно более детально рассмотреть бизнес-процессы, которые необходимо координировать с помощью DM-инструментов, позволяющих использовать результаты модели для повышения прибыльности компании.

К таким бизнес-процессам относятся:

  • процесс data mining;
  • процесс поиска знаний (knowledge discovery);
  • программы управления бизнес-процессами;
  • системы управления знаниями;
  • процессы управления бизнес-экосистемами.

Процессы data mining

В своей статье "Приобретение средств data mining. Как избежать серьезных неудач в прогнозной аналитике"1 Эрик Кинг (Eric King) указывает, что самый главный аспект data mining – это сам путь, а не цель. Этот путь он называет "процессом" data mining и описывает его основные элементы следующим образом:

  1. это процесс обнаружения;
  2. он имеет гибкую инфраструктуру;
  3. выполняется на основе четко определенной стратегии;
  4. содержит множество контрольных точек;
  5. включает периодические оценки;
  6. дает возможности настроек с помощью обратной связи.
  7. основан на итеративной архитектуре.

Модели процессов

Поставщики нескольких DM-пакетов решили для ясности упростить процесс. Например, одна из фирм разбила его на 5 этапов:

  • выборка;
  • объяснение;
  • манипулирование;
  • моделирование;
  • оценка.

Раньше для описания DM-процесса применялась хорошая метафора. Технологию data mining сравнивалась с потоком воды, циркулирующем в каскадном фонтане: вода (данные) падает на первый уровень (фазу анализа), образуя водовороты (усовершенствования и обратная связь), пока не накопится достаточно "переработанной" воды для того, чтобы перелиться вниз на следующий уровень. "Обработка" продолжается до тех пор, пока не достигается самый нижний уровень, где вода снова перебрасывается наверх и процесс начинается заново. Действительно, DM-процесс очень напоминает этот итеративный каскадный процесс. Даже внутренняя обработка множества DM-алгоритмов (например, нейронных сетей) выполняется за множество прогонов (периодов) на выборке данных, до тех пор, пока не будет найдено лучшее решение.

Некоторые компании встраивают версии простых моделей процессов в пользовательский интерфейс. Это дает пользователю возможность организовать необходимые DM-задачи в нужном порядке.

Недостаток аналогии с фонтаном воды состоит в том, что в ней никак не отображаются циклы обратной связи, которые часто имеют место в DM-процессе. Например, оценка данных может отразить некоторые аномалии, которые требуют извлечения дополнительных данных из исходных систем. Или после моделирования становится очевидным, что дополнительные записи данных необходимы для адекватного отражения родительской популяции.

Одна из попыток решения этой проблемы предложена в следующей модели, охватывающей весь контекст data mining.



Рис.1. Модель процессов DM

Моделирование данных часто напоминает работу с глиной или мрамором. Художник начинает с куска материала, а затем за множество серий (итераций) манипулирования и сверки с изначальным замыслом художественный образец, наконец, достигает своей формы. Однако при моделировании данных возникает дополнительная проблема. Природа моделируемой среды не до конца известна, по крайней мере до середины процесса. Эрик Кинг считает, что DM-процесс – циклический (как это показано на рисунке), а не линейный. Его работа напоминает принцип действия роторно-поршневого двигателя. Двигатель проходит круг за кругом, вырабатывая кинетическую энергию в форме роторного движения, которая используется для движения автомобиля. Аналогично и DM-процесс движется круг за кругом и вырабатывает информацию, которую можно использовать для достижения бизнес-целей. Эта информация – "энергия", питающая бизнес. Также необходима и обратная связь с предыдущими этапами процесса (например, получение дополнительных данных после выполнения предварительного моделирования).

Есть, однако, один элемент, которого не хватает в представленном на рисунке процессе: обратная связь с Хранилищем данных или исходной системой. Результаты предыдущих маркетинговых кампаний должны передаваться в Хранилище, чтобы обеспечить понимание последующих операций моделирования и отслеживание тенденций этих компаний.

Структура процесса data mining дает информацию о том, какие необходимые задачи должны решать DM-инструменты. Однако открытыми остаются следующие вопросы:

  • что делать с результатами DM?
  • как действия, "порожденные" результатами data mining, влияют на последующие операции DM?

Перечислим задачи, которые должны упрощать DM-инструменты:

  • экспорт модели в ряд структур баз данных;
  • экспорт модели в формате, удобном для импорта в другие приложения для поддержки принятия решений и бизнес-операций;
  • передача данных из одного алгоритма в другой (мета-моделирование);
  • сравнение результатов различных алгоритмов.

Процесс поиска знаний

Data mining можно считать частью более широкого процесса, называемого поиском знаний (knowledge discovery – KD). Помимо DM-операций, поиск знаний также может содержать некоторые элементы, определяющие извлечение данных из исходных систем, а также из приложений, в которые поступают аналитические данные из инструментов data mining. К этим приложениям относятся средства Business Intelligence для создания управленческой отчетности, а также системы проверки маркетинговых кампаний и маркетинговых результатов. И хотя наличие всех этих средств обнаружения знаний необходимо для успеха data mining, многие задачи, решаемые данными инструментами, выходят за рамки обсуждения в настоящей статье.

После получения всех знаний, их необходимо трансформировать в модели, которые могут служить входной информацией для различных бизнес-процессов, повышающих прибыльность.

Управление бизнес-процессами

Управление бизнес-процессами относится к сложным взаимоотношениям между людьми, приложениями и технологиями в бизнесе, ориентированном на клиента. Управление бизнес-процессами использует знания, полученные в результате аналитических операций, интерпретирует их, исходя из текущих бизнес-целей, и превращает их в действия, направленные на текущие бизнес-цели. К управлению бизнес-процессами относятся программы повышения качества, а также программы разработки.

Управление знаниями

Еще более широкий контекст для data mining, выходящий за рамки управления бизнес-процессами, – управление знаниями (knowledge management – KM), которое можно определить как процесс, включающий широкий круг методов и подходов, в том числе генерацию, сбор и разделение знаний, относящихся к конкретному бизнесу.

В управлении знаниями выделяют два основных подхода:

  • метод, ориентированный на продукты;
  • метод, ориентированный на процессы.

Подход, ориентированный на продукты. Здесь в центре внимания документы, хранение данных, истории событий и шаблоны решений. В данном случае знания рассматриваются без учета тех людей, которые их создают (или обнаруживают), и без тех, кто их использует.

Подход, ориентированный на процессы. Это более целостный подход к управлению знаниями за счет выделения среды, в которой генерируются и распространяются знания. Его можно рассматривать как процесс социальной коммуникации. Это означает, что знания концентрируются у тех, кто их обнаруживает, а распространение информации производится путем личных контактов. В процессе формируются самоорганизующиеся группы – сообщества, которые участвуют в развивающемся естественным образом общении.

Эти различия в управлении знаниями не новы, их корни лежат в дихотомии мышления, свойственной человеку. Проявления этих корней заметны в литературе всех веков, вплоть до Платона и Аристотеля. Аристотель считал, что настоящее бытие раскрывается только в материи, то есть в том, что можно разглядеть и потрогать. Он верил, что высшим уровнем интеллектуальной деятельности является детальное изучение окружающего нас материального мира. Только так можно понять реальность. Исходя из такого понимания истины, Аристотель пришел к выводу, что сложную систему можно разделить на части, описать их детально, затем объединить эти части и постичь целое. Для Аристотеля целое являло собой сумму частей, то есть его понимание целого было чисто механическим. Так и подход к управлению знаниями, ориентированный на продукт, очень похож по своей сути на философию Аристотеля.

Что касается учителя Аристотеля – Платона, то единственная, по его мнению, вечная сущность – идея. Он верил, что большинство важных вещей в жизни человека выходят за пределы осязаемого. Влияние идей выходит за рамки материального мира. Для Платона вся сущность бытия была выше, чем сумма его осязаемых частей. Можно сказать, что управление знаниями, ориентированное на процессы, похоже по своей сути на мысли Платона.

Знания и бизнес-экосистема

Мы не должны допускать поляризации нашего мышления в поисках знаний. На мир бизнеса нужно смотреть с разных точек зрения, сочетая разные философии. В современном анализе экосистем делается именно так.

Аналогия между поиском истины в анализе экосистемы и бизнесе впервые была предложена известными специалистами – Клаудией Имхоф (Claudia Imhoff) и Райаном Соуза (Ryan Sousa).Затем их статьи были расширены и дополнены в книге Билла Инмона (Bill Inmon)2.

Унифицированный подход к управлению знаниями состоит в сбалансированном объединении описанных методов (так называемый Know-Net подход). Тут подразумевается корпоративная информационная структура, которая позволяет каждому человеку, группе или всей организации коллективно и систематически создавать, совместно использовать и применять информационные ресурсы компании для достижения более высокой организационной эффективности, компетенции и способности к реагированию и новаторству.

Основная идея Know-Net в том, что знание является критически важным стратегическим ресурсом организации. Аналогично в анализе экосистем в центре внимания не знания, а энергия. Очевидно, что знания являются потенциальной энергией бизнеса. Задача IT-менеджеров в том, чтобы разработать систему, которая будет извлекать знания, полученные с помощью DM-инструментов (потенциальную бизнес-энергию), и преобразовывать их в кинетическую энергию бизнеса, обеспечивая такое управление организацией, которое повышает ее прибыльность. Этот процесс необходимо интегрировать с описанными выше процессами data mining, обнаружения знания, управления бизнес-процессами и управления знаниями. Поэтому лучшие DM-инструменты – это именно те, которые могут обеспечить реализацию такой задачи.

Data mining в бизнес-экосистемах

Для того чтобы DM-инструменты хорошо служили в Know-net, они должны облегчать бизнес-процессы, которые предшествуют проекту data mining (т.е. хранение и извлечение данных, интеграцию), а также те, что следуют за проектом (экспорт, внедрение и оценка модели). Кроме того, инструменты data mining направлены на облегчение передачи сведений в процесс управления знаниями вне DM-проекта.

Подобное целостное представление о data mining обеспечивает этой технологии такую же роль в бизнес-экосистеме, какую фотосинтез играет в естественных экосистемах. Световая энергия поглощается растениями и преобразуется в химические энергетические структуры (сахара), которые служат для переноса энергии на более высокие уровни пищевых цепей. Эти химические энергетические структуры должны быть совместимы с потребностями более высоких организменных процессов. Такой биологический взгляд противоречит традиционному представлению о компаниях как машинах, выдающих продукцию.Однако инструменты DM нужно рассматривать в этом контексте, а иначе они не позволят достичь тех бизнес-целей, для которых были задуманы.

Для реализации этой цели DM-инструменты должны:

  1. облегчать обмен данными между операциями data mining и оставшейся частью бизнеса (обычными структурами данных);
  2. облегчать обмен моделями внутри корпорации и обеспечивать:
  • интерфейс со стандартными BI-инструментами;
  • интерфейсы данных ODBC и интерфейс уровня вызовов;
  • возможности data mining внутри баз данных;
  • Упрощать включение пользовательских узлов или подключаемых модулей в среде взаимодействия с другими системами.
  • Наконец, инструменты data mining должны обеспечивать разработку системы Know-Net, которая передает информацию внутри компании и позволяет осуществлять коллективное принятие решений. Билл Гейтс называет это "цифровой нервной системой" компании. Только таким образом живой организм обеспечивает многокомпонентные взаимодействия, например, зрительную координацию движений рук. Аналогично, бизнес-экосистема может развиваться только в том случае, если все подразделения компании активно сотрудничают и стремятся вести бизнес "со скоростью мысли".

    Начать дискуссию

    Как ИП уменьшить налог по УСН за 1 квартал на взносы 1% за 2024 год, если уведомление уже сдано

    Не все ИП оперативно среагировали на новые разъяснения ФНС про уменьшение налога по УСН на взносы 1% за 2024 год. Кто-то не учел новые правила и переплатил налог, кто-то еще не уплатил, но уведомление уже сдал. Уведомление можно пересдать, переплату вернуть.

    Иллюстрация: Вера Ревина/Клерк.ру

    Курсы повышения
    квалификации

    20
    Официальное удостоверение с занесением в госреестр Рособрнадзора
    Кадры

    Путин: судимость членов семьи не должна влиять трудоустройство

    Никто за действия членов семьи не отвечает, заявил президент на ежегодном съезде Российского союза промышленников и предпринимателей (РСПП).

    ФАС проверит цены на авиабилеты

    Представители авиации связывают высокую стоимость перелетов с ростом ставок на обслуживание судов, авиационное топливо, запчасти и агрегаты.

    Лучшие спикеры, новый каждый день

    Блокировка на маркетплейсах 2024: за что накажут, как снизить риски

    У каждой онлайн-площадки своя стратегия взаимодействия с продавцами. Но условия работы у них схожи и политика блокировок одна и та же. Разберем, за что блокируют продавцов, на какой срок и что сделать, чтобы снизить такие риски.

    Блокировка на маркетплейсах 2024: за что накажут, как снизить риски

    Кто должен платить НДС при импорте товаров, если отгрузка идет со склада в Беларуси

    Ситуация: компания №1 продает товар компании №2. Но этот товар – белорусский, он лежит на складе компании-производителя №3 в Беларуси. Компания №1 заключает договор на поставку с компанией №3. А забирает товар со склада сам покупатель (компания №2).

    КоАП РФ

    📞 Запретят массовые спам-звонки. Но это чьи-то деньги, поэтому найдут как обойти, пишут у нас в ВК

    Глава Минцифры Максуд Шадаев заявил о подготовке законопроекта, который запретит массовые спам-обзвоны.

    Опытом делятся эксперты-практики, без воды

    Комиссии по самозанятым: как сотрудничать с внештатниками в новых реалиях

    В 2024 году появилась новая «страшилка» для тех, кто предпочитает качественный результат при минимуме затрат, то есть для заказчиков самозанятых. Это межведомственные комиссии, которые заточены под выявление незаконной занятости, по сути — еще один контролирующий орган, помимо ИФНС и ГИТ, который будет выискивать следы трудовых отношений там, где их нет.

    Комиссии по самозанятым: как сотрудничать с внештатниками в новых реалиях

    Что ест бухгалтер. Борщ такой вкусный

    Ммм… Борщ… «Как много в этом звуке»... аромате, вкусе. Не буду говорить о происхождении, об истории и пользе, только о вкусе.

    Что ест бухгалтер. Борщ такой вкусный

    Совфед: беременные сотрудницы ликвидированных компаний должны получать пособие не ниже МРОТ

    Валентина Матвиенко призвала устранить несправедливость и платить больше беременным женщинам, которых уволили из-за ликвидации фирмы-работодателя.

    Как закрыть ИП в 2024 году: пошаговая инструкция

    Разобрались, как аннулировать статус индивидуального предпринимателя, закрыть все обязательства и долги перед государством в текущем году. Предложили удобную пошаговую инструкцию, которая поможет ничего не упустить.

    Как закрыть ИП в 2024 году: пошаговая инструкция

    💪 Ударные скидки на «Клерке»! Курсы по учету на маркетплейсах, ВЭД, зарплате, финмоделированию, УСН и бухгалтерии с нуля за 3 690 рублей!

    Проведите выходные с пользой! За череду праздников вы сможете пройти весь месячный курс «Клерка» и стать специалистом на еще одном участке, повысить квалификацию в своей сфере или освоить профессию бухгалтера с нуля! До 2 мая популярные онлайн-курсы за 3 690 рублей!

    Что грозит селлеру, который не доставил оплаченный товар

    В 8 из 10 случаев судьи принимают сторону покупателей в спорах с продавцами. Если селлер не может доставить товар, он должен вернуть деньги и выплатить неустойку.

    Миникурсы, текстовые и видеоинструкции для бухгалтеров

    Как проверить безопасность сотрудничества с самозанятыми перед ФНС

    Налоговая проверяет сотрудничество компаний и самозанятых, чтобы убедиться, что под ним не маскируют трудовые отношения. Заказчику не стоит дожидаться налоговой проверки — лучше самому провести аудит и убедиться, что он сотрудничает с исполнителем по закону.

    Как проверить безопасность сотрудничества с самозанятыми перед ФНС

    Как главному бухгалтеру избежать субсидиарной ответственности

    Когда приходит пора искать виноватых, чтобы заставить их платить по долгам организации-банкрота, круг «подозреваемых» существенно расширяется — и первым туда попадает именно главбух. Рассказываем о превентивных мерах и о том, на что ссылаться, чтобы отбиться от обвинений.

    Как главному бухгалтеру избежать субсидиарной ответственности

    🧠Напряжем мозги? Пятничный пост

    Кто-то одной ногой в отпуске, а кому-то напрягать мозги. Баланс?

    🧠Напряжем мозги? Пятничный пост
    7

    Расскажите о своей работе с документами

    Мы писали для вас 3 месяца и подустали. Теперь вы напишите нам (пжл). Какими сервисами пользуетесь? Что вам нравится, а что — нет? 1С — краш или…?

    Расскажите о своей работе с документами
    НДФЛ

    👼 Выплаты работодателей на рождение детей предложили полностью освободить от НДФЛ. Мнение: могут быть налоговые злоупотребления

    Корпоративные выплаты, связанные с рождением детей, необходимо освободить от НДФЛ, чтобы эти средства в полном объеме доходили до молодых родителей, считает Сергей Шишкарев, основатель группы компаний «Дело».

    Календарь вебинаров для бухгалтера в мае 2024: новый ФСБУ, дробление, ВЭД и налоговые требования. Не пропустите!

    Собрали для вас анонсы вебинаров на май 2024 года.

    Иллюстрация: rawpixel-com/freepik

    50%-е ограничение на учет убытков по налогу на прибыль хотят продлить еще на 4 года. Это забота о региональных бюджетах

    Раньше налог на прибыль шел 2% в федеральный бюджет и 18% в региональный, но теперь по 2030 год действуют ставки 3% и 17%. То есть региональные бюджеты недополучают 1%. Чтобы они меньше страдали, ввели ограничение на учет убытков.

    Интересные материалы

    Как СБИС помогла магазину продавать на 15% больше

    Раньше Екатерина — хозяйка салона одежды, часами «пикала» пальто на складе и вручную забивала в компьютер 100 шапок из накладной. За пару дней она смогла избавиться от неразберихи на складе, сэкономить на поставках, получить больше клиентов и теперь всё делает за пару минут в СБИС.

    Как СБИС помогла магазину продавать на 15% больше