Клерк.Ру

«Платформа ОФД» представила технологию умной потоковой обработки данных из чеков

Компания обнаружила: грамматические ошибки, опечатки и сокращения допускаются в 60-65% кассовых чеков из магазинов.

IT-компания «Платформа ОФД» ежедневно обрабатывает 48 — 50 млн кассовых чеков в день. В системе компании уже 55 млрд фискальных документов.

На основе накопленного опыта работы с агрегированными обезличенными данными — компания разработала собственное ноу-хау — технологию обработки коротких текстов, которая позволяет точно определять и идентифицировать товары и категории, указанные в чеках.

Процесс обработки происходит в режиме реального времени, позволяя в «потоке» фискальных документов скоростью более 1 000 транзакций в секунду — классифицировать, сравнивать и верифицировать товарные записи, в том числе содержащие грамматические ошибки.

О применении технологии рассказал в ходе пресс-конференции «5 лет системе ОФД и онлайн-касс в России» Алексей Баров, генеральный директор «Платформы ОФД», крупнейшего оператора фискальных данных страны.

«Часто в чеках встречается короткое наименование товара и его характеристик, либо в названии допущены ошибки или опечатки. Это связано с ограничениями по объему символов в строках фискальных документах, которые выдаются покупателю. Другая причина — пресловутый человеческий фактор.

Благодаря технологиям Machine Learning и накопленной за несколько лет экспертизе в данных, мы научили нейросети нашей системы четко, оперативно, с минимум погрешностей — распознавать и анализировать поступающую информацию. Это позволяет находить смыслы в наборе букв и цифр.

Сегодня такая потоковая обработка охватывает до 21 миллиона товаров (SKU) из 3,5 тыс. категорий, с 6 уровнями вложенности. С ростом объема данных, технология будет совершенствоваться и становиться „умнее“. Мы планируем развивать это направление еще интенсивнее», — отметилАлексей Баров.

База для работы с короткими текстами «Платформы ОФД» на данный момент включает 5 млрд уникальных записей товаров, 150 млн написаний товаров в день. На потоке определяется более 3 млн брендов. При этом данные для классификации агрегируются как из чеков, так и из свободного доступа (отраслевые классификаторы, каталоги с сайтов ретейлеров, данные маркировки).

Ноу-хау помогло выявить, какова доля чеков с сокращениями и ошибками. По оценкам «Платформы ОФД», грамматические ошибки, опечатки и сокращения ежедневно допускаются в 60-65% всех чеков из продуктовой розничной торговли. При этом еще два года назад этот показатель был на уровне 80-85%. Меньше всего неточностей в фискальных документах организаций и предпринимателей сектора медицинских услуг — порядка 20-25%.

 

Пост написан компанией
Это авторский материал. Мнение редакции «Клерка» может не совпадать с тем, что в нем написано.
Создайте свой блог, выскажитесь и станьте суперзвездой «Клерка»
Создать блог