Skip to content

kkonevets/dedup

Repository files navigation

dedup

Система уникальной идентификации товара

При современном обороте товара, в организациях по-разному называют один и тот же товар - названия могут быть разными, но товар один и тот же. Если к товару приписан штрих-код, то по нему можно с легкостью сопоставить такие товары, но штрих-код бывает заполнен далеко не всегда, поэтому, во избежание появления дублей, нужно уметь сопоставлять товары в любом случае. Дубли могут появиться как в сервисе, так и в пользовательских базах. Основное назначения системы - наведение порядка в пользовательских базах за счет умного сопоставления позиций с эталонными из сервиса. В результате, номенклатуре будет приписан глобальный идентификатор, который будет храниться в сервисе.

Задача: При отсутствии штрих-кода товара, найти, опираясь на присутствующие свойства товара, соответствующий товар К свойствам товара относятся:

  • Наименование товара
  • Текстовое описание товара
  • Набор доп. реквизитов (характеристики)
  • Артикул товара
  • Артикул производителя, ИНН, КПП, GLN
  • Бренд
  • Единица измерения, упаковка (товары с разными упаковками – разные товары)
  • Изображение товара (на будущее – сопоставление по картинке)
  • Тип товара (товар/услуга)
  • Базовая цена (доступна в сервисе), цена из базы пользователя, валюта, ставка НДС
  • Категория номенклатуры и ее иерархия (как в сервисе, так и у пользователя)
  • Семейство номенклатуры (группы номенклатуры)

Если запрашиваемого товара нет в сервисе, вывести соответствующее сообщение пользователю. То есть сопоставлять с номенклатурой только при высокой уверенности.

Тестирование системы: Берется новый источник данных в котором у товаров есть штрих-коды, по ним в мастер базе находятся соответствия. Затем штрих-коды убираются и проверяется насколько хорошо модель смогла восстановить связь по штрих-кодам. А именно, считаются метрики качества, например, precision и recall.

About

deduplicate goods by name and description

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published