Skip to content

Commit

Permalink
modified readme 5
Browse files Browse the repository at this point in the history
  • Loading branch information
dikar8 committed Oct 30, 2022
1 parent 26d65c0 commit a9cbda7
Showing 1 changed file with 15 additions and 4 deletions.
19 changes: 15 additions & 4 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -155,6 +155,12 @@ _Часто встречающиеся слова_

4. Таким образом, получились списки name1 и name2, которые вместе представляют собой массив пар схожих названий (label - 1.0). Для формирования массива непохожих названий name1 сдвинут на один вправо, а name2 повернут. Также удалено последнее значение обоих списков.

На тестовых данных distiluse-base-multilingual-cased-v2 показала невероятные 1.0 по всем метрикам. Проверка модели на сложных примерах может показать её реальное качество. Почему сложные? Потому что часть примеров модель никогда не видела (например, на кириллице или российских наименований с сокращенным указанием формы собственности в начале строки "ООО", "ОАО" и т.д. ). Примеров немного, но даже на них модель distiluse-base-multilingual-cased-v2 продемонстрировала хорошие результаты, отличив Bridge от Бриджит Бардо, Зенит от Спартака и т.д. Модель не справилась с Роскачеством и Россетями, что показаывает о необходимости подготовки русскоязычной модели отдельно.

_Проверка модели на сложных примерах_

![alt text](https://github.com/dpkaranov/org_name_similarity/blob/master/images/hard2.png?raw=true)

Подробнее с ходом эксперимента можно ознакомиться в блокнотах №6 и №7.

_Вывод: модель distiluse-base-multilingual-cased-v2 продемонстрировала практически невероятный результат. Если бы она не показывала хороший результат на новых данных можно было бы подумать, что она переобучилась. Возможно, эту модель изначально тренировали для установления схожести между словами._
Expand All @@ -171,10 +177,15 @@ _Вывод: как видно из представленных данных,

## Оценка производительности

На тестовых данных distiluse-base-multilingual-cased-v2 показала невероятные 1.0 по всем метрикам. Проверка модели на сложных примерах может показать её реальное качество. Почему сложные? Потому что часть примеров модель никогда не видела (например, на кириллице или российских наименований с сокращенным указанием формы собственности в начале строки "ООО", "ОАО" и т.д. ). Примеров немного, но даже на них модель distiluse-base-multilingual-cased-v2 продемонстрировала хорошие результаты, отличив Bridge от Бриджит Бардо, Зенит от Спартака и т.д. Модель не справилась с Роскачеством и Россетями, что показаывает о необходимости подготовки русскоязычной модели отдельно.
Модели показали разную производительность. Как видно из представленных данных, модель с выходящим слоем 128 (128_size_bert_v2) обрабатывает запросы в 3 раза быстрее.

_Проверка модели на сложных примерах_
Оборудование:

![alt text](https://github.com/dpkaranov/org_name_similarity/blob/master/images/hard2.png?raw=true)
RAM - не менее 4 Gb
GPU - не менее 1 Gb

Модель 128_size_bert_v2
Скорость инференса на GPU: 3334 слов в секунду. Скорость инференса на CPU: 128 слов в секунду.

В папке metrics хранятся сводные таблицы.
Модель 1.0_db-multilingual-cased-v2
Скорость инференса: 1667 слов в секунду. Скорость инференса на CPU: 128 слов в секунду.

0 comments on commit a9cbda7

Please sign in to comment.