Skip to content

Shemich/AI-NLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

AI-NLP

Реализованы три метода построения вектора документа (словаря) на основе модели "мешок слов": в первом методе в качестве единицы анализа (ключа в словаре) используется лексема, во втором -- словоформа, в третьем -- часть речи

Реализованы три меры близости: Жаккара, косинусную и евклидову.

Составлен датасет:

  • каждый текст состоит от 3000 до 8000 символов;
  • представлено по три текста в каждом из пяти существующих стилей (научный, официально-деловой, публицистический, художественный, разговорный) по каждой из четырёх тематик (экономика, наука, культура, политика), таким образом 3 * 5 * 4 = 60 текстов;
  • авторы текстов не всегда разные.

Сформированы матрицы сравнения текстов с помощью каждой из трёх мер близости на основе каждого из трёх методов формирования вектора документа.

Тепловые карты на основе этих матриц:

Иллюстрация к проекту

Тепловая карта средних значений близости этих матриц:

Иллюстрация к проекту

Диаграмма средних значений близости этих матриц

Иллюстрация к проекту

Диаграмма зависимости между близостью текстов и стилем/тематикой

Косинусная мера близости и ключ - часть речи

Ось x представляет собой оценку близости между двумя текстами, а ось y - стиль или тематика текстов. Иллюстрация к проекту