Реализованы три метода построения вектора документа (словаря) на основе модели "мешок слов": в первом методе в качестве единицы анализа (ключа в словаре) используется лексема, во втором -- словоформа, в третьем -- часть речи
Реализованы три меры близости: Жаккара, косинусную и евклидову.
Составлен датасет:
- каждый текст состоит от 3000 до 8000 символов;
- представлено по три текста в каждом из пяти существующих стилей (научный, официально-деловой, публицистический, художественный, разговорный) по каждой из четырёх тематик (экономика, наука, культура, политика), таким образом 3 * 5 * 4 = 60 текстов;
- авторы текстов не всегда разные.
Сформированы матрицы сравнения текстов с помощью каждой из трёх мер близости на основе каждого из трёх методов формирования вектора документа.
Косинусная мера близости и ключ - часть речи
Ось x представляет собой оценку близости между двумя текстами, а ось y - стиль или тематика текстов.