AI-NLP

Реализованы три метода построения вектора документа (словаря) на основе модели "мешок слов": в первом методе в качестве единицы анализа (ключа в словаре) используется лексема, во втором -- словоформа, в третьем -- часть речи

Реализованы три меры близости: Жаккара, косинусную и евклидову.

Составлен датасет:

каждый текст состоит от 3000 до 8000 символов;
представлено по три текста в каждом из пяти существующих стилей (научный, официально-деловой, публицистический, художественный, разговорный) по каждой из четырёх тематик (экономика, наука, культура, политика), таким образом 3 * 5 * 4 = 60 текстов;
авторы текстов не всегда разные.

Сформированы матрицы сравнения текстов с помощью каждой из трёх мер близости на основе каждого из трёх методов формирования вектора документа.

Тепловые карты на основе этих матриц:

Тепловая карта средних значений близости этих матриц:

Диаграмма средних значений близости этих матриц

Диаграмма зависимости между близостью текстов и стилем/тематикой

Косинусная мера близости и ключ - часть речи

Ось x представляет собой оценку близости между двумя текстами, а ось y - стиль или тематика текстов.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
images		images
matrix		matrix
README.md		README.md
dataset.csv		dataset.csv
dataset_maker.ipynb		dataset_maker.ipynb
nlp.ipynb		nlp.ipynb
report.pdf		report.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI-NLP

Тепловые карты на основе этих матриц:

Тепловая карта средних значений близости этих матриц:

Диаграмма средних значений близости этих матриц

Диаграмма зависимости между близостью текстов и стилем/тематикой

About

Releases

Packages

Languages

Shemich/AI-NLP

Folders and files

Latest commit

History

Repository files navigation

AI-NLP

Тепловые карты на основе этих матриц:

Тепловая карта средних значений близости этих матриц:

Диаграмма средних значений близости этих матриц

Диаграмма зависимости между близостью текстов и стилем/тематикой

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages