Crawler

Собиратель постов для китайского параллельного подкорпуса в составе НКРЯ

VKCrawler

__init__(access_token: str, method: str)
- access_token – токен доступа.
- method – метод VK API, к которому происходит обращение.
- Параметры, которые нужны для этого метода.
data_folder – путь к папке с csv файлами с распаршенными постами.
skipped_posts_folder – путь к папке с файлами, где хранятся посты, которые не получилось распарсить.
posts – список словарей, ответы от VK API.
parsed_posts – список словарей, распаршенные посты, ключи: text, header, trans_header, date.
skipped_posts – список словарей, ответов от VK API, которые распарсить не получилось.
results_count – количество вхождений запроса в VK.
url – URL к VK Developers, объединённый с переданным методом.
access_token – переданный токен доступа.
update(last_results_count: int) – получить новые посты, основываясь на предыдущем количестве результатов. last_results_count – предыдущее количество результатов.
request(count: int) – запросить count результатов.
dump_all() – записать распаршенные посты в csv файлы в data_folder. Также создать файл с метаинформацией.
dump_skipped_posts() – записать посты, которые не получилось распарсить, в txt файлы в skipped_posts_folder.
from_txt_to_csv() – вызывается после того, как файлы из skipped_posts_folder были приведены к верному формату. Разбирает эти файлы, выгружает их в parsed_posts. Потом можно вызывать dump_all() для вывода их в csv.

Формат файлов

month/day/year

title in Chinese
title in Russian

Paragraph in Chinese
Paragraph in Russian

В одном абзаце одна строка.

Благодарности

Проект выполнен при поддержке Центра академического развития студентов в рамках Конкурса инициативных коллективных исследовательских проектов студентов Национального исследовательского университета «Высшая школа экономики»

Name		Name	Last commit message	Last commit date
Latest commit History 85 Commits
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler

VKCrawler

Формат файлов

Благодарности

About

Releases

Packages

Languages

kunansy/Crawler

Folders and files

Latest commit

History

Repository files navigation

Crawler

VKCrawler

Формат файлов

Благодарности

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages