arxiv_dataset_extraction

A simple script for extracting plain text from arxiv dataset: https://www.kaggle.com/Cornell-University/arxiv

Requirements

pdfminer.six==20201018, p_tqdm==1.2

Output format

{
    "id": "2010.01447", 
    "title": "GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented Dialogue Systems",
    "abstract": "End-to-end task-oriented dialogue systems aim to generate system responses... ",
    "introduction": "Task-oriented dialogue systems aim to help user accomplish specific tasks via natural language interfaces ...",
    "related work": "Task-oriented dialogue system has been a longstanding studied topic...",
    "proposed model": "Our proposed model consists of three components: an encoder...",
    "experiments": "4.1 Dataset To validate the efficacy of our proposed model...",
    "acknowledgements": "We would like to thank...",
    "all_contents": "GraphDialog: Integrating Graph Knowledge..."
}

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
json		json
pdf		pdf
README.md		README.md
test_pdfminer.py		test_pdfminer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

arxiv_dataset_extraction

Requirements

Output format

About

Releases

Packages

Languages

sdmhans/arxiv_dataset_extraction

Folders and files

Latest commit

History

Repository files navigation

arxiv_dataset_extraction

Requirements

Output format

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages