Script para fazer download das teses e dissertações da CAPES.
- Instalar dependências do projeto
git clone https://github.com/AcademicAI/teses-download.git
cd teses-catalogo && pip install .
- Passar lista de urls da plataforma e diretório para salvar pdfs.
python -m teses_download "urls.txt" "./Trabalhos/"
- Download de várias urls
from teses_download import download
from teses_download import cache
with open("/content/urls.txt", "r") as f:
urls = f.read().splitlines()
my_cache = cache.create_cache()
download.download_multiple_pdfs(urls,"/content/pdfs", my_cache)
- Download de uma url específica
from teses_download import download
url = "https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.xhtml?popup=true&id_trabalho=13398016"
id = int(url.split("=")[-1])
download.download_pdf(url, id, "./diretorio-teste")