Proyecto final de EDA El proyecto tiene como objetivo procesar los datos y realizar busquedas exactas del siguiente conjunto de datos: https://www.kaggle.com/Cornell-University/arxiv
El preprocesamiento fue realizado de una porcion del conjunto de datos que se muestra en la siguiente carpeta: https://drive.google.com/drive/u/2/folders/1SL_fTVyZkecPU8go4_0g8gF-0-ZeLsRv como unprocessedData.txt
El archivo tilin.txt son los datos procesados por el archivo get_abstract.py
Para ejecutar el proyecto solo es necesario descargar el archivo tilin.txt y ponerlo en la misma ruta que el archivo SuffixTree.cpp. Se compila y se ejecuta. Luego se tendra la opcion de realizar busquedas donde le pedira un patron a buscar en los datos indexados.