Skip to content

Latest commit

 

History

History
23 lines (15 loc) · 812 Bytes

README.md

File metadata and controls

23 lines (15 loc) · 812 Bytes

SufixTree

Proyecto final de EDA El proyecto tiene como objetivo procesar los datos y realizar busquedas exactas del siguiente conjunto de datos: https://www.kaggle.com/Cornell-University/arxiv

Preprosesamiento

El preprocesamiento fue realizado de una porcion del conjunto de datos que se muestra en la siguiente carpeta: https://drive.google.com/drive/u/2/folders/1SL_fTVyZkecPU8go4_0g8gF-0-ZeLsRv como unprocessedData.txt

El archivo tilin.txt son los datos procesados por el archivo get_abstract.py

Ejecutar el proyecto

Para ejecutar el proyecto solo es necesario descargar el archivo tilin.txt y ponerlo en la misma ruta que el archivo SuffixTree.cpp. Se compila y se ejecuta. Luego se tendra la opcion de realizar busquedas donde le pedira un patron a buscar en los datos indexados.