Webscrapping

El webscrapping o raspado, es una técnica que sirve para extraer información de un sitio web, en este proyecto se utilizó la librería Twint para extraer tweets de la plataforma Twitter. Se hace filtros por idioma, fechas, cantidad de tweets, etc. Podemos ver un ejemplo en el archivo [ejemplo.py](Preprocesamiento/ejemplo.py at master · Jesusdrp09/Preprocesamiento · GitHub)

Preprocesamiento

En este proyecto se aplican 9 técnicas de preprocesamiento:

Reemplazo de contracciones: desde el archivo contracciones.csv se extraen las contracciones más comunes usadas en el diario vivir de los colombianos y se reemplazan por la palabra o frase estandarizada.
Reemplazo de abreviaciones: desde el archivo abreviaciones.csv se extraen las abreviaciones más comunes usadas en el diario vivir de los colombianos y se reemplazan por la palabra o frase estandarizada.
Reemplazo de nombres de usuario: los tweets algunas veces contienen nombres de usuarios como @juanPerea000, como estos nombres de usuarios no le aportan información a los modelos de inteligencia artificial, podemos reemplazar todos la palabra "USERNAME".
Reemplazo de URLs: las URLs no le aportan información a los modelos de inteligencia artificial, es por ello que se reemplazan las URL por la palabra "URL"
Eliminación de números: los números suelen aportar información mínima al modelo, es por ello que algunos casos se pueden omitir, en el proyecto actual simplemente se eliminan todos los números.
Añadir etiquetas: algunas veces para expresarnos utilizamos emojis como: 😊😂😒😢, estos emojis pueden ser reemplazados por las emociones que representan como "felicidad", "alegría", "enojo" o "tristeza", esto con el fin de estandarizar las palabras que recibe el modelo y así otorgarle más información.
Eliminación de stopwords: los "stopwords" son palabras de un idioma que solas carecen de sentido como: el, en, un, entre otros. Estás palabras se pueden eliminar en modelos de Machine Learning, ya que su aporte es muy poco o nulo al análisis de sentimiento.
Lowercasing: Hola, hola, HOLa y HOla quieren decir lo mismo, es por ello que se aplica la técnica de lowercasing, la cual ayuda a colocar todas las letras en minúscula.
Eliminar signos de puntuación: los signos de puntuación no aportan mucha información al modelo, además, aparecen no importando si el sentimiento que se expresa en el tweet es positivo, negativo o neutro. Es por ello que se eliminan todos los signos de puntuación.

Podemos ver esta información en el archivo [prepro.py](Preprocesamiento/prepro.py at master · Jesusdrp09/Preprocesamiento · GitHub)

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
__pycache__		__pycache__
Readme.md		Readme.md
abreviaciones.csv		abreviaciones.csv
contracciones.csv		contracciones.csv
ejemplo.py		ejemplo.py
etiquetas.csv		etiquetas.csv
prepro.py		prepro.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Webscrapping

Preprocesamiento

About

Releases

Packages

Contributors 3

Languages

Jesusdrp09/Preprocesamiento

Folders and files

Latest commit

History

Repository files navigation

Webscrapping

Preprocesamiento

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages