Antes de inciar este módulo, si es que no tienes mucho acercamiento a temas de estadísticas o no estás muy familiarizado/a con eso, te recomendamos que realices este curso previamente. Es gratis y se basa en el uso de Excel para los ejemplos.
https://www.coursera.org/learn/estadistica-aplicada-negocios
Este libro contiene diversos métodos para la infererencia estadística. Está en inglés, pero es de fácil lectura. Además, es bien concreto en el uso de los métodos y sus aplicaciones en R. Te recomendamos que lo tengas de consulta frecuente y que lo uses para complementar lo que veremos en este módulo. Practical Statistics in Medicine with R (bougioukas-medstats-r.netlify.app)
😃 Regístrate en el Discord de nuestro Bootcamp y comenta en el canal del curso dedicado a este tema.
En esta sesión abordamos unos de los temas más relevantes del curso: la gestión responsable y ética de datos.
Un must have en todo proyecto de ciencia de datos.
📺 [ Video ]
📕 [ Slides ]
El libro que estuvimos comentando en la clase es "La gestión ética de los datos" del BID que puedes encontrar en este enlace.
Siempre es necesario conocer el marco normativo, acá te dejo la Ley 19.628 sobre protección de la vida privada y la Ley 20.584 que regula los derechos y deberes que tienen las personas en relación con acciones vinculadas a su atención en salud (Chile).
Acá puede revisar la política chilena sobre inteligencia artificial.
Para complementar lo visto en la sesión puedes revisar los links que están en la presentación.
Algunos relevantes son:
-
Texto completo RGDP (en español)
-
Estudio del uso intensivo de datos en políticas públicas, Programa de modernización del Ministerio de Hacienda. Chile
-
Guía para formulación ética de proyectos de ciencia de datos.
Además, ve estos videos que son muy recomendables. Varias de las cosas que hablamos también están tratados en esos videos.
-
La ética de la IA, Ricardo Baeza-Yates
-
How humans judge machines, Cesar Hidalgo
-
Ética y Transparencia algorítmica: ¿Qué se le debe comunicar a la ciudadanía?, Gob LAB UAI
Sobre la anonimización de datos les dejamos algunos recursos interesantes:
-
Guía para la anonimización de bases de datos en el Sistema Estadístico Nacional (Colombia)
-
Anonymisation: managing data protection risk code of practice
Bonus:
Esto es interesante. Este es un algoritmo que permite evaluar el nivel de sesgos que puede tener un dataset. Es de código abierto y se puede usar instalándolo vía Python o bien, en su versión web.
Aequitas - Bias and Fairness Audit Toolkit
En esta sesión comenzamos a revisar los fundamentos estadísticos de los proyectos de ciencia de datos. En colaboración con Facultad de Matemáticas Pontificia Universidad Católica de Chile y Data UC.
📺 [ Video ]
📕 [ Slides ]
💻[ Script ]
En la carpeta Books puedes encontrar varios libros muy recomendados. Si bien son libros relativamente para principiantes, es importante que ya manejes programación y tengas conocimientos en estadísticas. Por ello, es recomendable que los tengas como lectura de consulta.
De los libros, te recomiendo leas este, en especial si no tienes mucha formación estadística. Es un libro entretenido y que explica varios conceptos básicos de estadísticas y probabilidades.
En esta sesión ccontinuamo revisando los fundamentos estadísticos de los proyectos de ciencia de datos. En colaboración con Facultad de Matemáticas Pontificia Universidad Católica de Chile y Data UC.
📺 [ Video ]
📕 [ Slides ]
💻[ Script ]
Revisa la sección Books
para tener acceso a libros de lectura recomendada y de ayuda. Son libros largos, pero te serán de utilidad para una gran cantidad de oportunidades.
La estadística es un ámbito clave para poder comprender el mundo que nos rodea, poder tomar decisiones con cierta certeza y, eventualmente, predecir el futuro respecto de un fenómeno particular.
Te recomendamos los siguientes recursos para que puedas profundizar más sobre éstos temas, ya que será de mucha utilidad para comprender los distintos modelos de inteligencia artificial y la lógica que hay detrás de cada uno, así como de sus supuestos.
En especial, dale una mirada al curso, que si bien tiene materias avanzadas (como estadística bayesiana), contiene en su primera parte de videos, un resumen bastante interesante sobre estadística descriptiva y te ayudará a tener un mejor pensamiento estadístico. Además, tiene clases sobre test de hipótesis y diseño de experientos.
-
Repo Curso Pensamiento Estadístico (Universidad de Chile - Departamento de Ciencias de la Computación)
-
Playlist completa YouTube con las clases del curso U. de Chile (en español) 🔥
-
Libro: "Pensamiento estadístico para el siglo 21" (Poldrack 2021) [Traducción en español del original]
-
Web con gráficos super lindos e interactivos para comprender distintos elementos de la estdística y probabilidades.
Además, te dejamos estos otros recursos que te servirán como consulta posterior. Te recomendamos tenerlos a mano.
-
Libro "Métodos cuantitativos" (Aleksander Dietrichson, PhD. 2019)
-
Web con explicaciones y muchos ejemplos de aplicación con R de estadísticos más comunes.
-
Libro "Learning Statistics with R - A tutorial for Psychology Students and other Beginners"
En esta sesión comenzaremos a hablar sobre el machine learning (ML). Que suena lejano e intimidante, pero cuando lo entiendes, te das cuenta de que es algo bastante común y no tan difícil de implementarlo. De todas formas el estudio de esta temática es muy amplio y cada día se van desarrollando nuevas técnicas, modelos y aplicaciones.
Durante estas sesiones realizaremos una introducción al LM y revisaremos 2 de los aspectos más comunes: modelos de clasificación y regresión.
📺 [ Video ]
📕 [ Slides ]
💻[ Script ]
En la presentación te recomendamos revisar los links y enlaces a bibliografía mostrados.
En esta charla, el estadístico Manuel Rain nos habla sobre distintos modelos matemáticos para analizar la supervivencia de pacientes con cáncer de mama, usando R.
Te recomendamos complementar la charla con documentación sobre modelos de superviviencia:
En esta sesión estaremos revisando los modelos de machine learning de aprendizaje supervisado, en particular, los modelos de clasificación.
Revisamos los modelos de árboles de decisión, random forest y modelos GBM (gradient boosting machine) y usamos un resampleo con cross-validation para evaluarlos.
📺 [ Video ]
📕 [ Slides ]
💻[ Script ]
En la presentación te recomendamos revisar los links y enlaces a bibliografía.
Además, puedes ver los siguientes enlaces complementarios:
-
Documentación sobre
rpart
(árboles de decisión) -
Documentación librería
minerva
(para ver evaluar modelos usando MIC)
Durante las sesiones usamos, principalmente, la librería caret
, pero en R existe una serie de otras libererías destinadas al ML denominada tidymodels. Es similar en la lógica al tidyverse
, pues es un conjunto de librerías que tienen un flujo de trabajo en común. Durante el útlimo tiempo ha estado madurando bastante y te recomendamos darle una mirada. Este es el libro oficial de documentación de tidymodels
.
En esta sesión revisamos algunos modelos de regresión para machine learning y aprendizaje supervisado.
📺 [ Video ]
📕 [ Slides ]
💻[ Script ]
-
Te recomiendamos leer la documentación oficial de la librería
caret
. -
Puedes revisar estos 101 algoritmos de ML con una breve explicación y tutoriales de cómo implementarlos, tanto en R como en Python.
-
Libro "Modern Statistics with R" (From wrangling and exploring data to inference and predictive modelling).
🟨 Revisa la carpeta Docs
, en la cual se irán dejando documentos, papers y presentaciones complementarias interesantes para este módulo.
El machine learning es una área muy extensa de estudio y siempre está avanzando. Acá solo revisamos algunos puntos para darte una guía y el impulso a que sigas aprendiendo. Te aconsejamos que sigas adelante. No quizás en estos momentos para que sigas con el próximos módulo del curso, pero tenlos en mente para más adelante.
-
En este repositorio podrán encontrar un curso de Microsoft sobre ML. Es introductorio, pero es bastante interesante. Incluye los códigos en Python y en R en varios de ellos. En inglés.
microsoft/ML-For-Beginners: 12 weeks, 26 lessons, 52 quizzes, classic Machine Learning for all (github.com) -
Web con breve curso interactivo con el uso de ML sobre
tidymodels
de Julia Silge, Data Scientist de RStudio y creadora de la librería. En inglés.
Supervised machine learning case studies in R! · A free interactive course (supervised-ml-course.netlify.app) -
Curso super didáctico, apoyado por el Govierno de Finlandia, sobre inteligencia artificial, sin código. Se basa en explicar de forma simple distintos conceptos de ML y la importancia de comprender sus alcances y riesgos. En español.
Una introducción a la inteligencia artificial, en línea y gratis, para no expertos (elementsofai.com)
Regístrate en el Discord de nuestro Bootcamp para mantenerte al tanto de todas las novedades.
Si llegaste hasta acá y realizaste los módulos 1, 2, 3 y 4 siguiendo todos los consejos, talleres y practicaste mucho, estás más que capacitada/o para realizar el curso de IBM Cognitive Class de Machine learning con R sin mayores problemas.
👉 Ir al curso y obtener el certificado.