Projeto para testar uso do DVC com repositório remoto no bucket S3 da AWS.
O objetivo desse projeto não foi construir um modelo robusto de ML realizando análises complexas. Foi exclusivamente para testar o uso de DVC e suas aplicações práticas de construção de pipelines para projetos de ML.
Neste projeto foi construído um pipeline simples de Machine Learning, com 4 estágios, para a classificação do dataset Íris: data_load, data_preprocess, train, test. Cada estágio é responsável por uma etapa diferente e possui suas dependências e saídas de dados monitoradas pelo DVC.
-
data_load: Estágio para ler os dados do dataste Iris, separar inputs de outputs e salvá-los em arquivos csv.
-
data_preprocess: Estágio que separa os dados em treino e teste e aplica o pré processamento de Standardization nos dados. Ao final o estágio salva os dados e o scaler para serem usados na sequência.
-
train: Estágio para treinr o modelo de SVM com os dados de treino, utilizando os parâmetros definidos em params.yaml. Ao final do treinamento o modelo é salvo para uso na etapa de teste.
-
teste: Estágio para testar o modelo criado e salvar as métricas calculadas.
Os estágios são implementados no arquivo dvc.yaml constituindo um pipeline quando se conectam entre si. Nele definimos as dependências, as saídas, os parâmetros e as métricas de cada estágio que serão rastreadas pelo DVC.