dvc-test

Projeto para testar uso do DVC com repositório remoto no bucket S3 da AWS.

O objetivo desse projeto não foi construir um modelo robusto de ML realizando análises complexas. Foi exclusivamente para testar o uso de DVC e suas aplicações práticas de construção de pipelines para projetos de ML.

Neste projeto foi construído um pipeline simples de Machine Learning, com 4 estágios, para a classificação do dataset Íris: data_load, data_preprocess, train, test. Cada estágio é responsável por uma etapa diferente e possui suas dependências e saídas de dados monitoradas pelo DVC.

data_load: Estágio para ler os dados do dataste Iris, separar inputs de outputs e salvá-los em arquivos csv.
data_preprocess: Estágio que separa os dados em treino e teste e aplica o pré processamento de Standardization nos dados. Ao final o estágio salva os dados e o scaler para serem usados na sequência.
train: Estágio para treinr o modelo de SVM com os dados de treino, utilizando os parâmetros definidos em params.yaml. Ao final do treinamento o modelo é salvo para uso na etapa de teste.
teste: Estágio para testar o modelo criado e salvar as métricas calculadas.

Os estágios são implementados no arquivo dvc.yaml constituindo um pipeline quando se conectam entre si. Nele definimos as dependências, as saídas, os parâmetros e as métricas de cada estágio que serão rastreadas pelo DVC.

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.dvc		.dvc
data		data
metrics		metrics
src		src
.dvcignore		.dvcignore
README.md		README.md
dvc.lock		dvc.lock
dvc.yaml		dvc.yaml
params.yaml		params.yaml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

dvc-test

About

Releases

Packages

Contributors 2

Languages

andre-almd/dvc-test

Folders and files

Latest commit

History

Repository files navigation

dvc-test

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages