Skip to content

rayssabanti/Challenge-DataScience-1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🧬 Alura Challenge Data Science - 1

Esse desafio consiste em desenvolver e aplicar habilidades de Ciência de dados como explorar, tratar e modelar os dados, focando na otimização de cada um dos modelos com a finalidade de obter o melhor resultado para a tomada de decisão.

O desafio terá 4 semanas divididos em:

  • 📌 Semana 1 - limpeza dos dados trazidos de uma API ✔️
  • 📌 Semana 2 - Explorando os dados: vendo as informações por uma outra perspectiva ✔️
  • 📌 Semana 3 e 4 - Exterminando o futuro: Criando modelos de ML 🛠️

Semana 1

🔍 Overview

Mais detalhes do processo aqui
Realizar o entendimento inicial dos dados, quantas colunas e registros, com qual tipo de dados estamos trabalhando e se existem registros null/na.

  • Entender quais informações o conjunto de dados possui ✔️
    • Json trouxe acoplado algumas colunas - custumer, phone, internet e account ainda possuem informações acopladas, extraimos as informações para novas colunas usando o json_normalize.
      image
    • E adicionamos ao dataset, tendo no final 21 colunas
  • Analisar quais os tipos de dados ✔️
    • Utilizando o Dtype, verifiquei os tipos de dados de cada coluna, e alterei aqueles que não faziam sentido.
  • Verificar quais são as inconsistências nos dados ✔️
    • Realizei a busca por nulos em todas as colunas utilizando o isnull()
    • Porém, eu percebi no desafio anterior, que as colunas totalGasto e cancelouPlano, tinham campos com " " que nem o isna() ou isnul() detectaram.
  • Corrigir as inconsistências nos dados ✔️
    • Então com um for, realizei a correção, substituindo por 0 ou Sem Informação
  • Traduzir as colunas
    • Realizei a padronização e tradução usando o rename()
    • E realizei a tradução dos dados
  • Criar coluna de contas diárias ✔️
    • Criei a coluna de contas diarias com a fórmula gastoDiario = valormensal / 30 e inseri na posição 18

Mais detalhes do processo aqui

🔖 Semana 2

🔍 Overview

Mais detalhes do processo aqui
Realizar a exploração dos dados em principal foco a nova variável Churn, buscando correlações e distribuições com as outras variáveis.

  • Analisar a variável target: Churn ✔️
  • Foi verificado a distribuição da variável cancelouPlano, observamos que é uma porcentagem menor dos casos que os clientes cancelam o plano, porém ainda é necessário uma análise das correlações.
  • Visualizar a distribuição da variável target: Churn ✔️
    • Veriiquei a relação da distribuição com as variáveis mais correlacionadas no heatmap: mesesContrato e totalServicosMensalmente
  • Criar visualizações relevantes em relação ao Churn ✔️
  • Analisar a correlação das variáveis ✔️
    • Utilizando após realizar o encode numérico de todas as variáveis, utilizei o .corr e o heatmap para visualizar as correlações

Conclusão:

  • Idosos tem uma alta taxa de cancelamento
  • Pessoas que não tem segurança online tem cancelado mais
  • Pessoas sem backup online tem cancelado mais
  • Pessoas que não tem suporte tem cancelado mais
  • Pessoas com contratos mensais tem mais chance de cancelar o plano e cancelam nos primeiros meses
  • As pessoas que cancelam pagam mensalmente entre 70-100 reais
  • Pessoas com conta eletrônica tem uma alta taxa de cancelamento

Logo, clientes novos tem mais tendência de cancelar o seu plano comparado com clientes antigos. Os clientes com menos serviços (Segurança Online, suporte e backup) tem mais chances de cancelar, provavelmente porque o plano "deixa a desejar" nesses pontos, dificultando o uso. As pessoas preferem o pagamento eletrônico, porém a maioria das pessoas que cancelam utilizam a conta eletrônica e tem o contato mensal. Verificamos que os clientes que pagam entre 70-100 mensalmente tem mais chances de cancelar o plano (seria interessante verificar planos de desconto pensando na permanencia dos proximos clientes).
Mais detalhes do processo aqui

🔖 Semana 3

🔍 Overview

Mais detalhes do processo aqui

Releases

No releases published

Packages

No packages published