Skip to content

ricardobreis/Cluster-Analysis-Weddings

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

44 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Cluster-Analysis-Weddings

Trinta entrevistas foram feitas, pedindo-se para dar uma nota de 1 (discordo totalmente) a 5 (concordo totalmente) às seguintes afirmações:

  1. Sempre vou a casamentos quando sou convidado.
  2. A parte mais interessante dos casamentos são os doces.
  3. Me emociono com a cerimônia de casamento.
  4. Casamentos são boas ocasiões para se conhecer pessoas.
  5. Me divirto com amigos nas festas de casamento.
  6. Gosto de ver vídeos e fotos de casamentos.
  7. Cerimônias de casamento longas me cansam.
  8. Acho que casamento no civil não é casamento de verdade.

Os resultados estão na tabela em arquivo Excel localizado neste repositório.

Pré-processamento dos Dados

Checando Tipos de Dados

Podemos reparar que as features estão sendo erroneamente tratadas como numeric/character, quando na verdade são factors.

Summary

Classes

Ao se fazer o type casting das features para factor, podemos analisar, agora corretamente, como estão distribuidas na imagem abaixo:

Summary - Tratado

Checando Correlações

Correlações

Observando a imagem acima pode-se constatar que houve correlações consideráveis entre as variáveis:

  • Emocionar-Cansar: .67
  • Emocionar-Casamento: .69

Quando uma quantidade relevante de variáveis é altamente correlacionada, a característica que elas representam está sendo mais considerada que as outras características, representadas por variáveis não correlacionadas. Isso é nocivo, pois uma característica estará sendo privilegiada em relação à outra. Nesse caso, retirou-se a variável "emocionar", para que todas as correlações ficassem abaixo de .60.

Correlações - Tratadas

Obs: Para estas features não foi necessário colocar os dados em escala pois eles já se encontram na mesma.

AGNES - Método WARD

Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando também 3 clusters, corroborando o elbow method. O Silhouette Width aponta para um resultado ótimo em k = 3.

Clusters Dendograma
Clusters Dendograma

Elbow Method

Elbow Method

Silhouette Analysis

Silhouette Analysis

AGNES - Método AVERAGE

Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando 3 clusters. O Silhouette Width aponta para um resultado ótimo em k = 3, por isso optou-se por manter o k = 3 como melhor resultado seguindo a análise do elbow e silhouette width.

Clusters Dendograma
Clusters Dendograma

Elbow Method

Elbow Method

Silhouette Analysis

Silhouette Analysis

K-Means

Utilizando o K-means é possível observar pelo plot dos clusters que ele consegue separar melhor os grupos. Analisando os gráficos whithinss e betweenss fica claro que para o k = 3 existe uma quebra na suavidade da curva, sendo assim esse o nosso elbow. O ASW mostra que para o k = 3 se tem o melhor resultado. Portanto, o K-Means gera um resultado melhor que o AGNES, para o k = 3.

Clusters

Clusters

Elbow Method

Elbow Method

Silhouette Analysis

Silhouette Analysis