Trinta entrevistas foram feitas, pedindo-se para dar uma nota de 1 (discordo totalmente) a 5 (concordo totalmente) às seguintes afirmações:
- Sempre vou a casamentos quando sou convidado.
- A parte mais interessante dos casamentos são os doces.
- Me emociono com a cerimônia de casamento.
- Casamentos são boas ocasiões para se conhecer pessoas.
- Me divirto com amigos nas festas de casamento.
- Gosto de ver vídeos e fotos de casamentos.
- Cerimônias de casamento longas me cansam.
- Acho que casamento no civil não é casamento de verdade.
Os resultados estão na tabela em arquivo Excel localizado neste repositório.
Podemos reparar que as features estão sendo erroneamente tratadas como numeric/character, quando na verdade são factors.
Ao se fazer o type casting das features para factor, podemos analisar, agora corretamente, como estão distribuidas na imagem abaixo:
Observando a imagem acima pode-se constatar que houve correlações consideráveis entre as variáveis:
- Emocionar-Cansar: .67
- Emocionar-Casamento: .69
Quando uma quantidade relevante de variáveis é altamente correlacionada, a característica que elas representam está sendo mais considerada que as outras características, representadas por variáveis não correlacionadas. Isso é nocivo, pois uma característica estará sendo privilegiada em relação à outra. Nesse caso, retirou-se a variável "emocionar", para que todas as correlações ficassem abaixo de .60.
Obs: Para estas features não foi necessário colocar os dados em escala pois eles já se encontram na mesma.
Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando também 3 clusters, corroborando o elbow method. O Silhouette Width aponta para um resultado ótimo em k = 3.
Clusters | Dendograma |
---|---|
Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando 3 clusters. O Silhouette Width aponta para um resultado ótimo em k = 3, por isso optou-se por manter o k = 3 como melhor resultado seguindo a análise do elbow e silhouette width.
Clusters | Dendograma |
---|---|
Utilizando o K-means é possível observar pelo plot dos clusters que ele consegue separar melhor os grupos. Analisando os gráficos whithinss e betweenss fica claro que para o k = 3 existe uma quebra na suavidade da curva, sendo assim esse o nosso elbow. O ASW mostra que para o k = 3 se tem o melhor resultado. Portanto, o K-Means gera um resultado melhor que o AGNES, para o k = 3.