Cluster-Analysis-Weddings

Trinta entrevistas foram feitas, pedindo-se para dar uma nota de 1 (discordo totalmente) a 5 (concordo totalmente) às seguintes afirmações:

Sempre vou a casamentos quando sou convidado.
A parte mais interessante dos casamentos são os doces.
Me emociono com a cerimônia de casamento.
Casamentos são boas ocasiões para se conhecer pessoas.
Me divirto com amigos nas festas de casamento.
Gosto de ver vídeos e fotos de casamentos.
Cerimônias de casamento longas me cansam.
Acho que casamento no civil não é casamento de verdade.

Os resultados estão na tabela em arquivo Excel localizado neste repositório.

Pré-processamento dos Dados

Checando Tipos de Dados

Podemos reparar que as features estão sendo erroneamente tratadas como numeric/character, quando na verdade são factors.

Ao se fazer o type casting das features para factor, podemos analisar, agora corretamente, como estão distribuidas na imagem abaixo:

Checando Correlações

Observando a imagem acima pode-se constatar que houve correlações consideráveis entre as variáveis:

Emocionar-Cansar: .67
Emocionar-Casamento: .69

Quando uma quantidade relevante de variáveis é altamente correlacionada, a característica que elas representam está sendo mais considerada que as outras características, representadas por variáveis não correlacionadas. Isso é nocivo, pois uma característica estará sendo privilegiada em relação à outra. Nesse caso, retirou-se a variável "emocionar", para que todas as correlações ficassem abaixo de .60.

Obs: Para estas features não foi necessário colocar os dados em escala pois eles já se encontram na mesma.

AGNES - Método WARD

Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando também 3 clusters, corroborando o elbow method. O Silhouette Width aponta para um resultado ótimo em k = 3.

Clusters	Dendograma

Elbow Method

Silhouette Analysis

AGNES - Método AVERAGE

Seguindo o Elbow Method, podemos observar nos gráficos beetweens e whithinss abaixo que o cotovelo se encontra no k = 3. Já observando o dendograma, é possível fazer um corte nas pernas mais longas gerando 3 clusters. O Silhouette Width aponta para um resultado ótimo em k = 3, por isso optou-se por manter o k = 3 como melhor resultado seguindo a análise do elbow e silhouette width.

Clusters	Dendograma

Elbow Method

Silhouette Analysis

K-Means

Utilizando o K-means é possível observar pelo plot dos clusters que ele consegue separar melhor os grupos. Analisando os gráficos whithinss e betweenss fica claro que para o k = 3 existe uma quebra na suavidade da curva, sendo assim esse o nosso elbow. O ASW mostra que para o k = 3 se tem o melhor resultado. Portanto, o K-Means gera um resultado melhor que o AGNES, para o k = 3.

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
img		img
README.md		README.md
base_casamentos.xlsx		base_casamentos.xlsx
cluster.r		cluster.r

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Cluster-Analysis-Weddings

Pré-processamento dos Dados

Checando Tipos de Dados

Checando Correlações

AGNES - Método WARD

Elbow Method

Silhouette Analysis

AGNES - Método AVERAGE

Elbow Method

Silhouette Analysis

K-Means

Clusters

Elbow Method

Silhouette Analysis

About

Releases

Packages

Languages

ricardobreis/Cluster-Analysis-Weddings

Folders and files

Latest commit

History

Repository files navigation

Cluster-Analysis-Weddings

Pré-processamento dos Dados

Checando Tipos de Dados

Checando Correlações

AGNES - Método WARD

Elbow Method

Silhouette Analysis

AGNES - Método AVERAGE

Elbow Method

Silhouette Analysis

K-Means

Clusters

Elbow Method

Silhouette Analysis

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages