Skip to content

seanko29/Data_Processing_EDA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Data-Processing-Practice_Titanic

Practicing on Data Processing

데이터 전처리 실습

  • 타이타닉 생존자 예측 문제 데이터의 전처리
  • Titanic Survival Prediction Problem
















- About the Data
타이타닉 탑승자 개인별 데이터를 보고 생존 여부를 예측하는 예제 데이터

Survival - 생존여부(타겟변수 y): 0 = No, 1 = Yes

Pclass - 티켓 등급: 1 = 1st, 2 = 2nd, 3 = 3rd

Sex - 성별: male, female

Age - 나이

SibSp - 동승한 형제, 배우자 수

Parch - 부모와 자녀의 수

Ticket - 티켓 번호

Fare - 승선 요금

Cabin - 캐빈(객실) 번호

Embarked - 승선한 항구: C = Cherbourg, Q = Queenstown, S = Southampton


Why and When do we do Log transformation?

  • It allows us to make a better linear relationship (thus, "explaining" better) between the input (x) and output (y).
  • Log transformation input can be the following:
    • Money, Finance-related
    • Biological reaction
    • Sound

Example from Real-estate example/부동산: 지하실 면적처럼 면적이 크다고 면적에 비례해서 집 값이 올라가는 것이 아니라 큰 값을 약화시키는 것이 더 모델의 성능을 개선시키는 사례도 있습니다. 이러한 사례는 경험과 시행착오로 찾는 것입니다. (데이터의 확률 분포를 보고 가능한 정규 분포 모양을 따르는지 보고 관찰합니다.

About

Practicing on Data Processing

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published