df.info()
RangeIndex: 252000 entries, 0 to 251999
Data columns (total 13 columns):
0 Id................ 252000 non-null int64
1 Income 252000 non-null int64
2 Age 252000 non-null int64
3 Experience 252000 non-null int64
4 Married/Single 252000 non-null object
5 House_Ownership 252000 non-null object
6 Car_Ownership 252000 non-null object
7 Profession 252000 non-null object
8 CITY 252000 non-null object
9 STATE 252000 non-null object
10 CURRENT_JOB_YRS 252000 non-null int64
11 CURRENT_HOUSE_YRS 252000 non-null int64
12 Risk_Flag 252000 non-null int64
dtypes: int64(7), object(6)
memory usage: 25.0+ MB
df.rename(columns={'CITY':'City','STATE':'State','CURRENT_JOB_YRS':'Current_Job_Yrs','CURRENT_HOUSE_YRS':'Current_House_Yrs'}, inplace=True)
nums = df.select_dtypes(include='number').drop(columns=['Id', 'Risk_Flag'])
cats = df.select_dtypes(include='object').columns.tolist()
df['State'] = df['State'].replace('Uttar_Pradesh[5]', 'Uttar_Pradesh')
risk0 = df[df['Risk_Flag']==0] risk1 = df[df['Risk_Flag']==1]
df.isna().sum() ................ 0 df.isnull().sum() .............. 0
df.duplicated().sum() ........... 0
tidak dilakukan Feature Transformation, Feature Encoding, Handle Class Imbalance karena akan dilakukan model yang robust terhadap outlier dan melakukan proses scorecard yang umum dipakai dalam dunia Perbankan & Fintech
dalam heatmap dengan target Risk_Flag, fitur Current_House_Yrs & Current_Job_Yrs redundan, namun karena fitur sangat sedikit dan predictive model yang digunakan menggunakan scorecard yang memberikan valuasi berbeda dengan sns.heatmap. Scorecard adalah alat yang digunakan dalam industri keuangan dan kredit untuk menilai risiko kredit seseorang atau entitas.
tidak ada. Fitur City memiliki 317 unique, namun bisa dideksi dengan State
a. Job Duration Categorical b. Experience Categorial c. Income Categorical d. Age Categorical
Categorical diambil dari Q1,Q2 & Q3 dalam menentukan range
- Amarindra Ardinova
- Annisa Millah T
- Kenneth Wahyudi
- Agung Wijaya Putra