- 본 Repository는 빅데이터 분석기사 실기를 공부하면서 개인적으로 정리한 내용입니다.
- 아래 설명된 내용은 깃허브 내 코드로 더 자세히 보실 수 있습니다!
- 5회차까지 출제됐던 단답형 유형에서 통계 검정으로 유형이 바뀐 첫 회차였습니다.
- 원래 ADP를 공부하고 있어서 통계 검정은 큰 무리없었지만, 문제의 가독성 및 공지된 패키지 외 출제로 논란이 적지않은.. 회차였습니다. ㅠㅠ
- 우연히 시험 문제들을 적중해서 좋은 점수를 받을 수 있었습니다.
- 작업형 1유형을 공부할 때 datetime, str 관련 함수들을 중심으로 공부했습니다.
- 작업형 3유형은 카이제곱검정에서 적합성 검정과 독립성 검정의 차이를 이해하고 예시 문제들을 풀었던 게 큰 도움이 됐습니다.
- 특히 데이터 마님 홈페이지가 큰 도움이 됐습니다!
캐글 빅분기 페이지와 데이터 마님 사이트에 복기된 기출문제들을 주로 다루고, 공부가 더 필요한 부분은 개인적으로 정리했습니다.
- 작업형1의 경우 쉬운듯 하지만, 회차가 거듭할수록 은근 까다로운 유형이 출제되고 있습니다.
- 특히 신경써서 공부했던 부분은 datetime, str, groupby, sort_values 관련 함수였습니다. 전처리 함수에 등장하는 문제들은 캐글과 데이터마님 홈페이지를 참고했으며, 필요 시 파이썬 내장 데이터로 문제를 직접 만들었습니다.
- 작업형2는 분류 및 회귀 예측 모델을 구현하는 유형으로 '전체적인 흐름'을 이해하는 것이 중요합니다.
- 데이터 로드 및 전처리, 모델링, 하이퍼 파라미터 튜닝 등 각 단계가 의미하는 바를 알아야하고 데이터를 알맞게 적용시켜야 합니다.
- 문제 유형이 거의 유사하기 때문에 나만의 Baseline 코드를 만들어서 연습했고, 이를 토대로 빅분기 캐글 경진대회에 코드를 제출해서 점수를 확인하면서 성능을 올렸습니다.
- Baseline을 정리하고 캐글에 제출한 경험 덕에 실제로 시험장에서 30분만에 작업형2를 다 풀었습니다. 👍
- 저는 크게 0~5단계로 나눠서 진행했습니다.
- 모델링의 경우 랜덤포레스트와 lgbm을 준비해갔고, 평가지표에 따라 비교한 후 최종 모델을 선택했습니다.
- 6회 실기 시험장에서 하이퍼 파라미터는 튜닝하지 않았습니다. (튜닝하지 않아도 val data가 0.97정도로 높게 나왔었습니다.)
0. 데이터 로드 1. 데이터 EDA 2. 전처리 (결측치 처리, 불필요 칼럼 정리, 스케일링 및 인코딩 등) 3. 검증 데이터 분리 4. 모델링 5. 제출 : df, csv
- 데이터마님, 캐글, 데이터 에듀(책 구매할 경우에만 열람 가능) 예상문제를 모두 풀어보았습니다.
- 6회차 실기에는 statsmodel이 지원되지 않아서 (논란의 문제가 있었지만 ^^;) scipy에 있는 라이브러리를 집중해서 공부했습니다.