트위터API 를 통해서 실시간(streaming) 트윗을 카프카로 저장 및 처리하여 Spark streaming을 통해서 카프카에 있는 스트리밍 데이터를 읽고 정제한 다음 DW에 저장. DW에 있는 테이블을 읽어 SparkML로 트윗 메시지의 내용을 각나라 언어별로 군집화.
- spark에서 stream 데이터 처리가 어떻게 이루어지는지 확인
- Spark, Hadoop, Kafka
- GCP에서 4개의 인스턴스 생성 후 master 1대, worker 3대로 클러스터 구성
- 드라이버 : yarn
- zeppelin에서 모든 작업 진행