Skip to content

실시간 트윗내용을 warehouse에 저장하고 군집화

Notifications You must be signed in to change notification settings

bigtrader91/tweet_stream_clustering

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

Tweet_stream_clustering(feat. NewJeans)

트위터API 를 통해서 실시간(streaming) 트윗을 카프카로 저장 및 처리하여 Spark streaming을 통해서 카프카에 있는 스트리밍 데이터를 읽고 정제한 다음 DW에 저장. DW에 있는 테이블을 읽어 SparkML로 트윗 메시지의 내용을 각나라 언어별로 군집화.

💾 Projcet 구조

image

🔔 Purpose

  • spark에서 stream 데이터 처리가 어떻게 이루어지는지 확인

💾 Data(api)

📚 Tech Stacks

  • Spark, Hadoop, Kafka

환경설정

  • GCP에서 4개의 인스턴스 생성 후 master 1대, worker 3대로 클러스터 구성
  • 드라이버 : yarn
  • zeppelin에서 모든 작업 진행

프로젝트에 대한 자세한 내용

About

실시간 트윗내용을 warehouse에 저장하고 군집화

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published