Tweet_stream_clustering(feat. NewJeans)

트위터API 를 통해서 실시간(streaming) 트윗을 카프카로 저장 및 처리하여 Spark streaming을 통해서 카프카에 있는 스트리밍 데이터를 읽고 정제한 다음 DW에 저장. DW에 있는 테이블을 읽어 SparkML로 트윗 메시지의 내용을 각나라 언어별로 군집화.

💾 Projcet 구조

🔔 Purpose

spark에서 stream 데이터 처리가 어떻게 이루어지는지 확인

💾 Data(api)

StreaminClient

📚 Tech Stacks

Spark, Hadoop, Kafka

환경설정

GCP에서 4개의 인스턴스 생성 후 master 1대, worker 3대로 클러스터 구성
드라이버 : yarn
zeppelin에서 모든 작업 진행

프로젝트에 대한 자세한 내용

블로그

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
tweet_clustering.zpln		tweet_clustering.zpln

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tweet_stream_clustering(feat. NewJeans)

💾 Projcet 구조

🔔 Purpose

💾 Data(api)

📚 Tech Stacks

환경설정

프로젝트에 대한 자세한 내용

About

Releases

Packages

bigtrader91/tweet_stream_clustering

Folders and files

Latest commit

History

Repository files navigation

Tweet_stream_clustering(feat. NewJeans)

💾 Projcet 구조

🔔 Purpose

💾 Data(api)

📚 Tech Stacks

환경설정

프로젝트에 대한 자세한 내용

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages