Skip to content

winniepopu/Dcard-NCKU-Analysis

Repository files navigation

Dcard-NCKU-Analysis

Dcard成大板之使用者特性及文章分析

Dcard簡介

Dcard目前為全台最大的大學生匿名社群交流平台,每個人可隱匿姓名甚至可以隱匿系級、學校,在此平台上自由發言,因此有極大的言論自由,由此平台之文章可真切了解到在線學生們的真實感受。卡友每天都能抽一張卡,透過對方的自我介紹決定是否加入對方好友,若兩方皆同意,便能互相成為卡友,互相聊天。 Dcard中除了有各種喜好看板,也有校園看板,讓同校的學生能夠互相分享有關於校園的人事物。

為何選擇分析這些資料?

由於個人也算是常在Dcard板上遊蕩的卡友,平時較喜歡看熱門看板的貼文,但也總是會點進成大的看板,看最近有沒有發生什麼事。然而,常常看到「成大116廢文板」等類似貼文或留言回覆。便不禁讓我好奇,Dcard成大板的使用者有哪些特性、最常使用那些字詞、還有最令成大學生們的文章有哪些、發文頻率等等。 分析完使用者特性後,我們便可得知發文者大都來自何系,以及知道大部分的文章類型,若有任何需要透過校園傳遞之消息,便可得知此板的最大客群為哪些類型,透過Dcard傳遞重要訊息,建立有效溝通之平台。

爬蟲程式

原本是要直接使用Dcard的API去作爬蟲,但發現他爬一次只能爬30筆文章資料,要作分析的化資料量相當不足。後來在網路上查到了這支「Dcard-spider」爬蟲程式。他透過使用者輸入資料數,將此數除以30,計算需爬的page數,再把資料都爬下來。除了爬文章,他也可以下載圖片、文章,並可以針對特定資料作爬蟲,因此速度相當快。

Usage:

  • python article_by_month.py
  • python content.py
  • python department.py
  • python gender.py
  • python tag.py
  • python worldcloud.py

requirements:

  • setuptools==39.1.0
  • numpy==1.14.3
  • wordcloud==1.4.1
  • requests==2.18.4
  • jieba==0.39
  • pandas==0.23.0
  • matplotlib==2.2.2
  • six==1.11.0
  • scipy==1.1.0
  • pytest==3.5.1

About

Dcard成大板之使用者特性及文章分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages