Skip to content

t-hashiguchi1995/character_serif_parse

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

character_serif_parse

はじめに

ゲームや漫画、アニメのキャラの台詞をコーパスとして台詞の解析結果を出すプログラムです。
分類学習で集めたデータを使って遊びました。

台詞データをMecabの分かち書き機能で 形態素に分けてから単語数などの情報を取得しています。

使用方法

python vocab.py データファイル名
を行うと(単語数÷台詞数)のキャラ名が降順で出力されます。

出力

キャラ名 台詞数
頻出単語10個
稀少単語10個

データファイル

データファイルは
キャラ名 台詞
キャラ名 台詞
...
の形式です。
sampleとして「アイドルマスターシンデレラガールズ」の一部のデータもつけています。
拡張することで別の作品にも対応できます。

実行環境

Python 3.5.1
mecab-python3 (0.7)

Releases

No releases published

Packages

 
 
 

Languages