ゲームや漫画、アニメのキャラの台詞をコーパスとして台詞の解析結果を出すプログラムです。
分類学習で集めたデータを使って遊びました。
台詞データをMecabの分かち書き機能で 形態素に分けてから単語数などの情報を取得しています。
python vocab.py データファイル名
を行うと(単語数÷台詞数)のキャラ名が降順で出力されます。
キャラ名 台詞数
頻出単語10個
稀少単語10個
データファイルは
キャラ名 台詞
キャラ名 台詞
...
の形式です。
sampleとして「アイドルマスターシンデレラガールズ」の一部のデータもつけています。
拡張することで別の作品にも対応できます。
Python 3.5.1
mecab-python3 (0.7)