Skip to content

podcast音源(mp3)→文字起こし→wordcloud化 する一連のコード

Notifications You must be signed in to change notification settings

ysdyt/podcast_app

Repository files navigation

podcast_app

Amazon Transcribe APIを使ってmp3ファイルからWordCloudをCUIだけで作成するコード郡です。

処理の流れは以下。

  1. mp3ファイルをS3にアップロードする
  2. S3のファイルを指定してAmazon Transcribeで文字起こしする
  3. 文字起こし結果からWordCloudのpngを生成する

1. mp3ファイルをS3にアップロードする

処理: 文字起こししたいmp3ファイルをAmazon S3にアップロードする

python upload_file_to_s3.py /path/to/AudioName.mp3
  • Input file(引数にとるファイル): ローカルにあるAudioName.mp3のパス

bucket_name に既存のbucket名を指名する

実行すると、S3bucket上にinputしたmp3ファイルがアップロードされる

2. S3のファイルを指定してAmazon Transcribeで文字起こしする

処理: S3にアップしたmp3ファイルに対してAmazon Transcribeを実行し文字起こしを行う

python transcribe_aws.py AudioName.mp3
  • Input file(引数にとるファイル): AudioName.mp3(S3上にアップロードされたファイル名)

  • output file: AudioName.pickle

スクリプトを実行した階層にtranscribed_fileというフォルダを作り、そこにAudioName.pickle ファイルを作成する。pickleファイルの中身は文字起こしされた日本語。

3. 文字起こし結果からWordCloudのpngを生成する

処理: 文字起こしされた日本語からWordCloudを作成する

python make_wordcloud.py AudioName.pickle
  • Input file(引数にとるファイル): AudioName.pickle

  • output file: AuioName.png

スクリプトを実行した階層にwordcloud_figsというフォルダを作り、そこにAudioName.png ファイルを作成する。wordcloud化する対象単語のパラメータとしてstop_wordsmin_cntがある

About

podcast音源(mp3)→文字起こし→wordcloud化 する一連のコード

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published