podcast_app

Amazon Transcribe APIを使ってmp3ファイルからWordCloudをCUIだけで作成するコード郡です。

処理の流れは以下。

1. mp3ファイルをS3にアップロードする

処理: 文字起こししたいmp3ファイルをAmazon S3にアップロードする

python upload_file_to_s3.py /path/to/AudioName.mp3

bucket_name に既存のbucket名を指名する

実行すると、S3bucket上にinputしたmp3ファイルがアップロードされる

処理: S3にアップしたmp3ファイルに対してAmazon Transcribeを実行し文字起こしを行う

python transcribe_aws.py AudioName.mp3

スクリプトを実行した階層にtranscribed_fileというフォルダを作り、そこにAudioName.pickle ファイルを作成する。pickleファイルの中身は文字起こしされた日本語。

処理: 文字起こしされた日本語からWordCloudを作成する

python make_wordcloud.py AudioName.pickle

スクリプトを実行した階層にwordcloud_figsというフォルダを作り、そこにAudioName.png ファイルを作成する。wordcloud化する対象単語のパラメータとしてstop_wordsとmin_cntがある

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
notebooks		notebooks
transcribed_file		transcribed_file
wordcloud_figs		wordcloud_figs
.gitignore		.gitignore
README.md		README.md
make_wordcloud.py		make_wordcloud.py
make_wordcloud_by_sudachi.py		make_wordcloud_by_sudachi.py
requirements.txt		requirements.txt
transcribe_aws.py		transcribe_aws.py
upload_file_to_s3.py		upload_file_to_s3.py