ぷりまると娘と犬と猫と猫との日常

DIYとか仕事とか育児とか動物とか雑多に

YouTube動画の文字起こしを比較してみた話(Google vs Amazon)

どうもこんにちは。内容的に気になる動画があるものの、テキストベースでサクっと読みたい効率厨なぷりまるです。

先日、いま話題のデジタル庁関連で平井大臣をはじめとした方々のお話を聞けるKeynote「GaaS Study #1 ー平井大臣に聞く、デジタル庁が解くべき課題とITエンジニアの役割」があり、YouTubeアーカイブが公開されました。


www.youtube.com

登壇者の松本さん (@y_matsuwitter) 、広木さん(@hiroki_daichi)は仕事している中で会話する機会をいただいたことがありますが、自分と比較すること自体がおこがましいほど桁違いな思考の速さ、深さ、知識範囲、人間力、etc...と、前世でどれだけ徳を積んだらこうなれるんだろうと思っていました。

そこまで言うならアーカイブ動画全編見なさいよ、なんならリアタイ視聴しなさいよ。って話ではあるんですけど、ちゃんと見るんですけど。

テキストベースで聞き漏らしなく見たいな。とふと思って、AWSでなんかそういうサービスあった気がするなーと思ったので、試しに使ってみることにしました。
と、思いきやYouTubeって今は純正で文字起こし機能がついてるんですね。知らなかった。

とは言えやってみることにしたので、GvsAの音声認識の精度比較してみてもいいじゃん。という方向性に変えて試してみた話を書いていきます。

注意事項

  • 本記事内ではセッションの内容自体には言及しません
  • 今回のアーカイブ動画はYouTube規約上、ダウンロードや再利用を了承されたもの(クリエイティブ・コモンズ)ではないため、文字起こしの結果・内容は掲載しません
  • YouTubeから動画,音声ファイルを抽出・ダウンロードはYouTubeの機能として提供されていません。そのため、その方法やツールに関してはここでは触れず推奨することもしません。

我らがGoogle

手順

YouTubeの画面上で以下画像内の"文字起こしを開く"を押すだけ。終わり。

f:id:purimarusan:20210522213027j:plain

押すと動画の横に自動生成された文字起こし結果が表示され、進行に沿ってスクロールしていきます。
結果のエクスポート機能は提供されていませんが、ブラウザ上で範囲選択してコピーしてペーすればファイルとして保存することは可能です。

音声認識の精度の所感

まず、話者の判断まではできないようです。
音声→テキストの認識に関しては、これ単体で完全な文字起こしと言うにはまだ厳しいレベルで部分的には全く違う単語として認識されていることもありました。

とはいえ全体的にそこまでめちゃくちゃかというとそうでもなく、部分的に誤認識した箇所は個別で確認・修正できる程度ではあります。
このあたりはサンプリングがこの1本のみなので一概には言えませんが、話者の滑舌やイントネーション・音声のノイズや雑音等にもよって差が出るかもしれません。

"株式会社レクター取締役一般社団法人日本 cto 協会理事" ここまで正確に出せることは感動しました。未来だ。

いつもお世話になってます、Amazon(AWS)

最初に一言添えておくと、AWSの場合は有償です。(無償枠はあるかもだけど)
AWSアカウントが必要になります。

手順

公式ドキュメントがあるのでそれ見てください。

aws.amazon.com

…というのはあんまりなので、ざっくりですが書きます。

大きく以下の3ステップです。

  1. 文字起こししたい動画もしくは音声をファイル形式で出力・保存する
  2. AWSのストレージサービス(Amazon S3)に対象ファイルをアップロードする
  3. 文字起こし(Amazon Transcribe)のジョブを作成、対象ファイルを指定して実行する

ファイル出力・保存は怪しいサイトも多くあるのでご注意ください。
AWSの中の人のブログではyoutube-dlというツールを使ってるようでした。

2はAWSサービス内で完結するため、バケットポリシーや公開設定は基本的にデフォルトの非公開状態のままで問題ありません。

アウトプットと精度の所感

結果はAWSのマネジメントコンソール上でプレビューできるものの、全てを見る場合はjsonファイルとして出力されたものを確認できます。

全てを詳細に確認したわけではないですが、こちらも一通りはおおよそ発言通りではあるものの
YouTubeと比較すると若干精度が低いように感じました。
どちらか一方で発言と異なるテキストの箇所を比較してみて、全体の1/5程度を見渡してみた限りの感覚的な感想ですが。

ただ、こちらは話者の識別がオプションとして設定できます。(Max10名)

このあたりはどんな感じなの?ってところまではまだ確認できていないので、気が向いたら見てみて気が向いたらまた筆を執ります。

2021年05月時点での精度比較の所感

現時点ではGoogle(YouTube)優勢かな、と思います。機械学習ビッグデータの観点ではAWSよりGCP優位と考えている方もいるようなので、そういった優位性が現れているのかもしれない?と思います。

が、このあたりは日進月歩で日々進歩していくため今後も同じかはわかりません。
そもそも現状では人間が修正しないと正確な情報としては使えないですし、今後の進歩・進化を楽しみに待ちます。

余談

音声認識、と言われてはじめに頭に浮かんだのはNintendo64でやったピカチュウのゲームでした。懐かしい。

www.nintendo.co.jp

これを思い出して公式サイトを初めて見たら、そういう時代だったんだな…。と複雑な気持ちになりました。 ピカチュウげんきでちゅう。それではさようなら。