Pythonで文字起こし（音声認識）の実践編【YouTube】

Pythonでの音声認識に興味がありますか？
もしあれば、この記事をご覧ください。
音声認識の可能性について、リアルに把握できるようになります。

実際にYouTubeの動画を音声認識します。
文字起こしとも言いますね。
YouTube動画の文字起こしは、仕事としてもあるようです。

音声認識した結果をもとに、その可能性を解説していきます。
それだけでは、面白くないと思います。

そこで、実際にYouTubeの動画を音声認識してもらいます。
専用のツールを開発しました。

本記事の内容

Pythonによる音声認識の精度
文字起こし（音声認識）が成功するパターン
文字起こし（音声認識）が失敗するパターン
YouTube動画の文字起こし（音声認識）ツール
「Pythonで文字起こし（音声認識）の実践編【YouTube】」のまとめ

それでは、Pythonによる音声認識の精度についてから説明していきます。

Pythonによる音声認識の精度

Pythonと書いていますが、Pythonは関係ありません。
Pythonよりも音声認識エンジンが、すべてです。

音声認識エンジンの精度によって、Pythonによる音声認識の精度が変わります。
利用するエンジンの精度が高いと、Pythonによる音声認識の精度も高いです。

この辺りに関しては、次の記事で詳細を解説しています。
興味のある方は、是非ともご覧下さい。
本ブログ内では、最もアクセスのある人気記事です。

また、本記事で取り扱う音声認識は、以下の音声認識エンジンを利用しています。
「Google Speech Recognition」

Androidのスマホで動いている音声認識エンジンです。
無料で使えるので、これを利用しています。

よって、有償版を利用すれば、さらに音声認識の精度は上がるはずです。
有償版とは、「Google Cloud Speech API」のことですね。

以下では、「Google Speech Recognition」で音声認識した結果をみていきます。
成功するパターンと失敗するパターンです。

文字起こし（音声認識）が成功するパターン

対象動画

最多366人感染で都庁に衝撃・・・今後の対策どうする(20/07/23)

文字起こし（音声認識）結果

かなり縦長になります。
音声と比較するために都合がいいので、意図的にしています。

4連休初日の
今日
東京都の感染者が過去最多を更新しています
ここから
なんですけれども
社会部
都庁
担当の鈴木彩香
記者に解説をお願いして
行きます
お願いします
初めて
3人を超えたというだけではなく
一気に超えて
306
人となりました
ずっと右肩上がりなってきてるのがよく分かるんですがこうなると
都庁内の空気感
と言いますが今どのようにと
腸内では受け止められているんでしょうかと父が登場するという予定はありませんでした
しかし今日こういった数字を耳にして
都庁の幹部たちも含めて
急遽
途中に上がってですね
対応に追われていたということなんですただ
7月の中旬頃からですね
200人だということが
連日続いたりです
とか
あの
これからどんどん上がってくるのではないかも
いつかいつ
300を超えてもおかしくないということを口にする
幹部は複数いました
また
4連休中
というのはいつも
交通事故
増加してくる
週の後半に当たるので4連休中には必ず300を超えると想定していたと話すかんと思いました
東京都が今
重点的に行っているのが
とにかく検査をたくさん行うということなんです
それは感染源とみられるところをとにかく
抑えてそこから感染が広がらないことを先手先手で防ぎたいという考えがあります
その結果ですね
あの緊急事態宣言の時に最高だった
2000円
けんから今
2.5倍
ほどに増えて検査が伸びているという状況につながっています
1000件ほど取り
そうだねそうですね
そうした状況を見ますと
今後
500ですとかその先の600になるということは
十分に考えられていまして
との関係者によりますとそういう状況になった時にどういう言葉を発して
都民に警戒を呼びかけるのか
どういった
対策を講じるのかという議論がすでに始まっているそういうことです
この感染者数の増加というのはもちろん
今の話にもありました
検察の増加
これ一つとの説明として
されているところではあるんですがその他こちらですね
あの
東京都が毎日発表しているモニタリング項目の中で鈴木さん
東京都として一番
懸念しているポイント
どの辺りにあるんでしょうか
はい
あのモニタリング会議で発表される7つの項目
これを日々私たちも一致しているわけですが
実は私たちの非公開となっている専門家を含めた
会議ではこの
7つ以外に数十個の項目が細かく分かれていて
それをもとに
感染状況と医療の提供体制がどれくらい
逼迫してるのかという分析を行っています
その中でも一番
重点的に記入して中止しているのが重症者数と入院患者の数ですここですね
あのー
京都ではですね
はいあの感染者の方は20代ですとか30代なので無症状の人も多いですし
実際に病床数が全て埋まっているというわけではありません
しかし
あの
今日の小池知事の発言にもありましたように
40台ですとか50代
明日の高齢者の人達
住所
貸す
リスクが高い人たちの患者の感染
というのが
徐々に増えてきている傾向にはあります
こうすると
あの
病床数がどんどんどんどんこう
逼迫していく理由なら上がってきますよね
そうですね
あの
東京都にある病院ですとかあのベットの数というのはある程度
限られています
その中で
コロナの感染した人たちを入れる
病床数ですとかを増やしていくとこちらの本来は入院した方がいい
もしくは
まで来たら手術を受けた方がいいよねっていう人たちにも
どんどん
しわ寄せがくるわけなんですので
コロナにかかった人たちへの対応
だけではなくて全体に影響が与えることも帰られるということを非常に心配しています
現状
医療提供体制
上から2番目の
オレンジとなっていますけれども
昨日のモニタリング会議の中では東京は
逼迫していないというのは誤りだという声も
中にはあるということを念頭に置きたいところです鈴木汽車でした

結果の分析

音声とともに聞きましたでしょうか？
ある程度は成功していると思いませんか？

個人的には、無償版のくせに「スゴイ」と感じます。
ある程度のプログラミング知識があれば、この程度の認識が簡単にできるのです。
サーバーの知識も必要ですね。

もちろん、音声認識エンジンもスゴイです。
でも、肝心の成功の要因は、アナウンサーです。
彼らは、やはりプロです。

アナウンサーに対して、初めて敬意を抱いたかもしれません。
生でこれだけ聞き取りやすいのですから。

そのアナウンサーの中でも、上手い下手が明らかになります。
動画の登場人物は以下。

男性アナウンサー
女性アナウンサー
女性記者

女性アナウンサーの滑舌が最高ですね。
次ぎは、男性アナウンサー。
最後は、女性記者。

女性記者は、記者なので仕方ありません。
それでも、一般人よりは滑舌が良いです。
記者であっても、ある程度の訓練はするのでしょう。

文字起こし（音声認識）が失敗するパターン

成功だけを見ても現実は、わかりません。
失敗のケースも見ましょう。

予め伝えておきます。
失敗と言いつつ、この動画でも全然マシなのです。
他に試した動画は、ほぼ認識しないのです。

対象動画

最高峰のアウトドアブランド！タウンユースでも使える最強のコート！【メンズファッション】

文字起こし（音声認識）結果

ブランド古着
ブローチの仲間と申します
今日は皆さん明日は本当に僕の中では守って
とやっぱり
アクロニウムっていうブランドもこういうの
消化したら出てくると思うんですけどかなり
一緒の何時には一緒ぐらい
好きなブランドになってきますね
はい
打ってきました
今はもう
普通のステンカラーコートっぽい
完全にフード付きのなりましたね
をスマートに出発しますね
秋冬はこっちであき
春秋ママ
本当にこれだけでやったらダンを中に入れて炊くのが一番ベストなんじゃないかなと思います
ほい