Pythonでの音声認識に興味がありますか?
もしあれば、この記事をご覧ください。
音声認識の可能性について、リアルに把握できるようになります。
実際にYouTubeの動画を音声認識します。
文字起こしとも言いますね。
YouTube動画の文字起こしは、仕事としてもあるようです。
音声認識した結果をもとに、その可能性を解説していきます。
それだけでは、面白くないと思います。
そこで、実際にYouTubeの動画を音声認識してもらいます。
専用のツールを開発しました。
本記事の内容
- Pythonによる音声認識の精度
- 文字起こし(音声認識)が成功するパターン
- 文字起こし(音声認識)が失敗するパターン
- YouTube動画の文字起こし(音声認識)ツール
- 「Pythonで文字起こし(音声認識)の実践編【YouTube】」のまとめ
それでは、Pythonによる音声認識の精度についてから説明していきます。
Pythonによる音声認識の精度
Pythonと書いていますが、Pythonは関係ありません。
Pythonよりも音声認識エンジンが、すべてです。
音声認識エンジンの精度によって、Pythonによる音声認識の精度が変わります。
利用するエンジンの精度が高いと、Pythonによる音声認識の精度も高いです。
この辺りに関しては、次の記事で詳細を解説しています。
興味のある方は、是非ともご覧下さい。
本ブログ内では、最もアクセスのある人気記事です。
また、本記事で取り扱う音声認識は、以下の音声認識エンジンを利用しています。
「Google Speech Recognition」
Androidのスマホで動いている音声認識エンジンです。
無料で使えるので、これを利用しています。
よって、有償版を利用すれば、さらに音声認識の精度は上がるはずです。
有償版とは、「Google Cloud Speech API」のことですね。
以下では、「Google Speech Recognition」で音声認識した結果をみていきます。
成功するパターンと失敗するパターンです。
文字起こし(音声認識)が成功するパターン
対象動画
最多366人感染で都庁に衝撃・・・今後の対策どうする(20/07/23)
文字起こし(音声認識)結果
かなり縦長になります。
音声と比較するために都合がいいので、意図的にしています。
4連休初日の 今日 東京都の感染者が過去最多を更新しています ここから なんですけれども 社会部 都庁 担当の鈴木彩香 記者に解説をお願いして 行きます お願いします 初めて 3人を超えたというだけではなく 一気に超えて 306 人となりました ずっと右肩上がりなってきてるのがよく分かるんですがこうなると 都庁内の空気感 と言いますが今どのようにと 腸内では受け止められているんでしょうかと父が登場するという予定はありませんでした しかし今日こういった数字を耳にして 都庁の幹部たちも含めて 急遽 途中に上がってですね 対応に追われていたということなんですただ 7月の中旬頃からですね 200人だということが 連日続いたりです とか あの これからどんどん上がってくるのではないかも いつかいつ 300を超えてもおかしくないということを口にする 幹部は複数いました また 4連休中 というのはいつも 交通事故 増加してくる 週の後半に当たるので4連休中には必ず300を超えると想定していたと話すかんと思いました 東京都が今 重点的に行っているのが とにかく検査をたくさん行うということなんです それは感染源とみられるところをとにかく 抑えてそこから感染が広がらないことを先手先手で防ぎたいという考えがあります その結果ですね あの緊急事態宣言の時に最高だった 2000円 けんから今 2.5倍 ほどに増えて検査が伸びているという状況につながっています 1000件ほど取り そうだねそうですね そうした状況を見ますと 今後 500ですとかその先の600になるということは 十分に考えられていまして との関係者によりますとそういう状況になった時にどういう言葉を発して 都民に警戒を呼びかけるのか どういった 対策を講じるのかという議論がすでに始まっているそういうことです この感染者数の増加というのはもちろん 今の話にもありました 検察の増加 これ一つとの説明として されているところではあるんですがその他こちらですね あの 東京都が毎日発表しているモニタリング項目の中で鈴木さん 東京都として一番 懸念しているポイント どの辺りにあるんでしょうか はい あのモニタリング会議で発表される7つの項目 これを日々私たちも一致しているわけですが 実は私たちの非公開となっている専門家を含めた 会議ではこの 7つ以外に数十個の項目が細かく分かれていて それをもとに 感染状況と医療の提供体制がどれくらい 逼迫してるのかという分析を行っています その中でも一番 重点的に記入して中止しているのが重症者数と入院患者の数ですここですね あのー 京都ではですね はいあの感染者の方は20代ですとか30代なので無症状の人も多いですし 実際に病床数が全て埋まっているというわけではありません しかし あの 今日の小池知事の発言にもありましたように 40台ですとか50代 明日の高齢者の人達 住所 貸す リスクが高い人たちの患者の感染 というのが 徐々に増えてきている傾向にはあります こうすると あの 病床数がどんどんどんどんこう 逼迫していく理由なら上がってきますよね そうですね あの 東京都にある病院ですとかあのベットの数というのはある程度 限られています その中で コロナの感染した人たちを入れる 病床数ですとかを増やしていくとこちらの本来は入院した方がいい もしくは まで来たら手術を受けた方がいいよねっていう人たちにも どんどん しわ寄せがくるわけなんですので コロナにかかった人たちへの対応 だけではなくて全体に影響が与えることも帰られるということを非常に心配しています 現状 医療提供体制 上から2番目の オレンジとなっていますけれども 昨日のモニタリング会議の中では東京は 逼迫していないというのは誤りだという声も 中にはあるということを念頭に置きたいところです鈴木汽車でした
結果の分析
音声とともに聞きましたでしょうか?
ある程度は成功していると思いませんか?
個人的には、無償版のくせに「スゴイ」と感じます。
ある程度のプログラミング知識があれば、この程度の認識が簡単にできるのです。
サーバーの知識も必要ですね。
もちろん、音声認識エンジンもスゴイです。
でも、肝心の成功の要因は、アナウンサーです。
彼らは、やはりプロです。
アナウンサーに対して、初めて敬意を抱いたかもしれません。
生でこれだけ聞き取りやすいのですから。
そのアナウンサーの中でも、上手い下手が明らかになります。
動画の登場人物は以下。
- 男性アナウンサー
- 女性アナウンサー
- 女性記者
女性アナウンサーの滑舌が最高ですね。
次ぎは、男性アナウンサー。
最後は、女性記者。
女性記者は、記者なので仕方ありません。
それでも、一般人よりは滑舌が良いです。
記者であっても、ある程度の訓練はするのでしょう。
文字起こし(音声認識)が失敗するパターン
成功だけを見ても現実は、わかりません。
失敗のケースも見ましょう。
予め伝えておきます。
失敗と言いつつ、この動画でも全然マシなのです。
他に試した動画は、ほぼ認識しないのです。
対象動画
最高峰のアウトドアブランド!タウンユースでも使える最強のコート!【メンズファッション】
文字起こし(音声認識)結果
ブランド古着 ブローチの仲間と申します 今日は皆さん明日は本当に僕の中では守って とやっぱり アクロニウムっていうブランドもこういうの 消化したら出てくると思うんですけどかなり 一緒の何時には一緒ぐらい 好きなブランドになってきますね はい 打ってきました 今はもう 普通のステンカラーコートっぽい 完全にフード付きのなりましたね をスマートに出発しますね 秋冬はこっちであき 春秋ママ 本当にこれだけでやったらダンを中に入れて炊くのが一番ベストなんじゃないかなと思います ほい
結果の分析
このYouTuberの方の動画は、ある意味成功です。
ある程度のテキストを抽出できていますので。
他の動画(このYouTuberではない)は、テキストが抽出ゼロ。
800万人以上の登録者を誇るトップYouTuberなんて、本当に酷かったです。
だから、多くのYouTuberは字幕をつけるのかもしれません。
そのような状況のため、この動画はテキストが抽出できている時点で成功と言っても過言ではありません。
言いたいことを言っていますが、私もかなり酷いでしょうね。
YouTube動画の文字起こし(音声認識)ツール
YouTube動画の文字起こし(音声認識)ツールは以下です。
URLは削除(非公開にしました:理由は、サーバー引っ越しのため)
YouTubeの動画専用です。
使い方は、動画のURLを入力して「テキスト変換」ボタンをクリックするだけ。
最大で10分間しか認識しません。
サーバーの負荷を考えて制限をかけています。
試す場合は、5分前後の動画がおススメです。
あと、ニュースですね。
アナウンサーが単独でニュースを読むのが、ベストです。
あと、政治家の政見放送もそこそこ高い精度で認識できていました。
なお、サーバーの状況次第でツールは非公開にすることがありえます。
「Pythonで文字起こし(音声認識)の実践編【YouTube】」のまとめ
音声認識は、話す人の滑舌次第!!
これに尽きます。
今後、音声認識エンジンの精度がさらに向上していくでしょう。
今よりは、許容範囲は広がると思います。
つまり、滑舌の良くない人も認識されていくでしょう。
しかし、滑舌が悪い人は無理ではないでしょうかね。
滑舌が悪い人を対象にまですると、滑舌が良い人を誤認識してしまうかもしれません。
どこかで線引きは必要となるでしょう。
そういう私自身も、決して滑舌が良い方ではありません。
そして、今回の検証を行う中で、自分自身の滑舌について考えさせられました。
別にYouTuberになろうとは思いません。
でも、音声認識を使いこなすためには、滑舌が良い方が効果的です。
なぜなら、滑舌が良ければ、音声入力でメモや文章もスラスラと書けるのですから。
よって、まずは音声認識を使いこなすために、音声認識の技術を使います。
音声認識を使って、自分の滑舌を改善していくということです。
滑舌が良くなれば、今以上に音声認識の恩恵を受けられるでしょう。