Kotoba-Whisper: 日本語音声認識の新たな可能性

近年、音声認識技術は著しい進歩を遂げています。
特に「Whisper」は、多言語対応と高い認識精度で注目を集めています。

そんな中、Whisperを日本語に特化させた「Kotoba-Whisper」が登場しました。
本記事では、Kotoba-Whisperについて解説しています。

本記事の内容

それでは、上記に沿って解説していきます。

Kotoba-Whisperとは？

Kotoba-Whisperは、「Whisper」という音声認識システムをベースにしています。
Whisperは、OpenAIにより開発されたオープンソースの音声認識システムです。

Whisperは、多言語の音声認識で優れた性能を示しています。
Kotoba-Whisperはそれを日本語に特化させたバージョンだと言えます。

Whisper（large-v3）の技術を活用しつつ、大量の日本語音声データで学習されています。
そのことにより、日本語の認識精度をさらに高めることに成功しているということです。

また、Whisperよりも高速に動作するように設計されています。
large-v3の6.3倍の速度と言われています。

つまり、Kotoba-Whisperは、日本語に特化した高速なWhisperということです。

基本的には、PyTorchとTransformersがあれば動くようです。
CPUだけでも動くようですが、GPU版のPyTorchのインストールをオススメします。

ただ、Transformersはバージョン4.39以降がサポートされているということです。
要は、最新版を入れておけば問題ないと言えます。

Kotoba-Whisperでは、GUIのデモ画面が公式から公開されています。

今回は、これをそのままインストールしましょう。

3つ機能があります。
「Microphone」が、Kotoba-Whisperの性能をもっとも感じることができると思います。
ほぼリアルタイムに日本語で音声認識されますからね。

では、インストールしていきます。
まずは、リポジトリをダウンロードします。

git clone https://huggingface.co/spaces/kotoba-tech/kotoba-whisper-demo
cd kotoba-whisper-demo

ダウンロードできたら、移動します。
リポジトリルートに次のファイルがあることを確認できます。

requirements.txt

git+https://github.com/huggingface/transformers
torch 
yt-dlp

これを次のように修正します。

git+https://github.com/huggingface/transformers
#torch  
yt-dlp
gradio==3.50

PyTorchは、事前にインストールしておきましょう。
そして、Gradioはバージョンを指定します。

新しいGradioだと起動に失敗しますので。

次のコマンドでデモ画面を起動させましょう。

python app.py

初回起動時（もしくはモデル更新時）には、モデルのダウンロードが行われます。
ダウンロードが完了して、次のように表示されたら起動成功です。

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.

まずは、Microphoneを試してみてください。
マイクで話したことが、ほぼリアルタイムでテキストになります。

滑舌が悪くなければ、ほぼ正しく認識してくれるはずです。
この速度と正確性には、Kotoba-Whisperを利用する意味があると感じます。

なお、「YouTube」だけは上手く機能しません。

そもそも、UI的に正しく表示されていないのです。
正直、そんなにこの機能には興味がありません。

個人的には、同じ機能を持つツールをすでに開発しています。

上記で用いたコードをベースにGUIベースのアプリを開発済なのです。
そして、コードはChatGPTに出力させています。