高品質な日本語音声合成を実現するStyle-Bert-VITS2

Bert-VITS2は、スゴイということを以前に紹介しています。

しかし、もう上記の記事は使い物になりません。
リンク切れが多く存在しています。

それにBert-VITS2よりもっと良いモノがあります。
それが、Style-Bert-VITS2です。

日本人によるBert-VITS2の改良ツールになります。
Bert-VITS2自体は、中国人による開発です。

では、Style-Bert-VITS2の利用をオススメする理由を以下で説明します。

Style-Bert-VITS2は日本語に特化している

日本語をBert-VITS2で扱うためのツールと言えます。
詳細は、公式ページをご覧ください。

加えて、誰でも簡単に利用できるように工夫されています。
batファイルを実行するだけで、ツールのインストール諸々が行われます。

おそらく、エンジニア以外のユーザーを想定されているのでしょう。
本当に素晴らしい仕事だと思います。

Bert-VITS2のような技術を開発すること自体は、それはそれでスゴイことです。
しかし、技術なんて普及してこそだと思います。

その意味では、Bert-VITS2の公式ページなんて理解するのが大変です。
インストールはなんとかできても、学習なんて本当に無理ゲーでした。

Bert-VITS2では、学習することが非常に困難でした。
Style-Bert-VITS2では、音声ファイルを用意するだけの簡単な作業になっています。

それもWindowsでも簡単にできるようになっています。
やり方は、公式ページに記載されています。

ただし、GPUは必須と言えます。
つまり、GPU搭載のマシンでないと学習は無理ということです。

あと、「自動前処理」の以下の項目には注意が必要となります。

「データセット作成」で音声ファイルから、書き起こしファイルが何個も作成されます。
例えば、20分程度の音声ファイルなら、書き起こしファイルが160個ほど作成されることになります。

そのうちの何個かで読めないファイルがあることは、普通にあり得るでしょう。
そんな場合に、デフォルトの設定のままなら処理が中断されてしまいます。

それを避けるために、「読めないファイルは使わずに続行」を選択します。
ちなみに、20分程度の音声ファイルでは、162個のうち2個だけ読めませんでした。
この程度なら、無視しても全然OKですよね。

それ以外では、何の支障もなく学習することができます。
学習も20分ほどの音声ファイルなら、1時間ちょっとで終わります。

ただし、これはGPUメモリの容量に依存します。

Style-Bert-VITS2では、デフォルトで以下のモデルが利用可能となっています。

これらを利用するだけでも、Style-Bert-VITS2の音声合成の高い精度を確認できるでしょう。
日本語のイントネーションは、本当によくできていると感じます。

OpenVoiceで幻滅した後なので、余計にそのように感じるのかもしれません。

OpenVoiceは、今後の進化に期待するとしましょう。

ただ、いくら上手く日本語を発音できたとしても驚くようなモノではありません。
では、次の音声を聞いてみてください。

日本語に特化したBert-VITS2

もちろん、この音声はStyle-Bert-VITS2で学習したモデルを用いています。
20分程度の音声を学習データに利用しただけです。

それでいて、このレベルの音声を生成できます。

モデル生成後に、初めて検証した際、似過ぎていて思わず笑ってしまいました。
同時に、ヤバいレベルにまで達しているとも感じました。

ちなみに、声自体に著作権はありません。
ただし、その声を商業的利用することは不法行為になる可能性があります。
要は、他人の声で悪いことはするなということです。