日本語対応した音声合成モデルOpenVoiceの現状

近年、AIによる音声合成技術は目覚ましい進歩を遂げています。
今回は、学習データが不要のOpenVoiceという技術について説明します。

OpenVoiceとは？

OpenVoiceはMyShellによって開発されたプロジェクトです。
このプロジェクトは、即時音声クローニング技術を提供しています。

この技術は、リファレンス音声のトーンカラーを正確にクローニングし、複数の言語やアクセントでスピーチ生成が可能です。
特に、声のスタイル（感情やアクセントなど）を細かく制御することができ、リズムや一時停止、抑揚といったスタイルパラメーターにも対応しています。

また、「ゼロショット・クロスリンガル・ボイスクローニング」が特徴です。
これは、生成されるスピーチの言語やリファレンススピーチの言語が、広範な話者データセットに含まれている必要がないことを指します。

OpenVoiceのV1とV2は、どちらもMITライセンスの下で提供されており、商用利用が可能です。
V2では、音質が向上し、英語、スペイン語、フランス語、中国語、日本語、韓国語をネイティブサポートしています。

V2から日本語に対応したということでした。
では、その性能はどうなのでしょうか？

上記のデモページで確かめることができます。
正直、微妙です。
いや、使えるレベルではありません。

Bert-VITS2と比べると、結果は一目瞭然です。

ただし、Bert-VITS2は学習するのが簡単とは言えません。
環境構築の面から、苦労します。

学習用の音声データも最低でも30分程度は必要となります。
ある程度の精度を求めるならの話です。

その点、OpenVoiceは1分に満たない音声を用意するだけで済みます。
この音声は、リファレンス音声と呼ぶモノのことです。

まあ、生成される結果がそのリファレンス音声に似る似ないというのはそれほど問題ではありません。
OpenVoiceの問題は、日本語の発音・アクセントが変だということです。

デモ画面で確かめてみれば、わかると思います。
ニュース記事を適当に読ませてみれば、すぐに違和感を覚えるはずです。

まともに日本語を読めません。
読めたとしても、外国人が日本語を話すようなイントネーションになってしまいます。

したがって、OpenVoiceはまだまだ様子見の技術で良いでしょう。