やじうまの杜
完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた
「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?
2023年4月26日 12:30
AI技術の進歩は留まることを知りません。画像生成AIの「Midjourney」が旋風を巻き起こしたと思ったら、自然なテキストを生成する「ChatGPT」も登場しましたし、ほかにも書き切れないほど、AI技術を活かしたさまざまなソフトウェアが2022年から2023年に生まれました。
今回取り上げる「RVC(Retrieval-based-Voice-Conversion)」もAIを使ったソフトウェアの1つです。これはなんと自分の声をリアルタイムに変換して別人の声を出力できるのです。
筆者も普段からボイスチェンジャーを使っている1人です。ボイスチェンジャーにはハードウェア側で実装するものや、ソフトウェア側で実装するものがありますし、ソフトウェア自体も単体で動作するものから、DAWソフトを経由するものまで多岐に渡ります。
ただ、どのボイスチェンジャーを使っても共通する悩みがあります。それはどこまでいっても“自分の声がベースになる”ことです。これまでに私たちが利用できたボイスチェンジャーの多くは、あくまでも地声にエフェクトをかけるというもので、自分の好きな声質、自分の好きな人物の声になることはできませんでした(それでも十二分に凄いのですが……)。
そのため、キレイな声を出力するには、ボイスチェンジャーが上手く変換できるような声を工夫して出す必要がありました。それでもあくまで地声がベースだったので、いわゆる“ボイチェン適性”という言葉がある通り、どうしても向き不向きが存在しました。
ですが「RVC」は違います。学習させたその人の声になることができるのです。そう、理論上は“誰の声にでもなれる”のです。それは同性の声でも異性の声でも関係ありません。さらにボイチェン適性も関係なく、地声で“その人の声”の発声ができます。
そこで早速「RVC」を体験してみました。「RVC」を利用するためには学習モデルが必要です。もちろん自分で作成してもよいのですが、「BOOTH」などではすでに学習済みのデータがいくつか頒布されています。今回はこちらのデータを利用させていただくことにしました。
なお、今回「RVC」のインストール方法については、有志のブログ記事を参考にさせていただき導入してみました。
(導入には、「RVC」の中国語表記を読み解いたり、2つのアプリを組み合わせたりと、いろいろ調整が必要なので「簡単にセットアップできます」とは言いにくいのですが、そちらで解説されている詳しい手順を参考に挑戦してみてください!)
諸事情により地声が出せないのですが、まずは私が普段使用しているボイスチェンジャーの声を聞いてみてください。ちなみに、この声はボイスチェンジャー用に地声をかなり調整して発声しています。私はもう慣れましたが、普段の地声の発声とは違うため、はじめのうちは長時間しゃべるのが少し大変でした。
それでは「RVC」を使ってみましょう。
最初に使用する学習モデルは「天之つき」さんがBOOTHで提供している「天之つき学習モデル」を使用させていただきました。こちらはボイスチェンジャー用の声ではなく、普段の会話のときの完全な地声でしゃべってみました。その声がこちらになります、完全に私の声ではなく「天之つき」さんの声になっているのがわかるでしょうか。
続いて、同じく「NORA」さんがBOOTHで配布している「RVC学習モデル✟NORA✟」を使用させていただきました。こちらも完全に地声でしゃべっています。先ほどとは全く異なり、音程が高めの「NORA」さんの声になっていることがわかると思います。
もちろんオリジナルの声を学習させて、その人の声を出すことも可能です。今後もボイスモデルの頒布は増えていくでしょう。声を作るのではなく、誰かの声そのものになりきれる、まさに“声をコスプレする”時代がすぐそこまで来ています。
ところで、「RVC」で気になった点は遅延です。筆者の環境では、標準設定で大体0.2秒くらいの遅延がありました。現状、遅延はどのボイスチェンジャーでも起こりうることで、「RVC」が極端に遅延しているわけではないですし、ユーザーのチューニング次第で若干短くすることはできそうです。
ただ遅延が「0」にはならないので、ボイスチェンジャーを通したあとの声を自分で聞きながらしゃべるのは少し大変かなという印象です。そこは慣れれば問題なくしゃべれるでしょう。いっそのこと「自分の声を聞かない」というやり方で解決するのもアリです。
これからはネット上を誰もが自分の好きな声で振る舞える時代が来るのかもしれません。普段からボイスチェンジャーを使用している身としては、現実世界でコミュニケーションを取るときも、なんらかのボイスチェンジャーが使えれば最高なのですが。果たしてそんな未来はいつ来てくれるのでしょうか……。