PR
スポンサーリンク
スポンサーリンク

《雑記》 RVC WebUIを使って遊んでみた

Stabale Diffution
スポンサーリンク

皆さま、こんばんは。
このような辺境まで、お越し頂き、ありがとうございます。

Twitterやネットでの情報を追っている皆様は既にご存じかと思いますが、日々、AIの進歩が止まりません。

こちらのブログでも「Stable Diffusion」系を使って、色々と試してみた記事を書いております。

既に情報としては古く、あまりお役に立つものは無いと思いますが、それでもまだこの記事を見に来て下さる方も多くて、需要はかなり高い事がその事実からも伺い知れますね。

画像生成系について、現在はあまり触ってないので情報を時々追う程度の事しかしておりませんが、それでも日々、進歩が止まらないこの分野はまだまだ広がっていくことを確信しております。

で、そんな折に、とある技術が凄いという話を目にしまして、ちょっと試してみることにしました。
それが、表題にありますRVCというものです。

そんな感じで今回も語りながらも相変わらずのポンコツな私が使用できるようになるまで苦労したことや、思うところについて書き残しておきたいと思います。

【注意】

今回は、ボイスチェンジのお話になります。
ご自分の声や権利関係がクリアな媒体を元に使うのなら良いのですが、その他の媒体で、特に声優さん・役者さん(含むVtuber)・歌手さんの声を使う場合は、許可が必須となります。
著作権や声優・歌手様への配慮等、様々な問題に絡みますので、くれぐれもこの技術の使用には細心の注意をもって対峙して下さい。

後で述べますが、RVCに関しては、とてもありがたいことにクリーンなモデルを提供して下さっている方がいらっしゃいます。
もし技術を使用される方は、そちらでお願いします。

また、この記事は主にプログラム関係に馴染みのない方に向けて作成しております。

私はあまり知識が深くないので、今回も凄ーくどうでもいい事で苦労していますので、既にその手の方面に知識のある方には理解できない部分で躓いているためイラっと来る人もいらっしゃると思います。

知識の深い方には、素人が右往左往する姿を楽しむ位しかできない記事かと思いますので、そのつもりでお進みください。

また、最近のAI技術の進歩が速すぎて、サクッとこの記事の内容が古くなる可能性が高いです。
その点を念頭に置いた上で、お楽しみくださいませ。

RVC WebUIで女の子の声になってみよう!

nnそもそもRVCって何よ? っていう話になると思うのですが、これはRVC(Retrieval-based-Voice-Conversionの略)でして、要はAIを使ってボイスチェンジする技術の事です。

今はリアルタイムでボイスチェンジすることが可能なレベルになっておりますが、今回の記事ではそこは扱いません。
また、こちらの技術の発祥が中国という事で、ここは個人的には注意が必要な点であると感じております。
オリジナルやその他、派生系を少し触れましたが、素人目ですが挙動に怪しいものがありました。

なので、こちらの技術に関しては、特にセキュリティや倫理系のお話も含めて、ご利用は自己責任でお願い致します。

今回、私は「だだっこぱんだ」さんの、RVC WebUIを使ってみました。

こちらの導入方法や使用方法は、以下のサイトが非常に参考になりましたので、ご紹介しておきます。

詳しい使い方については、以上のサイトを参考にすればよいと思いますので、今回はご紹介に止めておきます。

また現在は、もう少し楽に導入できる体制が整っております。


こちらの方法ですと、もうちょっと導入が簡単になりますので、ご興味のある方はどうぞ。

以前、この方の動画を見て今回の着想を得ることができました。
またUnity系の情報を中心に勉強させて頂いてます。
こんなところで書いても届かないでしょうが、いつもありがとうございます!

他にも面白い動画がありますので、ご興味があれば是非ご覧くださいね。

ちなみに今回は、以下のコーパスを使わせていただきました。

つくよみちゃんコーパス

とても幅広く権利を認めてくれているプロジェクトです。
私は、このRVCに手を出すまで知らなかったのですが、ありがたく使わせていただきました。

ちなみに、記事の性質上、トレーニングにも使わせていただきましたが、実はこのつくよみちゃんは、RVCモデル自体を配布してくれています。
ぶっちゃけ、つくよみちゃんになるなら、こちらを使った方が早いですね!

利用規約をよく読んで、ご迷惑にならない範囲で使わせていただきます!

また、利用の際は以下のクレジットを作品に乗せて下さいね。

※以下公式からの引用です

音声合成(「声質の学習」「RVCによる声質変換」など、より具体的に説明しても可)には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。

■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/

東北イタコ、ずんだもん、四国めたん、九州そら、中国うさぎ ITコーパス

最近、勢いが増している東北ずん子シリーズ?の中から、多くのコーパスが出ております。
こちらもトレーニングに使う事で、モデルが作成できます。
今回は使いませんでしたが、利用規約をよく読んで、いずれありがたく使わせていただきます。

利用の際は、以下のクレジットが必須となりますので、お忘れの無いように!

※以下公式からの引用です

第2条(クレジットの表示)

甲は、本件データを利用したドキュメントなどを公開する際には、本件データについて乙の指定するクレジットである『©SSS』を表示するものとします。

皆さんも是非、内に秘めた魂を爆発させる道具の一つとして、活用して見て下さい。

私が苦戦したところをご紹介

まぁ、凄く記事が丁寧に解説してくれていても、所詮は素人に毛が生えた程度の私です。
今回も無事に、トレーニングが終わり、使用できるようになるまで紆余曲折がありました。

恐らく、私のように、どうでもいい所で躓く人は少ないと思いますが、忘備録としてご紹介しておきますね。

① 何故かpipエラーが出てインストールが進まない

これは、完全に私が見落としていたからなんですが、現象だけ見るとPython側の問題に見えるので、気づくのが遅れました。
以下のようなエラーが出てインストールが止まります。

  note: This error originates from a subprocess, and is likely not a problem with pip.

ERROR: Failed building wheel for fairseq

ERROR: Could not build wheels for fairseq, which is required to install pyproject.toml-based projects



[notice] A new release of pip available: 22.3.1 -> 23.2.1

[notice] To update, run: C:\RVC\rvc-webui\venv\Scripts\python.exe -m pip install --upgrade pip

これは、単純に「Microsoft C++ Build Tools」が無いことで起きていました。
っていうか、公式にめっちゃ普通に書いてあるのですが、完全に見落としてました(アホ

こちらからインストーラーをダウンロードし、「C++によるデスクトップ開発」を選んでインストールしましょう。
2023y09m13d_154306614
環境によるでしょうが割と時間がかかりますので、気長に待ちます。

もし上のエラーが出てお困りの方は、ツールキットをインストール後、再度「webui-user.bat」を開いて再度、RVC WebUIの環境構築を再開してみて下さい。

② トレーニングで「Pitch extraction algorithm」を「harvest」にし忘れる

2023y09m13d_162012020
これは地味に沼った箇所で、Pitch extraction algorithmはデフォルトでcrepeになってます。
これだけなら、実は動くことは動くんです。

ですが私の環境では、トレーニングをこのままやると、フリーズします。
途中までは進んで、調子が良さそうに見えるから余計に質が悪いんですよ。

ちょっと触った感じですと、トレーニング環境の構築でやたらとバーがたくさん出てくるポイントで止まります

これは実際に最後までトレーニングを完遂できて初めて分かるんですけど、その後に本処理に入るので、実はそこまでたどり着けてないんですよね。

もし同じような現象に陥っている方は、「Pitch extraction algorithm」を「harvest」にしてトレーニングしてみて下さいな。

以上、簡単ですが私が詰まったところをご紹介しました。

そうだ! 「歌ってみた」をしてみよう!

最初は単純に試して、おっさんの汚い声が可愛いつくよみちゃんの声になって

わーい、楽しー!!(あふん

で終わるつもりだったのですが、思いのほか綺麗に変換できるのでちょっと欲が出てきました。

実は、私には昔からやりたかったことがあります。
それは「歌ってみた」をしてみることです。

過去そう思って密かに撮ってみたことがあるんですよ。
ですけど、これがまた私の動画を見て下さったことのある方はお分かりかと思うんですけど、私って割と声が低くて音階が今の歌に合わないんですよね。

うわ……私の声、微妙すぎ……(ドン引き

歌えないことは無いんですけど、歌い方が昭和なこともあって、こう野太いというか、色気が無いというか。
ぶっちゃけ、私は合唱とか演歌向けの声質なんですよね。

よし、ならばボカロに歌わせよう!と思った時期もあったんですけど……

私、マジで音符が読めないんですよ(致命的)

昔、数年もの間、管弦楽団のサークルに籍を置いた事があったのですが、いくら頑張っても最後まで楽譜を読めるようにはなりませんでした。
その時取った最終手段が、音を覚えて再現するという方法だったくらいです。

自分で演奏して覚えている音に合わせていくという手法でした。邪道も良いところです。
でも、こっちの方が何故か楽だったんですよね。

多分、私の才能?的に、そういう方向に向いていたんだと思います。
皆さんは何であれが読めるのか、私は未だに理解できません。
私の脳みそは言語系を処理するのが本当に苦手らしくて、英語も苦労の割に全く身につきませんでしたし。

なので、これはダメだ。やるなら他の方法でやろう、と、諦めていたんですよ。

そんな私と同じように、歌は歌えるけど、楽譜を読む、書くのは全くできないという方も、数多くいらっしゃると思うのです。

なので、このRVCを使えば、自分で歌ったものを他の子の声に変える事が出来ると考えました。
ボカロ系は、基本的に音符が読めないと話にならない仕様ですが、この方法ならいける!

と言う訳で、まずは実験です。

おっさんの歌をつくよみちゃんの歌に変換してみた

多分ですが、喋っている声を変換するのはよくあると思うのですが、歌を変換するって巷であまり見ないんですよね。
それもそのはずで、やってみたらわかるんですけど、割とセッティングや最適な歌い方を模索するのが難しいんですよ。

とは言え、私の場合は幸運な事に何度か試行錯誤すれば、この位の感じで行けそうだなーと言う感覚がつかめました。
この辺りは、プログラムに慣れ親しんでいることが功を奏したようですね。

今回はお試しなのと、歌いやすい曲という事で童謡の中から、以下の物をテストしてみました。

〇 大きな古時計


訳詞:保富康午(ほとみこうご)
作曲:Work Henry Cray

大きなのっぽの古時計♪ なあれですね。

変換のパラメータはこんな感じです。
2023y10m15d_000519381
2023y10m15d_000533061

では、一応、比較しなくてはならないので、変換元のおっさんの声を置いておきます。
後で触れるのですが、音を覚えていても綺麗に歌えるかどうかは、話が別なのです(ダメ

〇 歌:泉絽(おっさん)

〇 歌:つくよみちゃん(RVC)

どうでしょうか? 私の歌、相変わらず下手だな!?
床ローリングしたくなるくらいには恥ずかしい気がする。いや、気のせいかもしれん(適当)

そして、そんな恥ずかしい私の歌が、あら不思議。聞きやすい女性の声に。

凄く無いですか? っていうか、つくよみちゃんの声可愛いんだが!

まぁ、私の歌唱力があれなので、音を若干外したりしてますし、一発撮りなのでテンポもずれてます。
また、つくよみちゃんに変換することを意識して可愛く(?)歌っているので、そこも目をつむっておいてください。
それにしたって、変換するとこれだけ印象が変わるってことです。

特に自分の歌を変換すると微妙な息遣いだったり、ビブラートを再現しやすくなるんですよね。
以前、テキストから歌を作る関係のソフトを触ったことがあるんですけど、そういった機微を表現するのはかなりの技術が必要だと感じました。

一方で、一般人の私には、こちらの方が感覚的に理解しやすく時間もかからないです。

よし、これなら、私の野望を叶えられそうです!
と言う訳で、調子に乗って新作を作ってみたのですが……

まぁ、現実はそんなに甘くなかったです。はい。

好きなゲームBGMを勝手に歌って(?)みた

どうせやるなら、新しい事をやりたいと思うのがオタクと言うものです。

ちょっと話はそれますが、皆様、好きなBGMってありませんか?
歌では無くて曲だけの方のやつですね。

私はオタクなのでゲームでのBGMが圧倒的に多いです。
皆さんにもそんなお気に入りのBGMがあると思うのです。

そして、そんな好きな曲を聞いていて、ふと

歌詞が付いていたら歌うのになー

とか思ったことのある方が、もし仮にいらっしゃれば私と握手です!

東方系とかでは割とカバー系として曲が量産されているのですが、何故か他のジャンルだと少ないんですよね。
ならば、私の好きな曲は私が歌うしかなさそうです(オタク的発想)

とは言え、厳密には著作権の問題があります。
ですから、恐らく怒られないだろう、と言う曲を選ぶ必要がありそうです。

そんな中で、今回私が選んだのは、この曲!!

〇 ウマ娘より グランドライブ シニア級BGM
【YouTube】

【ニコニコ動画】

ウマ娘のBGMならとりあえず、この記事を書いている時点においては、こんなMADを作っても怒られてません。
ウマ娘運営さんの寛容さに胡坐をかくようで申し訳ないのですが、大好きな曲なのでリスペクトの意味を込めて使わせて頂きました。
勿論、問題があり連絡が来たら削除しますので、よろしくお願い致します。

この曲、もう、ウマ娘の中で一番好きなBGMなんですよね!
来年の春に発売されたら速攻で買う! 絶対ハイレゾで買って聞き倒す!

そもそもグランドライブは、シナリオ的にも一番好きなんですよ。
ライトハローさんも可愛いですし、何なら今も時々、気分転換に会いに行ってます。
とまぁ、ゲームの話は置いておいて、この曲だと情景が浮かびやすく、色々と創作意欲が捗ると考えました。

まぁ、実際はめちゃくちゃ見通しが甘かったという事を後から知る訳ですが。

結論から申し上げますと、世の中の作曲家・歌詞の製作者様、すげーわ……となりました(当たり前)
まず、私の場合は、歌詞を作るのにめっちゃ苦労しました(苦節2か月)

音は覚えているので楽勝と思いきや、口の回りやすさや語呂の良さ、そして何より、私が歌えるレベルの密度やテンポでないと厳しいとか、色々と試行錯誤の繰り返しでしたよ。
そこに私なりの解釈や意味を込めて当てはめるわけですから。

2ケ月以上、う~ん、う~~~む!? って唸りまくってました。
どこぞの運命を書いた作曲家のように「違う!こうじゃない!」的なムーブをかましまくりましたし。

で、作詞が大体終わって、実際に歌ってみると、これがまぁ、歌いづらい事この上ない。

音程の関係で、どうしてもうまく出せないところがあったりとか、私の歌唱レベルの問題もあったりで、いやはやどうして、なかなかに難しいチャレンジでした。

自分の作った歌詞で一人、深夜に歌いながら、苦悶してました。

「こんな高い音出ないよ!?」とか、
「ふおー!? 口が回らなぁい!!!」とかとか、
一周まわって「私は、何でこんなことしてるんだ?」と素に戻ってみたり。

個人的にはもう少し煮詰めれば、質は上がると思うのですが(主に私の歌唱力的に)、この辺りが限度かなと思いまして、切り上げました。

でも、めっちゃ楽しくやれたので、後悔はありません。
ただ、一点、だけ。
本当に素敵な曲なのに、私の力不足で何かすみません……と言う後ろめたさはあります。

とは言え、とりあえず形にはなったので、こちらに供養しておきます。

〇 ウマ娘より 私たちのグランドライブ(歌:泉絽 声:つくよみちゃん)
【YouTube】

【ニコニコ動画】

RVCを上手く使えば、こんな感じで音符の読めない・書けない私でも「歌ってみた」は作れそうですよ!
と言う感じの、割とどうでも良い報告でした。

もし、ちょと興味の沸いた方は、是非チェックして創作の一助にしてみて下さいね。

総評 使い方は無限大! でも使用には注意を

前の記事でも書きましたが私は割と時間がある方なのと、試行錯誤は好きな研究者肌なので良いのですが、これを一般の、しかも初心者の皆様がやるのは、相変わらず大変であると思います。

一方で今回の記事に書いたような使い方をするだけであるなら、一時期と比べれば、かなり楽になってきたと感じます。

① 環境を用意するのが大変

実はこの記事を出す少し前なら、Google上で動かせたらしいのですが、今は課金が必要になったようです。
なので、お試しで無料で遊んでみたいという方は、無理でしょうね。

こればっかりは、もう資金力との兼ね合いなので何ともです。
しかしながら、私のようにPC主体に活動されている方なら、意欲さえあれば遊べるレベルだなとは思っています。

ノートでも恐らくは、このレベルなら今の時点でならトレーニングもできます。

ちなみにドスパラのノートはスペックの割に作りもよく、かなりコストパフォーマンスは高いと思うのですが……
欠点として、後負荷時での発熱が凄いので、ファンの音がヤバいってのがあります。
特にAI使用時はフル稼働するので、キーボードにすら熱が伝わって熱くて打てないレベルになることも。
これはドスパラに限らず全てのノートの宿命なので、持ち運ばない・場所があるならデスクトップをお勧めします。

② 仕組みや使い方を理解するのが大変

基本事項を理解するだけでもかなり大変な上に、最近の更新頻度がとんでもなく高いせいで、そのハードルが更に爆上がり状態です。

本当にここ数年は技術の転換点であるので、もし興味のある方は今のうちにある程度触っておくほうが、良いとは思います。

③ 法整備や世間の感情が落ち着いていない

個人的には、感情的にAIを忌避するのは仕方ないにせよ、それでチャンスを逃した人もかなり多いんだろうなぁと言う印象です。

一方で、絵師さんや声優さんなどの権利を侵害して、居直る方も一定数いらっしゃるようです。
これに関しては、私は擁護する気持ちを一片も持ち合わせておりません。

権利者の心情を無視してまで、我を通すのは筋が違うというのが私の意見です。

なので楽しむにせよ、創作に使うにせよ、クリーンなモデル(権利者の許諾の取れているモデル)を使うようにしましょう。

まぁ、とは言え、実際にはどうしても作りたいという創作意欲の抑えられない方もいらっしゃるでしょうね。
そんな時は、表に出さないように個人で楽しむ事を旨としましょうね。

そんな私も色々と試させて頂いておりますが、権利者からクレームが来たら(ここ重要)、ごめんなさいして全部消します。
勿論、個人的な感覚としては、権利者の皆様に、ご迷惑をかけること自体がナンセンスなので、そこに気を付けているつもりです。
しかし、あくまでそれも個人的な感覚に基づいた判断ではあるので、完璧なものではないことも心に留めておきたいものですね。

そんな感じで、自分の歌を作り出してみたいなと思っている紳士淑女の皆様の力に少しでもなれたらなら幸いです。
けど、重ねて何度も申し上げますが人の声は勝手に使っちゃダメですからね?

今回の記事は以上になります。
お読みいただき、ありがとうございました。

※音声合成(「声質の学習」「RVCによる声質変換」など)には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。

■つくよみちゃんコーパス(CV.夢前黎)
https://tyc.rei-yumesaki.net/material/corpus/

コメント

タイトルとURLをコピーしました