あさりのみそしるダイアリー

非常事態が日常です…そんな時こそ声を上げないと人生ジエンドにゃん(´・ω・`)

誰だって美少女ボイスになりたいよね?(´・ω・`) その1

ホントは短編でコロナを語ろうと思ったのですが、思ったより長くなったのでエントリーを分けました(´・ω・`)

コロナなので、GoToよりもおうちキャンペーンを展開したい人向けの、久々の連載エントリーです。ちょっと金を出したプログラミングネタになります。

なお、現時点で完成形に至っていない、希望的観測でしか語れない状況なので、空中分解したり不時着したりしたら、ごめんね(´・ω・`)

 

 

さて、いきなりですが・・・

誰だって美少女ボイスになりたいよね?

 

私なんて活舌が悪いので、しばしば聞き返されることがあるんですが、それ自体は別にいいんですが、たとえば世のYouTube動画なんかを見ると、自分の声で商品紹介をしたりとか、ゲームをプレイしたりとか、そういう活動を見ると、いいなーとも思うんだよね。

 

やりゃいいじゃんってなって、一発目だけでもやれば、それで終わるのかもしれないけど、あんま自分の声に自信のない人だっているじゃん?ぼくみたいに(´・ω・`)

 

そういう人が、もし声をあてるとするならば、音声合成ソフトを使うところから入るのでしょう。

でもね・・・

 


1から作るメロン風味ホットケーキ #おうち時間

 

やったことあるけど、けっこう時間かかるんだよね、これ(´・ω・`)

 

私は、かんたん!AITalk 3を使っていますが、セリフごとに音声ファイルに書き出して、それを動画編集ソフトにインポートして、配置して・・・という作業がくそめんどいです。

地声を使えば、動画撮影と声あてを兼ねられるので、作業量ははるかに少なくなりますよね。

(字幕作成にかかるコストは、どっちもどっちだと思うケド)

 

 

それに、この方法だと、たとえばリアルタイムな動画配信には適用できないんですよね。

たとえば、ゲーム実況をやろうってなったときに、セリフを音声合成ソフトにいちいち打ち込みながらゲームをするんですか?

あるいはあらかじめ決められたセリフに沿ってゲームをプレイするんですかねぇ・・・(何その伝わらない縛りプレイ(´・ω・`)

 

 

そんなのは到底やっていられないので、本研究では(?)

特にライブ配信向けに、配信したい動画と、ほぼリアルタイムな合成音声とを混合した、動画配信のしくみを作ることを検討してみたいと思います。

 

f:id:asarinomisosoup:20200724053718p:plain

ほぼリアルタイムな合成音声というのは、某ボイスチェンジャー的なものです。

そして、どうせボイスチェンジャーを構成するならば、美少女ボイスの方が誰だってテンション上がるでしょ?ということです。

まさか、おっさんが、おっさん声にボイチェンするとかいう、そんなくそしょーもないこと考えないですよね?(´・ω・`)

 

ただし、ただのボイスチェンジャーは、活舌を補正しません。

また、地声の特徴が出てしまうため、声質から個人が特定されるリスクもあります。自分の声を出したくないシャイな人間にとっては致命的です。

 

なので、私はアレを使います。そう、日本語音声認識機能を、ね。

日本語音声認識は、活舌を補正します。はっきりとした、聞き取りやすい声で発声することができます。まぁ、誤認識もそれなりに発生しうるし、活舌が悪すぎるほどその発生率も上昇すると考えられますが、それは誤認識という別の問題であって、ユーザーが聞く分には聞き取りやすいという点に変わりありません。

つまり、聞き取ったセリフが、何言ってんだコイツ?ってなる場合もあるでしょうが、今回はそれを問題としないということです。ほら、美少女ボイスだったら、そんな天然なうっかりミスも許せるでしょ?(´・ω・`)

たとえ中身がおっさんだとしても・・・

 

 

と、記事もちょうどいい長さになったので、テクニカルなはなしは次回ということで、まずはプロローグということで、期待しないで次回をおたのしみに(´・ω・`)