構想

簡単に説明すると上の画像のようになります。

単語ごとに録音しそれをDAWで配置して喋らせるシンプルな構想。

ただし、配置するだけだと単語と単語の間に違和感があるのでCVVC方式を応用してVCを間に配置し違和感を減らそうという構想。

問題点

現時点でVCを間に挟むという考えにいくつか問題点があるので箇条式であげていきます。

・ピッチの処理をどうするか

単語と単語のピッチがバラバラのため、接続がうまくいかない可能性あり

うまくいったとしても意図するピッチにならない可能性

→出力してからピッチ編集?

・母音の無声化への対応

CC音素を作ることで対応できるが無声化が起こらないところで切れば解決

・作業の煩雑さ

手動でダイナミクス調整しなければいけない

UTAU使ったほうが楽だし確証がある