単独音

今回は単独音、れんたんじゅつ、連続音、CVVCの4つの音源形式の個人的評価をしたいと思います。

録音や原音設定、調声で参考になればと思います。

録音:最速で3分で録音できる量。

原音設定:熟練の原音設定師なら10分でおわる。自分でも40分で終わる。

　　　とにかく量が少ない。

自動推定でも何とか歌える。

調声:単独音なので音と音の間に違和感があるが原音設定やMIXである程度和らげることが可能。クロスフェードの最適化をしなくてもよいので時間がかからない。

録音:連続音と同じくらいの時間がかかる。最近はCVVCリストを使うことで最速15分くらいで収録可能。

原音設定:最初の音とそれ以外の音と分けてあるのでだいたい単独音の2倍くらいの量。

CVVCリストを使った場合は母音が連続音だったり最初の音とそれ以外の音を区別しないリストだったりで量はまちまち。

調声:単独音の応用なのでクロスフェードの最適化をしなくてもよいし、単独音より違和感が少ない。しかし、連続音やCVVCには劣る。

録音:総当たりリストで最速90分はかかるらしい。耳ロボPリストだとある程度は短縮でき　る模様。

原音設定:自動推定してもある程度歌ってくれる。その後手動で修正しても最悪先行発音だけ設定すればいいのである意味単独音より楽。

調声:天下の連続音といわれているが音程が変わるとき、違う表情音、フラグを使うとき違和感があるそう。クロスフェードの最適化はしたほうがいいが時間がかかる。

Yフラグの使用は非推奨。子音速度の変更が容易ではない。

モジュレーションは拡張ピッチエディタで設定できる。

presamp(後述)を使うことでクロスフェードが最適化されるらしい。

録音:リストによってかかる時間はまちまちだが、最速15分で終わる。

原音設定:原音設定の意味が分かっていないとできない可能性大。逆に分かっていれば簡単。

自動推定は使えないが叩き台があるリストもあるためそこら辺はあまり不自由がない。リストによって量はまちまち。

調声:autoCVVCかpresampを使うことで簡単に調声ができる。

特にpresampは単独音のように使えるのでお勧め。ただし導入がちょっとめんどくさい。

音程が変わるときや違う表情音、フラグを使っても違和感が出にくいが接続箇所が多いためそこで違和感が起こりやすい。

クロスフェードの最適化は多くて時間がかかるがpresampをつかうと自動で最適化される。