B級科学者もどきの憂鬱

とある理系になりきれない奴のつれづれなる活動記

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

向いてない

またUTAUのresamplerの話。

自作resamplerで使っている、TD-PSOLAという音声合成手法は、
全体的に声の高さを上げる、ということには向いていますが、
声をキッチリ何Hzに揃える、ということには向いていないようです。

といっても私は専門家じゃないので、
今のところ単なる経験からの素人判断です。

元の音声のピッチが揺らいでいて、
無理やり高さを合わせたりすると、
位相のずれによるうなりみたいなものが発生します。
もちろん時と場合と元音声にもよるんですが。
これは、一様にピッチを上げ下げすると起こりません。

さてどう修正したものかなーと。

TD-PSOLA自体を改良するのは困難そうなので、
音声加工後に何とかしてうなりを取り除くというのが一つ。
もしくは、加工前にうなりの存在を理論的に計算して、
音声を前処理しておくというのが考えられます。

どっちも具体的なアルゴリズムが思いつかない…orz

というかそもそも、位相のずれによるうなりが原因なのかどうかも、
はっきり分かっているわけではないんですが……。

風呂にでも浸かりながらゆっくり考えます。
スポンサーサイト

FC2Ad

まとめ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。