10/07/19 11:43:04 QLUKF10T
>>678
人間だろうとソフトだろうと「しゃべり」と「歌声」は基本的に別物。
普通の「しゃべり」声はもともと、音楽的なピッチ成分が希薄なので
ピッチ検出の対象となり得ない。
一見ピッチが激しく動いているように見えるのは
しゃべり声を構成する4つのフォルマント・ピーク+ノイズ成分(破裂音、摩擦音等)から
各瞬間で支配的な周波数ピークを一つだけ拾ってつないでいるからだ。
4つのピッチを1つのピッチに丸め込んでいるのだから、デタラメな値になるのはしょうがないし
それをVocaloidに適用しても期待通りの結果が得られないのは当然だ。