音声信号処理の専門家である井原健紘氏というかたが、
「初音ミクとかの音声合成のしくみ」というページを公開。音声合成の基本から、VOCALOIDで用いられているという音声合成がどんなものかを、推定ながら
図入り解説していて興味深い。
特に「へぇ」と思ったのは、初音ミク(VOCALOID2)とKAITO(VOCALOID(1))の違い。前者は「素片接続法」、後者は「HMM合成法」という、まったく異なるアプローチによってつむぎだされているそうな。一件すると、VOCALOID2エンジンのほうがVOCALOID(1)エンジンより優れていると思いがちだが、どうもそう単純に言い切れるものでもなさそうだ(ていうか、「HMM合成法」ってFM音源みたいな^^;)。 ←追記参照何にせよ
「音声合成って何やってんだろ」と思っている人は行ってみて。
>
井原健紘を紹介するページ「初音ミクとかの音声合成のしくみ」上記サイトより転載(VOCALOID2のしくみの図解)
追記上記に、「前者は「素片接続法」、後者は「HMM合成法」という、まったく異なるアプローチ」と書いたのだが、これは誤りで、
VOCALOIDもVOCALOID2も、どちらも「素片接続法」を採用しているというコメントをいただいた(thx^^)。また、「井原健紘を紹介するページ」さんのサイトでも訂正が入るようだ。ということは、違いはなんぞ。^^;
>
IHARA Note「初音ミクなどのVOCALOIDに関するウェブページの訂正とお詫び。」
[初音ミク-音楽]
2008/02/09(土) 10:42:16|
Q&A
| トラックバック:0
| コメント:3
> 初音ミク(VOCALOID2)とKAITO(VOCALOID(1))の違い。前者は「素片接続法」、後者は「HMM合成法」という、まったく異なるアプローチによってつむぎだされているそうな。
これは完全に間違いですよ.井原さんにも伝えましたが,両方「素片接続」です.
- 2008/03/26(水) 15:45:05 |
- URL |
- へーが #-
- [ 編集]
> ということは、違いはなんぞ。
多分ですが,素片の数が違うんではないかと.歌声合成だと,合成したい楽譜にマッチするように,各素片の音程をいじらなくちゃいけません.しかし,大きくいじると,音が劣化します.そこで,同じ「あ」でも色んな高さの「あ」を録音しておけば,音の高さをいじる幅を小さくできます.v1とv2を比較すると,v2のほうが素片の数がずっと多いんではないでしょうか.
ちなみに,
http://www.interspeech2007.org/Technical/ssc_files/Yamaha/VOCALOID_Interspeech.pdf
にVOCALOIDのアルゴリズムが詳しくかかれてたりします(英語).
- 2008/03/26(水) 22:58:22 |
- URL |
- へーが #-
- [ 編集]