ChangeLog 最新ページ

audio - ~matubara/ChangeLog移動しました

最終更新時間: 2009-02-01 00:57

2008-03-02 Sun

「物理モデルによる音声合成」と比べてみた言語のモデルの現状 [audio][sr]

「音声にはモデルがあるけれど言語にはない」
という言葉がずっと気になっていた。
最近になって、少し意味が分かってきたような気がする。

ここで音声にあるモデルというのは、
基本的に「発声に関わる神経と筋肉のモデル」である。
もちろん発声という行動には言語を含む高次の機能が関わっている。
しかし、音声の(一部の)研究者はまずは低次から、というアプローチをしている。

ある音声研究者から
「物理モデルに基づく音声合成で、歌声が出せるようになってきた」
「けれど、急激なF0の変化を含む遷移はまだできない」
というような話を聞いた。
F0というのは”もっとも主要な周波数成分”のようなもので、音の高さをほぼ決めている。
F0の自由な遷移ができないと複数の音高を含む歌を歌えない訳で、
かなり初期段階にあるといわざるをえない。

一方、
言語のモデルで○○まではできる、○○はまだできない、
というような評価をしようとすると、それすらできないことに気づく。

たとえば品詞タギングと統語解析は9割くらいできるようになっている、
ということになっている。
なぜ留保がつくかというと、
品詞や統語構造が正しいかどうかの評価自体が人間の主観評価なので、
評価をどう評価するか、みたいな問題が常についてまわり、
決定的にここまでできている、ということがいえない。
特に、人間による裁定の一致率が低い問題は、
間違った問題設定をしている、つまり単体では解けない問題を解こうとしているのである。
程度の差はあれど、ほとんどの言語の研究は、よくみると間違った問題設定をしている。
(単体で解けない場合でも、近似解を出してその精度を高めることはできるし、されている)

言語の場合、客観的に観測可能な事象は、音声やテキストしかない。
これらはかなり高次の出力結果であり、
内部で何が起こっているのかを示す情報に欠けている(と感じる)。
容易に(もちろん、非侵襲的に)得ることができる分、解像度が粗い。
そのため言語の研究者はいろいろなレベルで割り切って、
それより低次のレベルのことを保留している。

音声の場合は、
筋肉の動き、神経活動の微視的イメージングを(精度の課題はあれど)行うことができるので、
細かいけれども確実な評価を積み重ねていくことができる。
さらに、それに基づいてできたモデルが、たとえば、
初期段階にあるとはいえ一応歌声を生成できているのだからすごい。

言語側では、
データドリブンな手法と(生成文法的な)直観に根ざした理論ベースの手法とがよく対比されるが、
物理モデル的な意味での低次モデルと、いわゆるNLP的な高次モデルのからみは、
あまり無いような気がする。

2007-05-16 Wed

IPA の項目がすばらしく充実している件 [sr][audio][net]

<http://en.wikipedia.org/wiki/International_Phonetic_Alphabet>
これだけで、音声学のよい復習になります。

情報処理推進機構ではないのに注意。

追記
音声学を勉強したような顔をしてますが、本を読んだだけです。
言語学の中で音声学だけはトレーニングを受けないとどうしようもないと思います。

2007-03-29 Thu

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得 [audio][sr][nlp]

AIチャレンジ研究会24回の資料の峯松先生の論文。

「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、
N個の点集合が作る形とNxNの距離行列の等価性。
参考:距離 - 朱鷺の杜Wiki

注目している集合が閉じている(音素、音韻)ことと開いている(語彙)ことが、
音声処理と言語処理のあつかう対象の大きな違いだと思った。

第一著者は絶対音感を持っており、この階名での書き起こしが全くもって理解できない一人である。異なる音高に同一の音ラベルを振ることなど、全く理解不能である。
異なる話者間で「あ」の同一性が感覚できない人がいるのだろうか?
感覚できない「機械」が(中略)音声認識器である。
感覚できない「人」として、一部の自閉症者がいる。


極端な音声の絶対音感を持つと考えられる自閉症者にとって、物理的に異なる特性を持つ話者Aの音とBの音を「同一音」として認知する健常者の感覚こそ、想像を絶するものではないかと推測する。
異なる二音を「あ」と感覚できる健常者の認知能力が、音の絶対項に基づくものなのか、あるいは、音間の相対項に基づくものなのか


音声コミュニケーションに障害のある自閉者に対する健常者を、
絶対音感をもつ人に対する健常者に並行させる議論は魅力的だと思った。

彼らのグループが作った「音声から単語をメロディーのようにして認識する」システムは、
非シンボル的な相対音感に対応する。(と思う)

「構造表象」生得主義のようにも見えるけれど
この論文だけでは詳細が分からないので、参考文献をあたる必要がある。

峯松先生の過去の招待講演から
http://www.gavo.t.u-tokyo.ac.jp/%7Emine/paper/PDF/2006/speech_as_music.pdf

2006-01-31 Tue

Polyphonic Music Modeling with Random Fields - Victor, Jeremy (2003) [audio][lm][net]

<http://citeseer.ist.psu.edu/victor03polyphonic.html>
Markov Random Field を利用した、音楽モデリング。
テキスト検索手法を音楽検索へ導入することを強く意識している。

パープレキシティ評価も。

2006-01-30 Mon

Harmonic Modeling for Polyphonic Music Retrieval (2004) [audio][nlp][net]

<http://citeseer.ist.psu.edu/pickens04harmonic.html>
コンテンツベースの音楽検索についての博士論文。
多声のパッセージを検索質問とし、曲を検索結果とする。

Powered by chalow
inserted by FC2 system