ChangeLog 最新ページ

sr - ~matubara/ChangeLog移動しました

最終更新時間: 2009-02-01 00:57

2008-03-02 Sun

「物理モデルによる音声合成」と比べてみた言語のモデルの現状 [audio][sr]

「音声にはモデルがあるけれど言語にはない」
という言葉がずっと気になっていた。
最近になって、少し意味が分かってきたような気がする。

ここで音声にあるモデルというのは、
基本的に「発声に関わる神経と筋肉のモデル」である。
もちろん発声という行動には言語を含む高次の機能が関わっている。
しかし、音声の(一部の)研究者はまずは低次から、というアプローチをしている。

ある音声研究者から
「物理モデルに基づく音声合成で、歌声が出せるようになってきた」
「けれど、急激なF0の変化を含む遷移はまだできない」
というような話を聞いた。
F0というのは”もっとも主要な周波数成分”のようなもので、音の高さをほぼ決めている。
F0の自由な遷移ができないと複数の音高を含む歌を歌えない訳で、
かなり初期段階にあるといわざるをえない。

一方、
言語のモデルで○○まではできる、○○はまだできない、
というような評価をしようとすると、それすらできないことに気づく。

たとえば品詞タギングと統語解析は9割くらいできるようになっている、
ということになっている。
なぜ留保がつくかというと、
品詞や統語構造が正しいかどうかの評価自体が人間の主観評価なので、
評価をどう評価するか、みたいな問題が常についてまわり、
決定的にここまでできている、ということがいえない。
特に、人間による裁定の一致率が低い問題は、
間違った問題設定をしている、つまり単体では解けない問題を解こうとしているのである。
程度の差はあれど、ほとんどの言語の研究は、よくみると間違った問題設定をしている。
(単体で解けない場合でも、近似解を出してその精度を高めることはできるし、されている)

言語の場合、客観的に観測可能な事象は、音声やテキストしかない。
これらはかなり高次の出力結果であり、
内部で何が起こっているのかを示す情報に欠けている(と感じる)。
容易に(もちろん、非侵襲的に)得ることができる分、解像度が粗い。
そのため言語の研究者はいろいろなレベルで割り切って、
それより低次のレベルのことを保留している。

音声の場合は、
筋肉の動き、神経活動の微視的イメージングを(精度の課題はあれど)行うことができるので、
細かいけれども確実な評価を積み重ねていくことができる。
さらに、それに基づいてできたモデルが、たとえば、
初期段階にあるとはいえ一応歌声を生成できているのだからすごい。

言語側では、
データドリブンな手法と(生成文法的な)直観に根ざした理論ベースの手法とがよく対比されるが、
物理モデル的な意味での低次モデルと、いわゆるNLP的な高次モデルのからみは、
あまり無いような気がする。

2007-06-30 Sat

ICASSP 2007 [lm][sr]

ICASSP 2007, Honolulu, Hawai'i, U.S.A.
ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。
音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。
より言語の話題が多く出るのは、Interspeechの方か。

Word Topical Mixture Models for Dynamic Language Model Adaptation
http://dx.doi.org/10.1109/ICASSP.2007.367190

Gaussian Mixture Language Models for Speech Recognition
http://dx.doi.org/10.1109/ICASSP.2007.367155

On Compressing N-Gram Language Models
http://dx.doi.org/10.1109/ICASSP.2007.367228

Data Driven Approach for Language Model Adaptation using Stepwise Relative Entropy Minimization
http://dx.doi.org/10.1109/ICASSP.2007.367192

2007-05-16 Wed

IPA の項目がすばらしく充実している件 [sr][audio][net]

<http://en.wikipedia.org/wiki/International_Phonetic_Alphabet>
これだけで、音声学のよい復習になります。

情報処理推進機構ではないのに注意。

追記
音声学を勉強したような顔をしてますが、本を読んだだけです。
言語学の中で音声学だけはトレーニングを受けないとどうしようもないと思います。

2007-05-16 Wed

Specmurt Anasylis -- A Piano-Roll-Visualization of Polyphonic Music Signals by Deconvolution of Log-Frequency Spectrum [sr][net]

<http://hil.t.u-tokyo.ac.jp/~lab/topics/Sagayama04SAPA10/index.html>

2007-04-22 Sun

From HMMs to Segment Models -- A Unified View of Stochastic Modeling for Speech Recognition - Ostendorf, Digalakis, Kimball (ICASSP1996) [sr][learning][net]

<http://citeseer.ist.psu.edu/ostendorf95from.html>
HMMの拡張である Hidden semi-Markov Models または Segmental HMM。
遷移のときにシンボル列を出力する。

2007-04-06 Fri

音声弁別素性は有限か否か [sr]

人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?

ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic Alphabet が記述するような、phonetic な単位。

ひとつの見方:
人間が音声を出す仕組みは進化上ひとつの最適値に落ちていて、
多くの人が従うような、効率的な発声の仕方は限られた種類しかなくて、
各言語はその集合からいくつかを選びとってできている。

日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだにはいくつかの別の音声単位があるかもしれないが、
あるとしても有限個数だけ。

別の見方:
ある集団である弁別素性が使われるのは、その集団でその弁別素性が流行ったからで、音声を出す仕組みは生後に習得されている。
だから、どのような音声が流行るかによって習得される弁別素性は変わる。

日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだには無数の音声単位が作られる可能性がある。


音韻理論ハンドブック
を見るかぎりでは、この問題はオープンであるように読めた。
たぶん、言語器官か汎用学習モジュールかというのと同じような問題なのかも?

2007-04-02 Mon

PodCastleの実現:Web2.0にもとづく音声認識性能の向上について [sr]

IPSJ-SIG 2007-SLP-65 より。

PodCastleがすばらしいのは、
研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。
音声認識システムはユーザーに音声ファイルの全文検索を提供する。
ユーザーは音声認識システムに訂正情報を提供する。
ユーザーが教師データを容易に提供できるというタスクの性質、
その作業をスムーズにさせてくれるUIへの尽力がすばらしい。

おそらく検討されていると思うけれど、
字幕.inとの連携ができたらいいと思う。
字幕.inが音声・字幕アライメントの入出力APIを提供し、
Podcastleがそれを受けとったり書き込んだりする。

2007-03-29 Thu

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得 [audio][sr][nlp]

AIチャレンジ研究会24回の資料の峯松先生の論文。

「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、
N個の点集合が作る形とNxNの距離行列の等価性。
参考:距離 - 朱鷺の杜Wiki

注目している集合が閉じている(音素、音韻)ことと開いている(語彙)ことが、
音声処理と言語処理のあつかう対象の大きな違いだと思った。

第一著者は絶対音感を持っており、この階名での書き起こしが全くもって理解できない一人である。異なる音高に同一の音ラベルを振ることなど、全く理解不能である。
異なる話者間で「あ」の同一性が感覚できない人がいるのだろうか?
感覚できない「機械」が(中略)音声認識器である。
感覚できない「人」として、一部の自閉症者がいる。


極端な音声の絶対音感を持つと考えられる自閉症者にとって、物理的に異なる特性を持つ話者Aの音とBの音を「同一音」として認知する健常者の感覚こそ、想像を絶するものではないかと推測する。
異なる二音を「あ」と感覚できる健常者の認知能力が、音の絶対項に基づくものなのか、あるいは、音間の相対項に基づくものなのか


音声コミュニケーションに障害のある自閉者に対する健常者を、
絶対音感をもつ人に対する健常者に並行させる議論は魅力的だと思った。

彼らのグループが作った「音声から単語をメロディーのようにして認識する」システムは、
非シンボル的な相対音感に対応する。(と思う)

「構造表象」生得主義のようにも見えるけれど
この論文だけでは詳細が分からないので、参考文献をあたる必要がある。

峯松先生の過去の招待講演から
http://www.gavo.t.u-tokyo.ac.jp/%7Emine/paper/PDF/2006/speech_as_music.pdf

2006-12-21 Thu

podcastle [lm][sr][net]

<http://podcastle.jp/>
緒方さんの音声訂正が Wiki になった!(惹句)

2006-10-04 Wed

Julius によるオフライン音声認識 for Windows [sr][lm]

目的:wav2txt
動かすだけなら、すごく簡単です。
まともに使えるようにするのは、かなり大変です。

Julius ディクテーションキットをダウンロードする。

fast.jconf の
-input
-sscalc
などを適切に編集する。

run_fast.bat
として動かす。


Julius は基本的にはデコーダ。
雑音通信路モデルでいうと、
・通信路モデルに相当する triphone HMM の定義
・情報源に相当する 3-gram 言語モデル
さらに、
・言語モデルの単語に対する読みの辞書
を必要とする。

HMM は対象音声の特性にあったもの、
言語モデルは対象分野にあったものが望ましい。
特に背景雑音が音響モデルの想定外な音声や、
標本化周波数が音響モデルの想定外な音声は、
ほとんど認識できない。
背景雑音はともかく、
標本化周波数は、人間が聞いた場合はあまり違いがないように聞こえるので、
注意が必要。

本来、背景雑音や標本化周波数は、
よりクリアな方が認識しやすい、という程度の意味しかないが、
それは音響モデルがその条件に合わせて訓練されている、
という前提が成り立っての話。

音響モデルをつくるには、

2006-09-05 Tue

Isotani -- Speech Recognition Using a Stochastic Language Model Integrating Local and Global Constraints [nlp][sr][lm][net]

<http://scholar.google.com/scholar?hl=en&lr=&cites=12386506092979171699>
音声認識での統語情報利用例

Powered by chalow
inserted by FC2 system