最新 / RSS

~matubara/ChangeLog移動しました

2008-03 / 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

最近 7 日分 / 今月の一覧

2008-03-02 Sun

「物理モデルによる音声合成」と比べてみた言語のモデルの現状 [audio][sr]

「音声にはモデルがあるけれど言語にはない」
という言葉がずっと気になっていた。
最近になって、少し意味が分かってきたような気がする。

ここで音声にあるモデルというのは、
基本的に「発声に関わる神経と筋肉のモデル」である。
もちろん発声という行動には言語を含む高次の機能が関わっている。
しかし、音声の(一部の)研究者はまずは低次から、というアプローチをしている。

ある音声研究者から
「物理モデルに基づく音声合成で、歌声が出せるようになってきた」
「けれど、急激なF0の変化を含む遷移はまだできない」
というような話を聞いた。
F0というのは”もっとも主要な周波数成分”のようなもので、音の高さをほぼ決めている。
F0の自由な遷移ができないと複数の音高を含む歌を歌えない訳で、
かなり初期段階にあるといわざるをえない。

一方、
言語のモデルで○○まではできる、○○はまだできない、
というような評価をしようとすると、それすらできないことに気づく。

たとえば品詞タギングと統語解析は9割くらいできるようになっている、
ということになっている。
なぜ留保がつくかというと、
品詞や統語構造が正しいかどうかの評価自体が人間の主観評価なので、
評価をどう評価するか、みたいな問題が常についてまわり、
決定的にここまでできている、ということがいえない。
特に、人間による裁定の一致率が低い問題は、
間違った問題設定をしている、つまり単体では解けない問題を解こうとしているのである。
程度の差はあれど、ほとんどの言語の研究は、よくみると間違った問題設定をしている。
(単体で解けない場合でも、近似解を出してその精度を高めることはできるし、されている)

言語の場合、客観的に観測可能な事象は、音声やテキストしかない。
これらはかなり高次の出力結果であり、
内部で何が起こっているのかを示す情報に欠けている(と感じる)。
容易に(もちろん、非侵襲的に)得ることができる分、解像度が粗い。
そのため言語の研究者はいろいろなレベルで割り切って、
それより低次のレベルのことを保留している。

音声の場合は、
筋肉の動き、神経活動の微視的イメージングを(精度の課題はあれど)行うことができるので、
細かいけれども確実な評価を積み重ねていくことができる。
さらに、それに基づいてできたモデルが、たとえば、
初期段階にあるとはいえ一応歌声を生成できているのだからすごい。

言語側では、
データドリブンな手法と(生成文法的な)直観に根ざした理論ベースの手法とがよく対比されるが、
物理モデル的な意味での低次モデルと、いわゆるNLP的な高次モデルのからみは、
あまり無いような気がする。

2008-02-24 Sun

Pattern Matching Pointers (maintained by Stefano Lonardi) [string][ir][net]

<http://www.cs.ucr.edu/~stelo/pattern.html#Resources>
文字列アルゴリズム、情報検索周辺の学会、本、ソフトウェア

2008-02-13 Wed

crontab(5) -- tables for driving cron - Linux man page [howto][net]

<http://linux.die.net/man/5/crontab>

all data after the first % will be sent to the command as standard input.

% を含むコマンドは crontab に書けない。
\% でエスケープする必要がある。

2008-02-12 Tue

LETOR -- Benchmark Dataset for Learning to Rank [ir][learning][net]

<http://research.microsoft.com/users/LETOR/>
"learning to rank" タスクのデータセットが公開されている。

2008-02-11 Mon

Maximum Entropy Models with Inequality Constraints -- A Case Study on Text Categorization [learning][net]

<http://www.springerlink.com/content/v6mn41027420jp56/>

Jun Wu, Maximum Entropy Langauge Modeling with Non-Local Dependencies [learning][lm]

http://www.cs.jhu.edu/~junwu/publications.html

文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、

2008-02-10 Sun

工藤 拓, 松本 裕治, 素性の組み合わせを実現する Power Set Kernel とその高速化 [learning]

SVMでもちいられている多くのカーネルと、
MEなどでもちいられている組み合わせ素性を比較した場合、
カーネルは可読性が低い。
MEの組み合わせ素性は、それの重みをみることで簡単にどの組み合わせが有効かをみることができる。
一方、カーネル法の場合、カーネル関数のどの項をけずった場合に性能が劣化するかを見る、
などの間接的な方法しかとれない。

これを解決するため、すべての組み合わせを列挙することに相当するpower set kernelと
その高速な計算法を提案した。

2008-02-07 Thu

Valgrind -- Tool Suite [programming][net]

<http://valgrind.org/info/tools.html>

Official Home Page for valgrind, a suite of tools for debugging and profiling. Automatically detect memory management and threading bugs, and perform detailed profiling. The current stable version is valgrind-3.3.0.

キャッシュ使用状況のエミュレーションと回数つきコールグラフの生成 callgrind
とその可視化 kcachegrind

アルゴリズムとデータ構造演習 [programming][net]

<http://hagi.is.s.u-tokyo.ac.jp/ade/pre/1.html>

課題1-A: シェルを実装せよ。
課題2-A: データを圧縮・解凍するプログラムを実装せよ。
課題3-A: スパムフィルタを実装せよ。

この課題が授業の目標:伝えられた仕様を大体何でも実装できるようになるこ
とという風に解釈した。
詳しくは別紙

面白いのは圧縮解凍、スパムフィルタに関しては、
圧縮率、正解率という優劣をかなりはっきり決める一次元の指標があること。
(シェルは基本は誰が作っても同じ、詳細な機能の設計に差異が出るが優劣は個別にみる必要がある)

Concrete Abstraction [programming][book][net]

<http://jaortega.wordpress.com/2007/01/31/a-scheme-bookshelf/>
yet another introduction to (functional) programming

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2009-02-01 00:57

inserted by FC2 system