~matubara/ChangeLog / 2007-06

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2007-06-30 Sat

2006

■ ICASSP 2007 [lm][sr]

ICASSP 2007, Honolulu, Hawai'i, U.S.A.
ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。
音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。
より言語の話題が多く出るのは、Interspeechの方か。

Word Topical Mixture Models for Dynamic Language Model Adaptation
http://dx.doi.org/10.1109/ICASSP.2007.367190

Gaussian Mixture Language Models for Speech Recognition
http://dx.doi.org/10.1109/ICASSP.2007.367155

On Compressing N-Gram Language Models
http://dx.doi.org/10.1109/ICASSP.2007.367228

Data Driven Approach for Language Model Adaptation using Stepwise Relative Entropy Minimization
http://dx.doi.org/10.1109/ICASSP.2007.367192

[ 固定リンク ]

2007-06-21 Thu

■ Category-Russian language - Wiktionary [ru][lx][net]

<http://en.wiktionary.org/wiki/Category:Russian_language>
語学（と研究？）用に、発音記号付きの、機械可読の、
オープンな、ロシア語（さらに、できれば多言語）の電子辞書リソースを探していたのですが、
思いがけず Wiktionary が使えそうなレベルに達していることを知った。

全体をダウンロードすることも可能
Database dump

エントリ数が数千を超える言語がけっこうあり、
語学目的ならあればそれなりに使える。

IPAなどの統一された発音記号が付くことになっているのがいい。
表音文字であっても（英語のように）発音が不規則になる言語も多いので、
発音記号があるとないとでは、初学者にとって大きく違う。
ウェブ上の辞書では、意外に発音記号がついていないことが多い。
一方紙の辞書は発音・語釈ともに充実しているけれど、機械可読ではない。
オフラインの電子辞書は、（原理的には）機械可読で内容も充実していてよいのだけれど、
ライセンスが……とか、暗号化が……とかで気軽には使えない。

ただし、Wiktionary は量、質ともにまだまだで、
一番多い英語で説明されたエントリの数（要するに X言語→英語辞書のエントリ数）が３０万を越えたところだし、IPA表記が欠けていたり、日本語のように発音が規則的な固有発音記号があればそれを使っていたりする。

[ 固定リンク ]

2007-06-10 Sun

2006

■ WMT07 Shared task [segmentation][lm][mt]

かなり前に公開されていたらしい。
単語分割込みの機械翻訳の話がいくつか。

Can We Translate Letters?
文字列単位のフレーズベース機械翻訳

An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Robert Moore and Chris Quirk)

Efficient Handling of N-gram Language Models for Statistical Machine
Translation Marcello Federico and Mauro Cettolo
これは言語モデルの扱いの話。
巨大なモデルのパラメータ推定、デコードの実装よりの話がある。

[ 固定リンク ]

2007-06-08 Fri

2006

■ Casting does not work as expected when optimization is turned on. [cxx][net]

<http://gcc.gnu.org/bugs.html#nonbugs_c>

[ 固定リンク ]

2007-06-04 Mon

■ Skewed Binary Search Trees [algorithm][net]

<http://www.brics.dk/~gerth/Papers/esa06skew.pdf>
via okamoto7 先生

平衡しない二分探索木は、平衡した二分探索木より平均深さが深くて、
そのために平均の枝をたどる数が多く、
探索により長い時間がかかる、というのが伝統的な見解。

この論文は、右の子の数と左の子の数を一定比率にした、”一般化平衡二分探索木”のようなものを定義し、
右をたどる時間と左をたどる時間が異なっているとしたときに、最適な子の数の比率が与えられることを示した。

「右にいくのと左にいくのに時間が違うようなことがあるのか」というのが疑問に思われるけれど、
キャッシュミスの比率が違うという説をだし、それを実験的・理論的に示している。

実験設定は、二分探索木を深さ優先探索で線形化（配列化）してやり、
そこにランダムな検索をかける、というもの。

「なんでそれで速くなるんだろうね」「この辺が割と(シーケンシャルな|繰り返しの多い)アクセスをやってるので、キャッシュが効いてるんだと思う」

という議論なら割と自明にキャッシュが効くことが分かるけれど、
このような設定でキャッシュが有効になるのはあまり自明ではない（と思う）し、
標準的な計算モデルにのっとった形で理論的に示し、実験的にも確かめたという点が素晴らしいのではないかと。

↓が分かりやすい。
skewed binary search trees スライド

線形化することのメリットは、今までは、
・平衡していれば、左・右ポインタが不要で必要な領域は1/3
ということだけだったけれど、
これからは、
・平衡から少し偏らせることで、少しだけ速くなるかも
ただし、左と右が整数比にとれなければ、領域は減らない

[ 固定リンク ]

~matubara/ChangeLog / 2007-06 →移動しました

2007-06-30 Sat

■ ICASSP 2007 [lm][sr]

2007-06-21 Thu

■ Category-Russian language - Wiktionary [ru][lx][net]

2007-06-10 Sun

■ WMT07 Shared task [segmentation][lm][mt]

2007-06-08 Fri

■ Casting does not work as expected when optimization is turned on. [cxx][net]

2007-06-04 Mon

■ Skewed Binary Search Trees [algorithm][net]