ChangeLog 最新ページ / カテゴリ最新ページ / 1 2 3 4 5 次ページ / page 1 (5)

lm - ~matubara/ChangeLog移動しました

最終更新時間: 2009-02-01 00:57

2008-02-11 Mon

Jun Wu, Maximum Entropy Langauge Modeling with Non-Local Dependencies [learning][lm]

http://www.cs.jhu.edu/~junwu/publications.html

文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、

2007-09-05 Wed

階層型生成モデルによるキャッシュモデル [lm]

2007-08-16 Thu

Unsupervised Language Model Adaptation Incorporating Named Entity Information [lm][net]

<http://acl.ldc.upenn.edu/P/P07/P07-1094.pdf>
文書を表す単語ベクトルを、named entity だけにして、
文書クラスタリングに基づく適応をやったという話。

2007-08-10 Fri

Fast exact maximum likelihood estimation for mixture of language models [lm][ir]

<http://dx.doi.org/10.1145/1277741.1277948>
情報検索の一部()で使われている、片方の分布が未知の混合ユニグラムモデルにおいて、
厳密かつ、線形時間な解法が得られた。

p, q を多項分布に従う確率変数、\alpha を実数とするとき、
r = \alpha p + (1-\alpha) q
(rはpとqの混合、または線形補完と呼ばれる)

r の標本値がたくさん
p の分布(パラメタ)
\alpha の値
がわかっているときに、q のパラメタ(多項分布の各項の重み)を求めるのが問題。

証明が面白い。
でも、正当性きちんと検証できるほど読み込めてはいない。

実用的なインパクトはあまりないと思うけれど、
安易な「EMで近似解」ではないアプローチとして、価値があると思う。

2007-08-06 Mon

未知語 [lm]

AABCDE、と6つの単語が出現するという事象の確率を求めることを考える。
簡単のために、モデルはスムージングも事前分布もない単語ユニグラムモデルとし、
訓練データでの分布も、同じ分布(A:B:C:D:E = 2:1:1:1:1)だとしよう。

モデル1はABCという3つの単語だけを知っていて、
残り2つを「未知語」同値類 <UNK> として扱う。
したがって、モデル1の下では、
P(A)=2/6, P(B)=P(C)=1/6, P(D)=P(E)=P(<UNK>)=2/6
これ以外のどんな単語にたいしても
P(単語)=P(<UNK>)=2/6
である。

モデル2はABという2つの単語だけを知っている。
モデル1と同様にして、
P(A)=2/6, P(B)=1/6, P(C)=P(D)=P(E)=P(<UNK>)=3/6

モデル3はAだけを知っているものとすると、
P(A)=2/6, P(B)=...=P(<UNK>)=4/6

これらのモデルを、ABCDEという単語列にたいする、
単語当たりのテストセットパープレキシティで評価してみると、
モデル1 (6/2 * 6/2 * 6/1 * 6/1 * 6/2 * 6/2)^(1/6) = 3.780
モデル2 (6/2 * 6/2 * 6/1 * 6/3 * 6/3 * 6/3)^(1/6) = 2.794
モデル3 (6/2 * 6/2 * 6/4 * 6/4 * 6/4 * 6/4)^(1/6) = 1.890
となって、モデル3がもっとも優れた手法だといえる。

……というのは当然嘘である。
どこに嘘があったのかといえば、
”単語当たりの”テストセットパープレキシティというのが嘘。
未知語は同値類であり、少なくとも1つ以上の単語を含んでいるから、
これを混ぜて、 単語当たりの、というのは間違い。
もっとも得票数が多いのが「その他」だったからといって、
「その他」が最大支持を得たとはいえないのと同じ。

じゃあ未知語を除けばいいのかというと、
モデル1 (6/2 * 6/2 * 6/1 * 6/1)^(1/4) = 4.24
モデル2 (6/2 * 6/2 * 6/1)^(1/3) = 3.77
モデル3 (6/2 * 6/2)^(1/2) = 3
となって、状況がよくなっているようには見えない。
こんどは単語の集合と単語を同列に扱うことは避けられたけど、
代わりに未知語でない単語、つまりモデルがよく知っている単語についてしか性能を見ていないので、
未知語が多いモデルほど優れているように見えてしまう。

結局、CとDを区別できるモデル1と、
区別できないモデル2,3を、直接比較することはできない。

これを解決するひとつの方法は、未知語の定義を一致させること。
http://www.stanford.edu/class/cs224n/faq.html#unk
未知語のもっとも多いモデル3にあわせるなら、
モデル1,2,3は同じ性能だという、評価になり、
もっとも少ないモデル1にあわせるなら、
モデル2と3はパープレキシティ無限大という評価になる。

実際には、未知語がおおいモデルに合わせるというのは、
モデルの能力を落としていることになってナンセンスなので、
後者の方法を取ることになる。

こうして一応、(パープレキシティがよい評価方法だと認めるなら)
モデルの比較ができるようになったけれど、
結局のところ、未知語という単語クラスと、単語を同列に扱っているという気持ち悪さは残る。

これを解決するもっとも正統派(だと思う)の方法は、
無限の語彙を生成する方法。たとえば
http://www.cog.brown.edu/~mj/papers/acl06-wordseg.pdf

未知語が少ない(言い替えれば、かなり大きな既知語のリストを持っている)
状況でやるのは、不適切、もしくは課題が大きいと思う。
既知語の情報をとりこもうと思うと、
上記の手法では、強く既知語に偏った prior を与えることになるけれど、
conjugate prior を守りながらそれを与えるのは困難。

2007-07-21 Sat

factored language models [lm]

Traditional SLMs are based on N-gram language models (NGLMs),
which essentially treat each word occurrence as an probabilistic event.

Naive NGLMs are suffered with data sparseness.
One examples was ...

To avoid the data sparseness problem, ...
- smoothing
- back-off
- interpolation with class model

J. A. Bilmes and K. Kirchhoff(2003),
Factored language models and generalized parallel backoff,
In HLT/NAACL-2003

単語を素性の束で表し、字面ベースのN-gramモデルを置き換える。
バックオフを一般化した形で再定義している。
通常のN-gramは、N個の縮退したモデルだけをもつが、
FLMは、単語当たり素性数F 文脈長Nのもとで、combination(F,N)個の縮退したモデルを想定する。 # ←理解が怪しい
可能なバックオフの経路の数がexponentialなため、
汎用的なグラフィカルモデルの構造推定(Graphical models toolkit; GMTK)を用いて、
有効な経路を求める。
より多くのバックオフモデルが得られ、スパースネスに強いのが利点。
最近、フレーズベース機械翻訳システム Moses で使われている。

FLMのツールキットは SRILM に付属していて、 FLM tutorialに詳しい説明がある。

Jamoussi, Salma / Langlois, David / Haton, Jean-Paul / Smaili, Kamel (2004),
Statistical feature language model,
In INTERSPEECH-2004,

bilmes+2003と同じく、単語を素性の束で表したN-gramモデル。
素性の束を単純に結合して、従来のN-gramモデルを作る。
つまり、バックオフは一般化せず、素性の束を新しい字面とみなす。
実装も(FLMを含まない)SRILMツールキットを使ったシンプルなもの。
でもあまり効果がなかったらしい。

2007-07-18 Wed

Language model smoothing tutorial [lm][net]

<http://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf>
ふつうのLMスムージング

2007-06-30 Sat

ICASSP 2007 [lm][sr]

ICASSP 2007, Honolulu, Hawai'i, U.S.A.
ICASSP(IC on Acoustics, Speech and Signal Prcessing)は音響音声処理で最大の国際学会。
音声認識とのからみで、言語モデルを中心として言語処理の話題も一定数出ている。
より言語の話題が多く出るのは、Interspeechの方か。

Word Topical Mixture Models for Dynamic Language Model Adaptation
http://dx.doi.org/10.1109/ICASSP.2007.367190

Gaussian Mixture Language Models for Speech Recognition
http://dx.doi.org/10.1109/ICASSP.2007.367155

On Compressing N-Gram Language Models
http://dx.doi.org/10.1109/ICASSP.2007.367228

Data Driven Approach for Language Model Adaptation using Stepwise Relative Entropy Minimization
http://dx.doi.org/10.1109/ICASSP.2007.367192

2007-06-10 Sun

WMT07 Shared task [segmentation][lm][mt]

かなり前に公開されていたらしい。
単語分割込みの機械翻訳の話がいくつか。

Can We Translate Letters?
文字列単位のフレーズベース機械翻訳

An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation (Robert Moore and Chris Quirk)

Efficient Handling of N-gram Language Models for Statistical Machine
Translation Marcello Federico and Mauro Cettolo

これは言語モデルの扱いの話。
巨大なモデルのパラメータ推定、デコードの実装よりの話がある。

2007-05-01 Tue

言語モデルの評価について [lm]

パープレキシティは簡単な比較をするためには便利だけれど、
特徴を分析して改良のヒントを探すためには粗すぎる。

というわけでもっと細かい評価の方法:

1. テストコーパスを文程度のレベルで区切って、
長さ正規化された確率降順でセグメントをランキング

2. 正解単語と予測単語の確率順リストを照らし合わせたときの、
reciprocal rank の分布とか推移

大規模コーパスを使ってテストする場合には、
細かすぎるかもしれない。
その場合は、適当な長さ・個数の区間をサンプリングしてやる。

どの評価指標を使うかは、目的や応用による。
確率スコアそのものは使わなくて、順位付けだけを使う場合には、
平均順位が有効だろうし、
スコアを使って足したり引いたりする場合には、
スコアそのものを使うパープレキシティが有効だろう。

順位を使うものとパープレキシティ以外には、
負例を入れた識別性能でみる discriminative language model with negative examples が有効。

2007-04-30 Mon

2007-04-21 Sat

WHOLE-SENTENCE EXPONENTIAL LANGUAGE MODELS -- A VEHICLE FOR LINGUISTIC-STATISTICAL INTEGRATION [lm][net]

<http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf>
長距離言語モデルの代表選手の一つ。

2007-04-20 Fri

Shaojun Wang [people][lm][stat][net]

<http://www.cs.wright.edu/~swang/>
Latent Maximum Entropyの人であり、
長距離言語モデルの代表選手の一人。

2007-04-18 Wed

構造主義言語学の音声-言語モデル [lx][lm]

青年文法学派(Junggrammatiker)の歴史言語学
〜プラーグ学派の音韻論
〜構造主義言語学の未知言語記述
〜生成文法の統語論
の流れを教えてもらった。

互いに交換可能である部分列を同じクラスに属するものとみなす。
同時に、その部分列をひとつのまとまりとみなす。

データ指向の自然言語処理は、この分野から多く学んでいるだろうし、
これからも学ぶ余地はあるのかもしれない。

2007-03-28 Wed

無限級数頻度による文脈拡張にもとづく言語モデル [lm][neta]

鈴木潤さん@NLP2007 のネタから。

N-gram言語モデルは長距離の依存関係を表現することができない。
文の識別モデルも、文をこえる依存関係の表現はできない。

云々

ある単語のベクトル表現を、
その前に出現する単語のベクトル表現*αの和とする。
和は種類ではなく出現ベースでとる。
このベクトル表現は再帰的な定義である。

ペナルティα付きの頻度情報として、
かなり長い文脈の、半分bag-of-words、半分N-gramな情報がはいる。


鈴木さんの方法のいいかたでいうなら、
すべての 2-gram を定義文、その後半を見出語として、
見出語のベクトル表現をつくるということ。

鈴木さんのときとくらべて語彙の統制がないぶん、
無限級数頻度じたいに、効率的な計算が必要かも。

ひとつの方向は、そのベクトル表現を使って文書のベクトル表現をつくり、
文書モデルに使うこと。

もうひとつの方向は、そのベクトル表現をふつうの単語の代わりにして、
ベクトル単位N-gram言語モデルをつくること。
ベクトルの長さ(数万)かけるNの次元数という、
おそろしいスパースさになるので、なんとかしないといけない。

N-gram の数万倍スパースって無理っぽいよ。

逆に、単純にスムージングなしでやると、
単語そのものの異なり数とベクトルの異なり数が同じ(もしくはベクトルの方が少ない?)ので、
ベクトル作ってる意味が全然ない。

2007-03-08 Thu

MLS は Voronoi 図 に落とせるんじゃないの? [lm][neta]

それとも additive weight Voronoi 図 か。
根拠はない。

Spatial Query Processing Utilizing Voronoi Diagrams

2006-12-21 Thu

podcastle [lm][sr][net]

<http://podcastle.jp/>
緒方さんの音声訂正が Wiki になった!(惹句)

2006-12-21 Thu

Distributional Approaches to NLP [lm][net]

<http://cl.naist.jp/thesis/dthesis-mochi.pdf>
Daichi Mochihashi さんの博士論文

構造の知識 vs. 分布の知識 という対比

2006-11-22 Wed

Language Modeling for Information Retrieval Resources [lm][ir]

<http://sifaka.cs.uiuc.edu/lmir/>

2006-10-04 Wed

Julius によるオフライン音声認識 for Windows [sr][lm]

目的:wav2txt
動かすだけなら、すごく簡単です。
まともに使えるようにするのは、かなり大変です。

Julius ディクテーションキットをダウンロードする。

fast.jconf の
-input
-sscalc
などを適切に編集する。

run_fast.bat
として動かす。


Julius は基本的にはデコーダ。
雑音通信路モデルでいうと、
・通信路モデルに相当する triphone HMM の定義
・情報源に相当する 3-gram 言語モデル
さらに、
・言語モデルの単語に対する読みの辞書
を必要とする。

HMM は対象音声の特性にあったもの、
言語モデルは対象分野にあったものが望ましい。
特に背景雑音が音響モデルの想定外な音声や、
標本化周波数が音響モデルの想定外な音声は、
ほとんど認識できない。
背景雑音はともかく、
標本化周波数は、人間が聞いた場合はあまり違いがないように聞こえるので、
注意が必要。

本来、背景雑音や標本化周波数は、
よりクリアな方が認識しやすい、という程度の意味しかないが、
それは音響モデルがその条件に合わせて訓練されている、
という前提が成り立っての話。

音響モデルをつくるには、

Powered by chalow
inserted by FC2 system