ChangeLog 最新ページ / カテゴリ最新ページ / 1 2 3 次ページ / page 1 (3)

stat - ~matubara/ChangeLog移動しました

最終更新時間: 2009-02-01 00:57

2007-07-15 Sun

neural networks と bayesian networks [stat][learning]

Feed Forward Neural Networks (Multi-layer Perceptron)と Baysian Networks (Belief Networks) は、DAG で表現された学習・推論のモデルであるという点で似ている。

FFNNでは、1つのノードは入力の線形和に対する閾値関数として定義され、
線形和の重みと閾値関数(典型的には閾値そのの)が、1つのノードのパラメータ。

BN では、1つのノードは入力確率変数に対する条件付き確率分布として定義され、
離散確率変数を用いる場合は全組み合わせの確率表(Conditional Probability Table)、
連続確率変数を用いる場合はそのパラメータが、1つのノードのパラメータ。

FFNNでは有向グラフの向きに沿って、入力値が加工されていき、
最後の出る辺がないノードから、出力値が出される。

BNでは観測変数が入力されると、
そこから有効グラフの向きに沿って、もしくは逆流して、ノードの確率表が埋められてゆく。
隠れ変数の確率表が埋められたら、それが出力となる。

neural networks と baysian networks のからみの一例として
sigmoid belief networks がある。
Mean Field Theory for Sigmoid Belief Networks - Saul, Jaakkola, Jordan (1996)
BNのノードは一般にFFNNのノードよりも多くの情報を持つが、
特に各ノードの条件付き確率分布を入力の確率の線形和にsigmoidを掛けた関数とした場合のBNは、
ニューロンの閾値関数がsigmoidになったFFNNに一致する。
ただし、信号が伝わる方向がDAGの方向とは限らなくて、
誤差逆伝播のかわりに、
ベイズ則を使って隠れ変数ノードのパラメータを求める。
解析的には求まらないので、サンプリングかvariational bayes法(平均場近似)を用いるのが一般的。

もっと深い解説は http://d.hatena.ne.jp/higotakayuki2/20070712/p2#c

変分ベイズ - 朱鷺の杜Wiki
ベイジアンネット - 朱鷺の杜Wiki
ニューラルネット - 朱鷺の杜Wiki
Markov確率場 - 朱鷺の杜Wiki

Frequently asked questions about Bayesian methods for neural networks

2007-04-21 Sat

2D Conditional Randon Fields for Web Information Extraction [learning][stat]

<http://research.microsoft.com/users/znie/icml2005_2D-CRF.pdf>

However, as the information on a Web
page is two-dimensionally laid out, previous
linear-chain CRFs have their limitations for Web
information extraction.

2007-04-21 Sat

Chris Meek's Homepage [learning][stat][people][net]

<http://research.microsoft.com/~meek/>

Factorization of discrete probability distributions
対数線形モデルとマルコフ確率場の等価性をあたえた Hammersley-Clifford theorem の拡張
Collaborative filtering

ついでに。
Hammersley-Clifford theorem は原典が出版されてないので、
教科書とかを見る必要がある。
WebならStochastic processes notesの3章とか。

2007-04-21 Sat

Graphical Models [stat][learning][net]

<http://www.cs.ubc.ca/~murphyk/Bayes/bayes.html>
directed graphical model が中心だけど、
undirected model の文献紹介もある。

graphical models な講義
10-708 Probabilistic Graphical Models, Fall 2006
EE512
Algorithms for Graphical Models (AGM)

講義資料を見るだけでは、講義に参加した場合と比べて、ほとんど理解できない。
ビデオが見られると、音声、表情、動きで伝えられる情報が加わるので、講義に参加した場合にかなり近づく。
そうでない場合は、そこで紹介されている本の副読本くらいの位置付けで見るのがいいと思う。

2007-04-20 Fri

Shaojun Wang [people][lm][stat][net]

<http://www.cs.wright.edu/~swang/>
Latent Maximum Entropyの人であり、
長距離言語モデルの代表選手の一人。

2007-04-06 Fri

情報統計力学の深化と展開 チュートリアル [stat][net]

チュートリアルマニアなので。

       樺島祥介 (東京工業大学大学院総合理工学研究科)
            “More is different”の話
            Lecture Note: PDF
       渡邊澄夫 (東京工業大学精密工学研究所)
            物理学者でない人のための統計力学

lecture note もアップされてる。

2007-02-08 Thu

Gaussian Process で滑らかな関数を発生させる [perl][stat]

Gaussian Process は関数空間上の確率変数の一種。

#! /usr/bin/env perl
use strict;
use warnings;
use Math::Random qw/:all/;

my @xs = map { ($_/30) } (0..20);  # 関数への入力値列
my $n = scalar @xs;
my @v = map { my $x=$_; [map {exp -1/2*( ($x-$_)**2 )} @xs]} @xs; # カーネル
#my @v = map { [map 1, @xs] } @xs;
my @m = ((0)x$n);
print map join(qq{\n}, @$_).qq{\n\n},
  random_multivariate_normal(2, @m, @v); # 2個の出力値列が得られる。各列は入力値列に対応する。

入力値の刻みを細かくしたり、入力値の数を増やそうとすると破綻する。
たぶん、浮動小数点の誤差が問題になっている。

もっと細かく値をとりたいときは、
逆関数法で random_multivariate_normal
を実装するか、R使っとけと。

use bignum して exp を 0 周辺でテイラー展開するとか、
covariance matrix が対称行列になるように対象位置の値はコピーで作るとか、
やってみたが無効だった。

GPML pp.13--14 辺りを見て実装した。
# ちなみに入力を多次元化するときは、カーネルの$x-$_に square root 距離をかませればいいらしい。
GP が滑らかな関数を発生させる理由は、
カーネル関数の値、つまり入力値同士の「類似度」を covariance に指定しているから。
遠い入力値に対応する出力値同士は covariance が小さいので相関がないが、
近い場合は相関が強くて、
結果として、滑らかっぽい関数が出来上がる。
「前後の点の座標値とあまり離れない」という意味での滑らかさではなく、
「入力値が近ければ出力値が近い」という意味

2007-02-08 Thu

Math::Random で 多次元正規分布に従う乱数を発生させる [perl][stat]

random_multivariate_normal(N, mean_vector, covariance_matrix)

で、N 個のサンプルが帰ってくる。
mean_vector, covariance_matrix は配列へのリファレンスではなく、配列である必要がある。

perl -M'Math::Random qw/:all/' -e'print map join(qq{\t}, map {int($_ * 2) } @$_)."\n", random_multivariate_normal(100000,@m=(0,0),@v=([1,0],[0,1]))' | sort -g | uniq -c


インストール時、su していないと make install が通らなかった。

look Math::Random

して Makefile の /usr を ${HOME} に書き換えるとインストールできた。

2007-01-29 Mon

EDA(Estimation of Distribution Algorithm) [stat][learning][net]

<http://ibisforest.org/index.php?EDA>
Genetic Algorithm revisited

2007-01-28 Sun

統計学習 [stat][net]

<http://www.ec.kagawa-u.ac.jp/~hori/statedu.html>
統計の勉強リンク集

2007-01-28 Sun

Sharon Goldwater [segmentation][people][stat][net]

<http://www.stanford.edu/~sgwater/>
D論ゲット
Nonparametric Bayesian Models of Lexical Acquisition
いわゆるひとつの Unsupervised Morphological Segmentation です。

2006-12-06 Wed

2006-10-16 Mon

MUSASHI -- datamining [stat][net]

<http://musashi.sourceforge.jp/>
いわゆるひとつのデータマイニングツール。
ある時系列量を与えると、年間変動とノイズと長期的変動を分離したりできると思う。
(みてない)

2006-08-22 Tue

Fall 2005 Statistics (Jim Pitman) [stat][net]

<http://bibserver.berkeley.edu/205/lec_hwk.html>
伊庭先生おすすめの 確率論講義ノートがあるページ。
Pitman 先生です。

2006-08-01 Tue

2006-07-01 Sat

Probability Tutorials [book][math][stat][net]

<http://www.probability.net/>
確率論の演習がたくさん。
解答つき

2006-06-14 Wed

Language Modeling with the Maximum Likelihood Set -- Complexity Issues and the Back-off Formula [lm][stat]

<http://www.ipam.ucla.edu/publications/ds2006/ds2006_5861.pdf>
Maximum Likelihood Set [2006-04-06-4] 応用の解説プレゼン。

最尤推定では、単体上で格子状の点集合のどれかしかとれず、
周縁に位置することにより、0確率がたくさんできてしまう。

可能な点集合(確率分布の集合)は格子状だが、
観測データはそのなかの1点となる。
MLSはそれを囲むある領域のこと。
直感的には、平面の多角形(超平面の凸多面体)分割で、最近傍サイト共有クラスタという感じ。
その多角形の中の点のうち、参照分布の点に一番近い点を解とする。

参照に使うのは、最尤推定とかだと悪いところをそのまま受け継いでしまうので、
スムージングされた分布か、
次元がすごく少ない分布がいいかも。
逆に言うと、そういう参照分布しか手に入らないような場合に有効な気が。
ドメイン適応とか。

実験結果では、
Modified-Kneser-Ney などと比較して、それを参照分布としたときのMLS法は、
パープレキシティ、WERで、
よくなったり悪くなったりという、いまいちな結果。

MLSの領域基準にパラメータを入れて(「ほかのα倍より大きい」)やったバージョンでは、
一応常に改善したらしい。

あと、未知N-gram数は結構減っている。

主張としては、MLS が証拠と参照を裏切らない(カウントが大きければ確率が高い、とか)
のが良い効果を生むだろうということだと思う。
実際、Kneser-Ney は結構裏切るらしい。
パープレキシティは同じでも、中身は結構(よい方へ)違っているのだ、といっている。

理論的に非常にきれいで、分かりやすいのがすばらしい。
証明は多分大変だろうけど。

パラメータフリーであることも長所?
上記のαは、分割してできる領域の平均半径とかで、うまくいくらしい。
それくらいのチューニングの余地を残しておいてもよい気はするが。
αが大きいと、経験分布より参照分布を信頼するようになる。

で、肝心の最適化の手法が分からないんですが。
MLSの不等式制約による表現を見ると、
線形計画問題に落とされているっぽい。
ただ、参照分布にもっとも近いのを選ぶのは不明。
Convex Optimization だとは書いてあるが…

最尤推定に近すぎるんじゃないかとU氏。

枠組みとしては、参照分布とαの選び方に自由度がある。

2006-06-10 Sat

2006-06-06 Tue

2006-06-06 Tue

Volker Tresp. Dirichlet processes and nonparametric bayesian modelling. [stat][net]

<http://wwwbrauer.in.tum.de/~trespvol/papers/DPTresp2006.pdf>

Powered by chalow
inserted by FC2 system