<http://www.springerlink.com/content/v6mn41027420jp56/>
http://www.cs.jhu.edu/~junwu/publications.html
文脈中のhead word素性、近接Nグラム素性(通常のNグラムに相当)、単語のクラス素性、
SVMでもちいられている多くのカーネルと、
MEなどでもちいられている組み合わせ素性を比較した場合、
カーネルは可読性が低い。
MEの組み合わせ素性は、それの重みをみることで簡単にどの組み合わせが有効かをみることができる。
一方、カーネル法の場合、カーネル関数のどの項をけずった場合に性能が劣化するかを見る、
などの間接的な方法しかとれない。
これを解決するため、すべての組み合わせを列挙することに相当するpower set kernelと
その高速な計算法を提案した。
<http://cl.naist.jp/~masayu-a/article/2006-05-26.pdf>
Feed Forward Neural Networks (Multi-layer Perceptron)と Baysian Networks (Belief Networks) は、DAG で表現された学習・推論のモデルであるという点で似ている。
FFNNでは、1つのノードは入力の線形和に対する閾値関数として定義され、
線形和の重みと閾値関数(典型的には閾値そのの)が、1つのノードのパラメータ。
BN では、1つのノードは入力確率変数に対する条件付き確率分布として定義され、
離散確率変数を用いる場合は全組み合わせの確率表(Conditional Probability Table)、
連続確率変数を用いる場合はそのパラメータが、1つのノードのパラメータ。
FFNNでは有向グラフの向きに沿って、入力値が加工されていき、
最後の出る辺がないノードから、出力値が出される。
BNでは観測変数が入力されると、
そこから有効グラフの向きに沿って、もしくは逆流して、ノードの確率表が埋められてゆく。
隠れ変数の確率表が埋められたら、それが出力となる。
neural networks と baysian networks のからみの一例として
sigmoid belief networks がある。
Mean Field Theory for Sigmoid Belief Networks - Saul, Jaakkola, Jordan (1996)
BNのノードは一般にFFNNのノードよりも多くの情報を持つが、
特に各ノードの条件付き確率分布を入力の確率の線形和にsigmoidを掛けた関数とした場合のBNは、
ニューロンの閾値関数がsigmoidになったFFNNに一致する。
ただし、信号が伝わる方向がDAGの方向とは限らなくて、
誤差逆伝播のかわりに、
ベイズ則を使って隠れ変数ノードのパラメータを求める。
解析的には求まらないので、サンプリングかvariational bayes法(平均場近似)を用いるのが一般的。
もっと深い解説は http://d.hatena.ne.jp/higotakayuki2/20070712/p2#c
変分ベイズ - 朱鷺の杜Wiki
ベイジアンネット - 朱鷺の杜Wiki
ニューラルネット - 朱鷺の杜Wiki
Markov確率場 - 朱鷺の杜Wiki
Frequently asked questions about Bayesian methods for neural networks
<http://164.67.141.39:8080/ramgen/ipam/smil/7-28-05-pm-2.smil>
Lafferty先生によるCRFチュートリアルのビデオ
<http://research.microsoft.com/users/znie/icml2005_2D-CRF.pdf>
However, as the information on a Web
page is two-dimensionally laid out, previous
linear-chain CRFs have their limitations for Web
information extraction.
<http://research.microsoft.com/~meek/>
Factorization of discrete probability distributions
対数線形モデルとマルコフ確率場の等価性をあたえた Hammersley-Clifford theorem の拡張
Collaborative filtering
ついでに。
Hammersley-Clifford theorem は原典が出版されてないので、
教科書とかを見る必要がある。
WebならStochastic processes notesの3章とか。
<http://www.cs.ubc.ca/~murphyk/Bayes/bayes.html>
directed graphical model が中心だけど、
undirected model の文献紹介もある。
graphical models な講義
10-708 Probabilistic Graphical Models, Fall 2006
EE512
Algorithms for Graphical Models (AGM)
講義資料を見るだけでは、講義に参加した場合と比べて、ほとんど理解できない。
ビデオが見られると、音声、表情、動きで伝えられる情報が加わるので、講義に参加した場合にかなり近づく。
そうでない場合は、そこで紹介されている本の副読本くらいの位置付けで見るのがいいと思う。
<http://www.cs.wisc.edu/~jerryzhu/>
Semi-supervised learning 専門家。
NLPよりでもある。
<http://www.cs.arizona.edu/classes/cs645/spring07/index.html>
PRML輪講
<http://shinh.skr.jp/expwolf/>
Naive Bayes 分類器で、人狼か人間かを当てる。
ソースはアップされてないから確証はないけど、
きっと各人の全発言を単語1-gramモデルで捉えて、
人狼分布と人間分布と、狼・人の事前分布を学習してやってるんだと思う。
狼に関しては裏で通信してるので、おもてにもそれが反映されているはず、
という仮定をしてみる。(たとえば、2人の狼が、裏でつかっていた表現を表で無意識につかってしまうとか)
これを捉えるためには、発言を単語1-gramではなくて、
自分+それ以外だれか一人との同時分布だとかにすると良いかも。
複合単語+キャラクタIDな素性。
一人の全発言をまとめて1-gramにするのではなくて、
それまでの全員の全発言からの条件付分布にするのが妥当だと思う。
でも全発言は無理なので、前10発言
本格的にモデル化するなら、
一人ずつ判定するのをやめて、
全人数=n choose おおかみの人数=w(最大で 15 choose 3 = 15*14*13/3/2/1ので、まあ多すぎはしない)
素性は選ばれたw人の全発言単語同時分布でやってみる。
一般化すれば、テキストに基づく嘘発見器。
ベイジアン占い師です。
点推定でなく分布を推定します。
<http://www.kecl.ntt.co.jp/as/members/fujino/papers/AAAI05-Fujino.pdf>
Fujino, A., Ueda, N., and Saito, K., "A hybrid generative/discriminative approach to text classification with additional information," Information Processing & Management, Elisevier (in press).