鈴木潤さん@NLP2007 のネタから。
N-gram言語モデルは長距離の依存関係を表現することができない。
文の識別モデルも、文をこえる依存関係の表現はできない。
云々
ある単語のベクトル表現を、
その前に出現する単語のベクトル表現*αの和とする。
和は種類ではなく出現ベースでとる。
このベクトル表現は再帰的な定義である。
ペナルティα付きの頻度情報として、
かなり長い文脈の、半分bag-of-words、半分N-gramな情報がはいる。
鈴木さんの方法のいいかたでいうなら、
すべての 2-gram を定義文、その後半を見出語として、
見出語のベクトル表現をつくるということ。
鈴木さんのときとくらべて語彙の統制がないぶん、
無限級数頻度じたいに、効率的な計算が必要かも。
ひとつの方向は、そのベクトル表現を使って文書のベクトル表現をつくり、
文書モデルに使うこと。
もうひとつの方向は、そのベクトル表現をふつうの単語の代わりにして、
ベクトル単位N-gram言語モデルをつくること。
ベクトルの長さ(数万)かけるNの次元数という、
おそろしいスパースさになるので、なんとかしないといけない。
N-gram の数万倍スパースって無理っぽいよ。
逆に、単純にスムージングなしでやると、
単語そのものの異なり数とベクトルの異なり数が同じ(もしくはベクトルの方が少ない?)ので、
ベクトル作ってる意味が全然ない。
それとも additive weight Voronoi 図 か。
根拠はない。
Spatial Query Processing Utilizing Voronoi Diagrams
"Name That Song!": A Probabilistic Approach to Querying on Music and Text (2003)をいんすぱいやして。
[2006-12-16-1]のつづき。
ネット上の人狼サービスを調べた。
“汝ハ人狼ナリヤ?”−−−「汝は人狼なりや?」情報まとめサイトに多くのサービスの情報が集積されている。
人狼BBS まとめサイト - FrontPage ninjinさんのサービスならここ。
人狼の悪夢村の数は800くらいで、ほとんど短期。勝利条件を変更する能力(キューピッド)など、選べるルールが多い。
<http://shinh.skr.jp/expwolf/>
Naive Bayes 分類器で、人狼か人間かを当てる。
ソースはアップされてないから確証はないけど、
きっと各人の全発言を単語1-gramモデルで捉えて、
人狼分布と人間分布と、狼・人の事前分布を学習してやってるんだと思う。
狼に関しては裏で通信してるので、おもてにもそれが反映されているはず、
という仮定をしてみる。(たとえば、2人の狼が、裏でつかっていた表現を表で無意識につかってしまうとか)
これを捉えるためには、発言を単語1-gramではなくて、
自分+それ以外だれか一人との同時分布だとかにすると良いかも。
複合単語+キャラクタIDな素性。
一人の全発言をまとめて1-gramにするのではなくて、
それまでの全員の全発言からの条件付分布にするのが妥当だと思う。
でも全発言は無理なので、前10発言
本格的にモデル化するなら、
一人ずつ判定するのをやめて、
全人数=n choose おおかみの人数=w(最大で 15 choose 3 = 15*14*13/3/2/1ので、まあ多すぎはしない)
素性は選ばれたw人の全発言単語同時分布でやってみる。
一般化すれば、テキストに基づく嘘発見器。
ベイジアン占い師です。
点推定でなく分布を推定します。
吉本晴洋, 繁富利恵, 副田俊介, 金子知適, 田浦健次朗, ``P2P人狼BBS, '' The 11th Game Programming Workshop, 2006
で
孤島から瓶を流す会
を実現したら、面白いことになるかも。
ランダムに誰かにコネクションをはる、
はられたコネクションは、どちらかが切るまで残る。
コネクション上では同期通信しかできない。
片方がしゃべって、ターンを渡したら、はじめて他方が喋れる。
孤島にはないけどあったらいいかも:
切られたコネクションの残骸を、集めて見れるようにする。
おなじ匿名だけど、2chと違って叩く人は、たぶん少ない。
相手がひとりと沢山、という違いからかな?
<http://en.wikipedia.org/wiki/Technological_singularity>
コンピュータの進化が加速度的に続いている → 人間の知性を越える臨界点が存在
→ 人間を越える知性は、さらに優れた知性を設計する
Good-Turing 法の Good も1965年に同じようなことをいっていたとか。