ChangeLog 最新ページ

neta - ~matubara/ChangeLog移動しました

最終更新時間: 2009-02-01 00:57

2007-09-29 Sat

TSPとしてのいろは歌(文字の都市) [neta][string]

文字2-gram確率の最大化だけを目的としたいろは歌生成は、
文字=都市の巡回セールスマン問題インスタンスに相当する。

日本語の音韻的制約(iaはあるけどiuはないとか)を反映した程度の
ゆるい文法性しか付与できないと思われる。

文字N-gram化することも可能だが、都市数が大きくスパースな移動コストの問題になる。

2007-03-28 Wed

無限級数頻度による文脈拡張にもとづく言語モデル [lm][neta]

鈴木潤さん@NLP2007 のネタから。

N-gram言語モデルは長距離の依存関係を表現することができない。
文の識別モデルも、文をこえる依存関係の表現はできない。

云々

ある単語のベクトル表現を、
その前に出現する単語のベクトル表現*αの和とする。
和は種類ではなく出現ベースでとる。
このベクトル表現は再帰的な定義である。

ペナルティα付きの頻度情報として、
かなり長い文脈の、半分bag-of-words、半分N-gramな情報がはいる。


鈴木さんの方法のいいかたでいうなら、
すべての 2-gram を定義文、その後半を見出語として、
見出語のベクトル表現をつくるということ。

鈴木さんのときとくらべて語彙の統制がないぶん、
無限級数頻度じたいに、効率的な計算が必要かも。

ひとつの方向は、そのベクトル表現を使って文書のベクトル表現をつくり、
文書モデルに使うこと。

もうひとつの方向は、そのベクトル表現をふつうの単語の代わりにして、
ベクトル単位N-gram言語モデルをつくること。
ベクトルの長さ(数万)かけるNの次元数という、
おそろしいスパースさになるので、なんとかしないといけない。

N-gram の数万倍スパースって無理っぽいよ。

逆に、単純にスムージングなしでやると、
単語そのものの異なり数とベクトルの異なり数が同じ(もしくはベクトルの方が少ない?)ので、
ベクトル作ってる意味が全然ない。

2007-03-28 Wed

無限級数頻度素性をもちいたベクトル空間モデルによるNBテキスト分類 [learning][neta]

2007-03-23 Fri

Levenshtein Automata を用いた顔文字コピペの認識とクラスタリング [neta]

編集距離k以下マッチングにより微妙な差し替えに対応する

2007-03-13 Tue

anond.hatelabo.jp をトポロジカルソート [neta]

2007-03-08 Thu

MLS は Voronoi 図 に落とせるんじゃないの? [lm][neta]

それとも additive weight Voronoi 図 か。
根拠はない。

Spatial Query Processing Utilizing Voronoi Diagrams

2007-02-14 Wed

音素交代アナグラム [lx][neta]

kotoba october
hatena hetana

2007-01-21 Sun

人狼BBS成分解析 [neta]

発言を全部見て、多クラス分類する。

本気で成分(生成モデルのパラメータ)解析。

2006-12-28 Thu

nandemo rss clone [neta]

なんでもRSSが対応できないのは、
日付が振られていない文章である。

baseline (original nandemo rss 予想)
HTMLの木を作る
 このとき、<a>xxx</a>yyy<b>zzz</b> は
 <a>xxx</a><nil>yyy</nil><b>zzz</b> にする
日付を特定する
全部のエレメントに日付を含むかどうかを振る
打ち切りレベルを上から下げていって木の断面をみる

2006-12-28 Thu

2006-12-28 Thu

重要語抽出(単語分割)とクラスタリング [neta]

斎藤先生の不審者情報メールのタスクでやれるかな?

教師なし適当単語分割をやって、
教師なし適当クラスタリング(VectorSpace x BottomUp)のあとに、

2006-12-21 Thu

whoiswerewolf [neta]

[2006-12-16-1]のつづき。

ネット上の人狼サービスを調べた。
“汝ハ人狼ナリヤ?”−−−「汝は人狼なりや?」情報まとめサイトに多くのサービスの情報が集積されている。
人狼BBS まとめサイト - FrontPage ninjinさんのサービスならここ。

人狼の悪夢村の数は800くらいで、ほとんど短期。勝利条件を変更する能力(キューピッド)など、選べるルールが多い。

2006-12-16 Sat

おおかみ見つけちゃうぞ [learning][neta][net]

<http://shinh.skr.jp/expwolf/>
Naive Bayes 分類器で、人狼か人間かを当てる。

ソースはアップされてないから確証はないけど、
きっと各人の全発言を単語1-gramモデルで捉えて、
人狼分布と人間分布と、狼・人の事前分布を学習してやってるんだと思う。

狼に関しては裏で通信してるので、おもてにもそれが反映されているはず、
という仮定をしてみる。(たとえば、2人の狼が、裏でつかっていた表現を表で無意識につかってしまうとか)
これを捉えるためには、発言を単語1-gramではなくて、
自分+それ以外だれか一人との同時分布だとかにすると良いかも。
複合単語+キャラクタIDな素性。

一人の全発言をまとめて1-gramにするのではなくて、
それまでの全員の全発言からの条件付分布にするのが妥当だと思う。
でも全発言は無理なので、前10発言

本格的にモデル化するなら、
一人ずつ判定するのをやめて、
全人数=n choose おおかみの人数=w(最大で 15 choose 3 = 15*14*13/3/2/1ので、まあ多すぎはしない)
素性は選ばれたw人の全発言単語同時分布でやってみる。


一般化すれば、テキストに基づく嘘発見器。

ベイジアン占い師です。
点推定でなく分布を推定します。

Referrer (Inside): [2006-12-21-4]

2006-12-04 Mon

p2p * sns [neta]

吉本晴洋, 繁富利恵, 副田俊介, 金子知適, 田浦健次朗, ``P2P人狼BBS, '' The 11th Game Programming Workshop, 2006


孤島から瓶を流す会
を実現したら、面白いことになるかも。

ランダムに誰かにコネクションをはる、
はられたコネクションは、どちらかが切るまで残る。

コネクション上では同期通信しかできない。
片方がしゃべって、ターンを渡したら、はじめて他方が喋れる。

孤島にはないけどあったらいいかも:
切られたコネクションの残骸を、集めて見れるようにする。

おなじ匿名だけど、2chと違って叩く人は、たぶん少ない。
相手がひとりと沢山、という違いからかな?

2006-02-13 Mon

Technological singularity - Wikipedia, the free encyclopedia [neta][net]

<http://en.wikipedia.org/wiki/Technological_singularity>
コンピュータの進化が加速度的に続いている → 人間の知性を越える臨界点が存在
→ 人間を越える知性は、さらに優れた知性を設計する

Good-Turing 法の Good も1965年に同じようなことをいっていたとか。

Powered by chalow
inserted by FC2 system