前の月 / 次の月 / 最新

~matubara/ChangeLog / 2007-03移動しました

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

2007-03-29 Thu

音声の構造的表象を通して考察する幼児の音声模倣と言語獲得 [audio][sr][nlp]

AIチャレンジ研究会24回の資料の峯松先生の論文。

「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、
N個の点集合が作る形とNxNの距離行列の等価性。
参考:距離 - 朱鷺の杜Wiki

注目している集合が閉じている(音素、音韻)ことと開いている(語彙)ことが、
音声処理と言語処理のあつかう対象の大きな違いだと思った。

第一著者は絶対音感を持っており、この階名での書き起こしが全くもって理解できない一人である。異なる音高に同一の音ラベルを振ることなど、全く理解不能である。
異なる話者間で「あ」の同一性が感覚できない人がいるのだろうか?
感覚できない「機械」が(中略)音声認識器である。
感覚できない「人」として、一部の自閉症者がいる。


極端な音声の絶対音感を持つと考えられる自閉症者にとって、物理的に異なる特性を持つ話者Aの音とBの音を「同一音」として認知する健常者の感覚こそ、想像を絶するものではないかと推測する。
異なる二音を「あ」と感覚できる健常者の認知能力が、音の絶対項に基づくものなのか、あるいは、音間の相対項に基づくものなのか


音声コミュニケーションに障害のある自閉者に対する健常者を、
絶対音感をもつ人に対する健常者に並行させる議論は魅力的だと思った。

彼らのグループが作った「音声から単語をメロディーのようにして認識する」システムは、
非シンボル的な相対音感に対応する。(と思う)

「構造表象」生得主義のようにも見えるけれど
この論文だけでは詳細が分からないので、参考文献をあたる必要がある。

峯松先生の過去の招待講演から
http://www.gavo.t.u-tokyo.ac.jp/%7Emine/paper/PDF/2006/speech_as_music.pdf

2007-03-28 Wed

無限級数頻度による文脈拡張にもとづく言語モデル [lm][neta]

鈴木潤さん@NLP2007 のネタから。

N-gram言語モデルは長距離の依存関係を表現することができない。
文の識別モデルも、文をこえる依存関係の表現はできない。

云々

ある単語のベクトル表現を、
その前に出現する単語のベクトル表現*αの和とする。
和は種類ではなく出現ベースでとる。
このベクトル表現は再帰的な定義である。

ペナルティα付きの頻度情報として、
かなり長い文脈の、半分bag-of-words、半分N-gramな情報がはいる。


鈴木さんの方法のいいかたでいうなら、
すべての 2-gram を定義文、その後半を見出語として、
見出語のベクトル表現をつくるということ。

鈴木さんのときとくらべて語彙の統制がないぶん、
無限級数頻度じたいに、効率的な計算が必要かも。

ひとつの方向は、そのベクトル表現を使って文書のベクトル表現をつくり、
文書モデルに使うこと。

もうひとつの方向は、そのベクトル表現をふつうの単語の代わりにして、
ベクトル単位N-gram言語モデルをつくること。
ベクトルの長さ(数万)かけるNの次元数という、
おそろしいスパースさになるので、なんとかしないといけない。

N-gram の数万倍スパースって無理っぽいよ。

逆に、単純にスムージングなしでやると、
単語そのものの異なり数とベクトルの異なり数が同じ(もしくはベクトルの方が少ない?)ので、
ベクトル作ってる意味が全然ない。

無限級数頻度素性をもちいたベクトル空間モデルによるNBテキスト分類 [learning][neta]

Failure Trends in a Large Disk Drive Population [hw]

<http://labs.google.com/papers/disk_failures.pdf>

The figure shows that failures do not increase when the average temperature increases. In fact, there is a clear trend showing that lower temperatures are associated with higher failure rates. Only at very high temperatures is there a slight reversal of this trend.


slashdot

2007-03-25 Sun

アンケート詳細:Googleの大規模日本語データ公開に関する特別セッション [corpus][net]

<http://d.hatena.ne.jp/uchiuchiyama/20070321/details_about_google_questionnaire>

現在,提供データの候補として単語 n-gram および文節係り受けを考えています.ご自身の研究で利用してみたいデータは以下のいずれでしょうか?(ひとつ選択)

   1. 単語 n-gram
   2. 文節係り受け
   3. 単語 n-gram と文節係り受けの両方
   4. どちらも利用したいと思わない

1.

かかりうけはまだ使ったことがないので、手持ちのプログラムの中にすぐには取り込めない。

前問で3. とお答えになった方にお聞きします.データサイズに制限がある場合,以下のいずれの形態を希望されますか?(ひとつ選択)

   1. n-gram のみ希望する
   2. 係り受けのみ希望する
   3. データが少なくなってもいいので,n-gram と係り受けの両方を希望する
  * 比率は,n-gram:係り受け = ___:___
   4. その他(自由記入:


単語 n-gram および文節係り受け以外で望ましいデータがありましたら,ご記入ください.ただし,生文の公開は現状では困難です.(自由記入:
形態素の品詞情報は必要でしょうか?

   1. n-gram/係り受けの数が少なくなっても良いので,必要
   2. n-gram/係り受けの数が少なくなるなら,必要ない
   3. その他(自由記入:

文字N-gramと頻度一定以上の全文字列。

共有部分が大きいものは適当に縮約して。

係り受けを用いる場合,文節単位の部分解析木を提供することを予定しています.どのような部分木が重要でしょうか?例文として「私は秋の京都が好きだ」を用います.(複数選択可)

   1. 係り元文節と係り先文節のペアのみ
  * 例:私は-好きだ,秋の-京都が,京都が-好きだ
   2. 係り関係のチェイン
  * 例:秋の-京都が-好きだ
   3. 兄弟関係にある文節および係り先文節
  * 例:[私は,京都が,好きだ]
  * この場合,元の語順により部分木を区別(すべき|すげきではない)
   4. その他(自由記入:

1.

スキップ2-gramの一種としてみれるので、自分にとって使いやすい。

文節単位ではデータが非常にスパースになる可能性があるため,次のような処理をすることを検討しています.どのような処理が適切でしょうか?

   1. 文節を主辞と付属語(存在する場合)のペアでまとめる
   2. 1. に加え,たとえ長い文節でも高頻度であれば候補に含める
   3. その他(自由記入:

2.

形態素解析が細かすぎることを想定すると、主辞だけでは不十分な気がする。

形態素解析や係り受け解析を行う際,どのツールを使うべきでしょうか?(一つ選択

   1. ChaSen(MeCab),CaboCha
   2. Juman,KNP
   3. その他,オープンソースのツール等あればお知らせください(自由記入:

2.

これは今回の年次大会でJumanの話を何度か聞いたため。
ChaSenは特に名詞の生産性を考慮しない方針が強く、
誤りを減らせるなら辞書に長い名詞を登録するという方針らしい。
Jumanは形態素解析レベルでは切れるところを切りまくるという方針らしい。

Webには,絵文字やアスキーアートといった非言語的な文字列も混在しています.それらの文字列はどのように扱うべきでしょうか?

   1. 区別無く全て含める
   2. 簡単なヒューリスティックス(文字列長,漢字/ひらがなの割合等)でスクリーニングする
   3. その他,オープンソースのツール等あればお知らせください(自由記入:

2.

顔文字やアスキーアートを的確に解析して記述することは、
理論的にも技術的にもそれなりにチャレンジングな課題だと思う。
現状は、Webの生データを見て解析に挑戦する、という段階だと思う。

言語データとしてはアスキーアートが入っている文書はまるごと無視するほうが、
ノイズが入るよりも有益かと。

n-gram/係り受けについては,データサイズ等の関係から低頻度のものはフィルタリングする予定でいます.それに加えて必要と思われるフィルタリングがありましたら,御記入下さい(自由記入:


長く高頻度な文字列のフィルタリング。

ユーザ側でやってもよい処理。
ノイズを減らすというより、データ削減のためのフィルタリング。

配布データを使った研究を行いたいですか?

   1. はい
   2. いいえ
   3. 分からない
データを使ってどういった研究をしたいとお考えですか?またどんな応用が考えられますか?(自由記入:

単語分割に文字N-gram。

その他ご意見があればお知らせください(自由記入:

このアンケートの結果をできる範囲で公開してほしい。

経験豊富な方がたくさんいると思うので、
考えを聞きたい。

2007-03-23 Fri

Levenshtein Automata を用いた顔文字コピペの認識とクラスタリング [neta]

編集距離k以下マッチングにより微妙な差し替えに対応する

2007-03-13 Tue

anond.hatelabo.jp をトポロジカルソート [neta]

2007-03-12 Mon

X(7) manual page -- Display Names [linux][net]

<http://www.xfree86.org/current/X.7.html#sect4>

hostname:displaynumber.screennumber

Cygwin でソースから入れるときの依存確認 [cygwin][net]

 9. DLL を $CYGWIN/bin からコピー
 
     DLL コピー後の状態 $XYZZY/bin/w3m-0.5.1/
 
     $XYZZY/bin/w3m-0.5.1/
      ├ cygcrypto-0.9.8.dll
      ├ cygiconv-2.dll
      ├ cygintl-3.dll
      ├ cygssl-0.9.8.dll
      ├ cygwin1.dll
      ├ cygz.dll
      ├ inflate.exe
      ├ mktable.exe
      ├ w3m.exe
      ├ w3mbookmark.exe
      ├ w3mhelperpanel.exe
      └ w3mimgdisplay.exe
 
 10. DLL が必要な DLL 確認
 
     $ strings *.dll | grep '\.dll$' | sort | uniq
     .dll
     Couldn't load Secur32.dll
     KERNEL32.dll
     cygcrypto-0.9.8.dll
     cygiconv-2.dll
     cygintl-3.dll
     cygssl-0.9.8.dll
     cygwin1.dll
     cygz.dll
 

http://ohkubo.s53.xrea.com/diary/20051119.html#p01

2007-03-11 Sun

大山崇のホームページ [people][geom][net]

<http://www.nirarebakun.com/>
計算幾何系のアプレットがたくさん。
Javaソースも置かれている。

位置情報を数値1つで表す手法「Z-ordering」 [ir][net]

<http://toremoro.tea-nifty.com/tomos_hotline/2007/03/p2p1zordering_d8ba.html>

Z-orderingは文字の通り空間をZのように埋め尽くし、一次元の数値で表してしまう技法だ。

空間充填曲線で敷き詰めたとき始点からその点まであるいた距離を、
ある点の座標として使う。

有限精度のN次元実数空間を非負整数で表すことができる。
ある種のインデキシング。

ユークリッド距離的に近い点同士はある程度近いインデクス値を持つので、
あらい距離でよければ次元数に依存せず、
整数引き算一発でできるというのがすごい。

Sparse Matrix [programming]

行列の和を計算するメソッドが

for ( i: 1 .. M )
 for ( j: 1 .. N )
  c[i][j] = a[i][j] + b[i][j]

なのは、まずい。
空間計算量はハッシュが均一と仮定するとO(非ゼロ要素数)だが、
時間計算量が O(次元数 ^ 2) になってしまい、 SparseMatrixにする意味がない。

イテレータでまわしましょう。

掛け算はどうするかなあ。

sparse matrix multiplication でぐぐるといろいろあるね。

2007-03-10 Sat

コミュニケーション能力を高めるために [lx][net]

<http://www.toyama-cmt.ac.jp/~kanagawa/language/communicate.html>
もっと良く話すための方法を多角的に論じている。
三森ゆりかの言語技術をベースにした、応用編という感じ。

読んだけど後で読む。
ああ、意味が分からないですね。
流し読みしたけど、もう一回読んでちゃんと理解したいということ。

2007-03-09 Fri

Prof. Mark Johnson の Dirichlet processes and unsupervised grammar learning [segmentation]

Bayesian な 単語分割、文字列レベルから区切り
softwaresがすばらしい。
なにがすばらしいかというと、C++で書かれているのがすばらしい。

統計処理言語 R ってなんですか?

2007-03-08 Thu

MLS は Voronoi 図 に落とせるんじゃないの? [lm][neta]

それとも additive weight Voronoi 図 か。
根拠はない。

Spatial Query Processing Utilizing Voronoi Diagrams

2007-03-06 Tue

私のブックマーク「Web内容マイニング」人工知能学会誌, vol.22, no.2 (2007) [nlp][net]

<http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/22-2.html>
クローラ
HTMLパーサ
言語処理ツール
のブックマーク

perl -MEncode::Guess -e'$b = join q{}, <>; $e=guess_encoding($b, qw/euc-jp shiftjis 7bit-jis utf-8/); print $e->name, "\n"; print $e->decode(substr $b,0,100), "\n"'

2007-03-05 Mon

プログラミングを独習するには10年かかる [programming][net]

<http://www.yamdas.org/column/technique/21-daysj.html>
teach yourself * (days or weeks or months)

いくつかのプロジェクトで、一番のプログラマーになるか、そうでなければしんがりのプログラマーになること。あなたが一番なら、プロジェクトを指揮し、他の人達にあなたのビジョンをふきこむ能力を試す機会を持つことになる。あなたがしんがりならば、達人がやることを学び、彼らはどういういうことをやりたがらないか知ることになる(そうしたことはあなたにやらせようとするから)。

2007-03-04 Sun

浮動小数点演算を非lazyにする strictfp [java]

class やメソッドの前に付ける修飾子のひとつで、
これによって修飾されたブロックでは、
すべての浮動小数点演算の途中結果の精度が、値の型に応じた精度に限定される。
ぎゃくにいうと、
非strictfpな式では、途中でオーバーフローするような計算でもただしく求まってしまうかもしれないというのが、仕様。

http://en.wikipedia.org/wiki/Strictfp

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2009-02-01 00:57

Powered by chalow
inserted by FC2 system