前の月 / 次の月 / 最新

~matubara/ChangeLog / 2007-04移動しました

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

2007-04-30 Mon

2007-04-24 Tue

空白行をスキップせずに行番号をつける [linux]

nl -ba

国語音韻の変遷 [lx][net]

<http://www.aozora.gr.jp/cards/000061/files/377_2754.html>
イ(甲)、イ(乙)の原典。

むかしの日本語には母音が七つあったという話。

2007-04-23 Mon

windows サーバーでの ntp の設定 [win]

net time

で現在の設定が見られる。

ドメインのクライアントはドメインのサーバーに同期し、
ドメインのサーバーは外部のNTPサーバーに同期するという設定の場合、

ドメインのサーバーで

net time /setsntp:ntp.nc.u-tokyo.ac.jp


ドメインのクライアントはデフォルトでそうなっている。

2007-04-22 Sun

VideoLectures - exchange ideas & share knowledge [research][learning][net]

<http://videolectures.net/>
講義動画を集めるサイト。
機械学習関係の講義がとても多い。

From HMMs to Segment Models -- A Unified View of Stochastic Modeling for Speech Recognition - Ostendorf, Digalakis, Kimball (ICASSP1996) [sr][learning][net]

<http://citeseer.ist.psu.edu/ostendorf95from.html>
HMMの拡張である Hidden semi-Markov Models または Segmental HMM。
遷移のときにシンボル列を出力する。

はじめて出会うコンピュータ科学 [book][net]

<http://homepage.mac.com/tokuda.cs/iw/index.html>
コンピュータ科学の絵本

2007-04-21 Sat

2D Conditional Randon Fields for Web Information Extraction [learning][stat]

<http://research.microsoft.com/users/znie/icml2005_2D-CRF.pdf>

However, as the information on a Web
page is two-dimensionally laid out, previous
linear-chain CRFs have their limitations for Web
information extraction.

Chris Meek's Homepage [learning][stat][people][net]

<http://research.microsoft.com/~meek/>

Factorization of discrete probability distributions
対数線形モデルとマルコフ確率場の等価性をあたえた Hammersley-Clifford theorem の拡張
Collaborative filtering

ついでに。
Hammersley-Clifford theorem は原典が出版されてないので、
教科書とかを見る必要がある。
WebならStochastic processes notesの3章とか。

WHOLE-SENTENCE EXPONENTIAL LANGUAGE MODELS -- A VEHICLE FOR LINGUISTIC-STATISTICAL INTEGRATION [lm][net]

<http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf>
長距離言語モデルの代表選手の一つ。

Graphical Models [stat][learning][net]

<http://www.cs.ubc.ca/~murphyk/Bayes/bayes.html>
directed graphical model が中心だけど、
undirected model の文献紹介もある。

graphical models な講義
10-708 Probabilistic Graphical Models, Fall 2006
EE512
Algorithms for Graphical Models (AGM)

講義資料を見るだけでは、講義に参加した場合と比べて、ほとんど理解できない。
ビデオが見られると、音声、表情、動きで伝えられる情報が加わるので、講義に参加した場合にかなり近づく。
そうでない場合は、そこで紹介されている本の副読本くらいの位置付けで見るのがいいと思う。

2007-04-20 Fri

Shaojun Wang [people][lm][stat][net]

<http://www.cs.wright.edu/~swang/>
Latent Maximum Entropyの人であり、
長距離言語モデルの代表選手の一人。

2007-04-18 Wed

構造主義言語学の音声-言語モデル [lx][lm]

青年文法学派(Junggrammatiker)の歴史言語学
〜プラーグ学派の音韻論
〜構造主義言語学の未知言語記述
〜生成文法の統語論
の流れを教えてもらった。

互いに交換可能である部分列を同じクラスに属するものとみなす。
同時に、その部分列をひとつのまとまりとみなす。

データ指向の自然言語処理は、この分野から多く学んでいるだろうし、
これからも学ぶ余地はあるのかもしれない。

2007-04-17 Tue

Wordie [lx][filter][net]

<http://wordie.org/>

Like Flickr, but without the photos.

ソーシャル辞書というか、単語リストの collabolative filteringというか。

好きな単語を投稿していき、コメントを付けていく。

(Thu May 3 17:32:43 2007)
http://labs.cybozu.co.jp/blog/akky/archives/2006/12/wordie.html

タグ「だけ」でコミュニティを作ったり、他人とつながったりできるサービス、ということらしい

腑に落ちた。
wordie はタグだけあってコンテントがないという、
革新的すぎるソーシャルタギング。

画像やウェブページのソーシャルタギングからwordieにリンクすると、
wordieはタグとタグの関係を定義するオントロジーみたいなものとして機能する。

日本語文字列コード問題まとめ [python][net]

<http://python.matrix.jp/tips/string/encoding.html>

python + docutils で全角文字の幅計算が合わないらしい問題 [markup]

ReStructuredText ではテーブルをアスキーアート的に揃えてやらないと文法エラーになるわけですが、
日本語などの文字は monospace 時に2文字分の場所をとることになっているので、
重み付きで文字数を数えないといけない。
古い python + docutils はそれをやらないらしい。

python 2.4 以上、docutils 最新版なら大丈夫。

2007年4月17日時点で CentOS の stable では python が 2.3 なのに注意。

2007-04-12 Thu

加藤重広, 『日本語文法 入門ハンドブック』 [book][lx]

コンパクトな日本語文法の本。

学校文法から現在の文法研究に何歩か踏み出したところ

というはしがきの言葉のとおり、学校文法が扱わない細かい現象をそれなりに網羅している。
文例も豊富。
参考文献へのポインタがもう少し細かく用意されているとありがたい。

「ている」の特徴は、未完了と完了の両方の解釈があるという点。
つまり、
未完了で進行中(「いま終わっているところなので、少し待ってください」、のように)と、
完了していて結果を述べている(「そのときにはもう終わっているから、大丈夫だ」のように)。
それぞれの解釈の選ばれやすさは、動詞や文脈によって変わる。

2007-04-10 Tue

LibraryThing | Catalog your books online [filter][book][net]

<http://www.librarything.com/>
本のための collaborative filtering。
17万人のユーザーと14万件のレビューとそのタグ付けがある。

日本語だと本棚.orgとかブクログとかがあるけど、
これだけ大規模でオープンになっているのは、他になさそう。

量が多ければ多いほどカバー率があがり、信頼性が高くなる(はず)

洋書の教科書の定番を探したりするのにはとても便利だと思う。
たとえば http://www.librarything.com/tag/computational+linguistics

UIの日本語版がないのはいいとして、
日本語の書籍名の検索が amazon.co.jp を指定してもできないのはつらい。
でも、import で amazon.co.jp のウィッシュリストページからとれる。

amazon は量的には LibraryThing を超えるだろうけれど、
LibraryThing はオンラインで買われなかった本にも到達できる。
c.f. LibraryThing Creates World’s Worst Recommendation Engine

2007-04-06 Fri

情報統計力学の深化と展開 チュートリアル [stat][net]

チュートリアルマニアなので。

       樺島祥介 (東京工業大学大学院総合理工学研究科)
            “More is different”の話
            Lecture Note: PDF
       渡邊澄夫 (東京工業大学精密工学研究所)
            物理学者でない人のための統計力学

lecture note もアップされてる。

井上真琴, 『図書館に訊け!』 [ir][book]

情報探索入門の本。
どちらかというと文系よりで、文書を対象とした調べ物のやり方がかかれている。

「参考図書」は「貸出し禁止である」ことが必要充分条件だと思っていたけどそうではなかったらしい。
汎用の百科事典、専門の百科事典、書誌(bibliography, annotated bibliography)の本質は、
他の文献や適切なキーワードへのポインタを得るための検索ツール。
図書館(他の図書館ふくむ)にある本を探すための本なので、貸し出す必要がないということ。

人力検索の元祖、レファレンスの実態も、シナリオを挙げて、詳しく紹介されていた。
Web上にも、レファレンス協同データベースに実例がたくさんある。

音声弁別素性は有限か否か [sr]

人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?

ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic Alphabet が記述するような、phonetic な単位。

ひとつの見方:
人間が音声を出す仕組みは進化上ひとつの最適値に落ちていて、
多くの人が従うような、効率的な発声の仕方は限られた種類しかなくて、
各言語はその集合からいくつかを選びとってできている。

日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだにはいくつかの別の音声単位があるかもしれないが、
あるとしても有限個数だけ。

別の見方:
ある集団である弁別素性が使われるのは、その集団でその弁別素性が流行ったからで、音声を出す仕組みは生後に習得されている。
だから、どのような音声が流行るかによって習得される弁別素性は変わる。

日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだには無数の音声単位が作られる可能性がある。


音韻理論ハンドブック
を見るかぎりでは、この問題はオープンであるように読めた。
たぶん、言語器官か汎用学習モジュールかというのと同じような問題なのかも?

2007-04-02 Mon

PodCastleの実現:Web2.0にもとづく音声認識性能の向上について [sr]

IPSJ-SIG 2007-SLP-65 より。

PodCastleがすばらしいのは、
研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。
音声認識システムはユーザーに音声ファイルの全文検索を提供する。
ユーザーは音声認識システムに訂正情報を提供する。
ユーザーが教師データを容易に提供できるというタスクの性質、
その作業をスムーズにさせてくれるUIへの尽力がすばらしい。

おそらく検討されていると思うけれど、
字幕.inとの連携ができたらいいと思う。
字幕.inが音声・字幕アライメントの入出力APIを提供し、
Podcastleがそれを受けとったり書き込んだりする。

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2009-02-01 00:57

Powered by chalow
inserted by FC2 system