01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
<http://www.cs.cmu.edu/~roni/>
Adaptive Statistical Language Modeling: A Maximum Entropy Approachの人。
Language and Statistics 2007他。
<http://videolectures.net/>
講義動画を集めるサイト。
機械学習関係の講義がとても多い。
<http://citeseer.ist.psu.edu/ostendorf95from.html>
HMMの拡張である Hidden semi-Markov Models または Segmental HMM。
遷移のときにシンボル列を出力する。
<http://homepage.mac.com/tokuda.cs/iw/index.html>
コンピュータ科学の絵本
<http://research.microsoft.com/users/znie/icml2005_2D-CRF.pdf>
However, as the information on a Web
page is two-dimensionally laid out, previous
linear-chain CRFs have their limitations for Web
information extraction.
<http://research.microsoft.com/~meek/>
Factorization of discrete probability distributions
対数線形モデルとマルコフ確率場の等価性をあたえた Hammersley-Clifford theorem の拡張
Collaborative filtering
ついでに。
Hammersley-Clifford theorem は原典が出版されてないので、
教科書とかを見る必要がある。
WebならStochastic processes notesの3章とか。
<http://www.cs.wisc.edu/~jerryzhu/pub/wsme-csl-00.pdf>
長距離言語モデルの代表選手の一つ。
<http://www.cs.ubc.ca/~murphyk/Bayes/bayes.html>
directed graphical model が中心だけど、
undirected model の文献紹介もある。
graphical models な講義
10-708 Probabilistic Graphical Models, Fall 2006
EE512
Algorithms for Graphical Models (AGM)
講義資料を見るだけでは、講義に参加した場合と比べて、ほとんど理解できない。
ビデオが見られると、音声、表情、動きで伝えられる情報が加わるので、講義に参加した場合にかなり近づく。
そうでない場合は、そこで紹介されている本の副読本くらいの位置付けで見るのがいいと思う。
Like Flickr, but without the photos.
ソーシャル辞書というか、単語リストの collabolative filteringというか。
好きな単語を投稿していき、コメントを付けていく。
(Thu May 3 17:32:43 2007)
http://labs.cybozu.co.jp/blog/akky/archives/2006/12/wordie.html
タグ「だけ」でコミュニティを作ったり、他人とつながったりできるサービス、ということらしい
腑に落ちた。
wordie はタグだけあってコンテントがないという、
革新的すぎるソーシャルタギング。
画像やウェブページのソーシャルタギングからwordieにリンクすると、
wordieはタグとタグの関係を定義するオントロジーみたいなものとして機能する。
コンパクトな日本語文法の本。
学校文法から現在の文法研究に何歩か踏み出したところ
というはしがきの言葉のとおり、学校文法が扱わない細かい現象をそれなりに網羅している。
文例も豊富。
参考文献へのポインタがもう少し細かく用意されているとありがたい。
「ている」の特徴は、未完了と完了の両方の解釈があるという点。
つまり、
未完了で進行中(「いま終わっているところなので、少し待ってください」、のように)と、
完了していて結果を述べている(「そのときにはもう終わっているから、大丈夫だ」のように)。
それぞれの解釈の選ばれやすさは、動詞や文脈によって変わる。
<http://www.librarything.com/>
本のための collaborative filtering。
17万人のユーザーと14万件のレビューとそのタグ付けがある。
日本語だと本棚.orgとかブクログとかがあるけど、
これだけ大規模でオープンになっているのは、他になさそう。
量が多ければ多いほどカバー率があがり、信頼性が高くなる(はず)
洋書の教科書の定番を探したりするのにはとても便利だと思う。
たとえば http://www.librarything.com/tag/computational+linguistics
UIの日本語版がないのはいいとして、
日本語の書籍名の検索が amazon.co.jp を指定してもできないのはつらい。
でも、import で amazon.co.jp のウィッシュリストページからとれる。
amazon は量的には LibraryThing を超えるだろうけれど、
LibraryThing はオンラインで買われなかった本にも到達できる。
c.f. LibraryThing Creates World’s Worst Recommendation Engine
チュートリアルマニアなので。
樺島祥介 (東京工業大学大学院総合理工学研究科)
“More is different”の話
Lecture Note: PDF
渡邊澄夫 (東京工業大学精密工学研究所)
物理学者でない人のための統計力学
lecture note もアップされてる。
情報探索入門の本。
どちらかというと文系よりで、文書を対象とした調べ物のやり方がかかれている。
「参考図書」は「貸出し禁止である」ことが必要充分条件だと思っていたけどそうではなかったらしい。
汎用の百科事典、専門の百科事典、書誌(bibliography, annotated bibliography)の本質は、
他の文献や適切なキーワードへのポインタを得るための検索ツール。
図書館(他の図書館ふくむ)にある本を探すための本なので、貸し出す必要がないということ。
人力検索の元祖、レファレンスの実態も、シナリオを挙げて、詳しく紹介されていた。
Web上にも、レファレンス協同データベースに実例がたくさんある。
人間の言語すべての音声単位すべての集合、つまり、現在世界にある音声単位と、これから生まれるかもしれない音声単位全てを合わせた集合は有限なのか?
ここでいう音声単位の意味は phonemic な単位、つまり、言語内の音素ではなく、International Phonetic Alphabet が記述するような、phonetic な単位。
ひとつの見方:
人間が音声を出す仕組みは進化上ひとつの最適値に落ちていて、
多くの人が従うような、効率的な発声の仕方は限られた種類しかなくて、
各言語はその集合からいくつかを選びとってできている。
日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだにはいくつかの別の音声単位があるかもしれないが、
あるとしても有限個数だけ。
別の見方:
ある集団である弁別素性が使われるのは、その集団でその弁別素性が流行ったからで、音声を出す仕組みは生後に習得されている。
だから、どのような音声が流行るかによって習得される弁別素性は変わる。
日本語の「あ」と英語のAhは似ているけれど違う音声単位。
そのあいだには無数の音声単位が作られる可能性がある。
音韻理論ハンドブック
を見るかぎりでは、この問題はオープンであるように読めた。
たぶん、言語器官か汎用学習モジュールかというのと同じような問題なのかも?
IPSJ-SIG 2007-SLP-65 より。
PodCastleがすばらしいのは、
研究者とユーザーが、いわゆるwin-winな関係で直接つながっていることだと思う。
音声認識システムはユーザーに音声ファイルの全文検索を提供する。
ユーザーは音声認識システムに訂正情報を提供する。
ユーザーが教師データを容易に提供できるというタスクの性質、
その作業をスムーズにさせてくれるUIへの尽力がすばらしい。
おそらく検討されていると思うけれど、
字幕.inとの連携ができたらいいと思う。
字幕.inが音声・字幕アライメントの入出力APIを提供し、
Podcastleがそれを受けとったり書き込んだりする。
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
最終更新時間: 2009-02-01 00:57
Powered by chalow