前の月 / 次の月 / 最新

~matubara/ChangeLog / 2006-01移動しました

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

2006-01-31 Tue

A comparison of continuous vs. discrete image models for probabilistic image and video retrieval(2004) [lm][ir][vis][net]

<http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=1421581>
画像検索

Polyphonic Music Modeling with Random Fields - Victor, Jeremy (2003) [audio][lm][net]

<http://citeseer.ist.psu.edu/victor03polyphonic.html>
Markov Random Field を利用した、音楽モデリング。
テキスト検索手法を音楽検索へ導入することを強く意識している。

パープレキシティ評価も。

Studying Recommendation Algorithms by Graph Analysis (2003) [filter][net]

<http://citeseer.ist.psu.edu/mirza03studying.html>

Perl で可変長整数、有理数 [perl]

use bigint;
print 5**100, "\n";


use Math::BigInteger;

とちがって、普通の演算が自動的に BigInteger になる。

Tociyuki-Diary - Tropy クローン [net][perl]

<http://d.hatena.ne.jp/tociyuki/20051114/1131982296>
entry.cgiから、
CGI の礼儀作法。

#!/usr/bin/perl -T
use lib qw(.);
use strict;
use warnings;
use Jcode;
-T は、taint。
use lib qw(.) は、Perl ライブラリのパスに . を追加する。

2006-01-30 Mon

Model-based Feedback in the Language Modeling Approach to Information Retrieval (2001) [nlp][lm][net]

<http://citeseer.ist.psu.edu/zhai01modelbased.html>
言語モデル的アプローチによる情報検索に、ユーザーからのフィードバックを上手く組み込む方法。

Harmonic Modeling for Polyphonic Music Retrieval (2004) [audio][nlp][net]

<http://citeseer.ist.psu.edu/pickens04harmonic.html>
コンテンツベースの音楽検索についての博士論文。
多声のパッセージを検索質問とし、曲を検索結果とする。

新谷研究室 [javascript][net]

<http://www-toralab.ics.nitech.ac.jp/index-j.html>
Ajax とか。
価値創出型のシステム開発。

HTML Slidy [presentation][markup][net]

<http://www.w3.org/Talks/Tools/Slidy/>
W3C による、CSS + XHTML + JavaScript のプレゼンテーションツール。

ポジションとしては LaTeX + Beamer に近いが、
動的効果が得意で、数式が苦手。
フォントサイズを表示中に切替えられるのと、
エディタとブラウザだけで完結する、というのはありがたい。
LaTeX は処理系を用意しないといけないから……

(X)(HT)ML->PDF変換 Prince も。
Slidy はまだ印刷できないようだけど。

HTML 中 で数式を直接書く(JavaScript でクライアントサイドで MathML に変換する)
ASCIIMathML

2006-01-26 Thu

卒論修正 [segmentation]

L_corp の説明、単語数で数えた辞書の長さ → 〜コーパスの長さ
2-gram の辞書の符号長の定義でマイナスが抜けている

教師なし単語分割と言語モデリング [segmentation]

フィンランド語、トルコ語、アラビア語における、
単語から形態素への分割の研究と、
中国語、日本語における、文から単語への分割の研究。

前者については、多くの研究がある。
音声認識につなげた事例もあるが、音素との対応付けには何も問題がないのだろうか?

MDL site - Reading [algorithm][learning][net]

<http://www.mdl-research.org/reading.html>
新しいチュートリアルがあった。

NEW: P.Gr?nwald, A Tutorial introduction to the minimum description length principle. In: Advances in Minimum Description Length: Theory and Applications (edited by P. Gr?nwald, I.J. Myung, M. Pitt), MIT Press, 2005 (80 pages; [PS], [PDF]).

2006-01-25 Wed

符号化するなら、確率表も送らないと復元できない [segmentation]

麻生さんからの御指摘。
秋葉先生からも、一度言われていたが。

辞書 0-gram、コーパス 1-gram の場合は、
辞書に確率表は不要で、
コーパスに対する確率表は、
辞書エントリに固定長の確率部を追加したと考えればよい。
この場合は、結局確率表を符号化しなくても、手続きに問題はないが、
少なくとも無視して良いことを述べておくべき。

辞書 1-gram の場合は、文字の符号長を(コーパスに現れたかどうかにかかわらず)
全文字に対する確率表を持っていると考えれば、辞書の確率表は固定長。

コーパス 2-gram に関しては、確率表の大きさが、
辞書エントリ数の二乗のオーダー。
つまり、単語辞書の他に、単語連接辞書を符号化する必要がある。

でも、単語連接辞書も加わるとなると、ペナルティが高すぎるような…

torus solutions! [net][programming]

<http://torus.jp/>
リスト処理プログラミングとか、制約プログラミングとか。

The Sparse Data Problem in Statistical Language Modeling and Unsupervised Word Segmentation (ResearchIndex) [lm][segmentation][net]

<http://citeseer.ist.psu.edu/489036.html>
教師なし単語分割に関する、博士論文。
中国語の分割をやっている、Fuchun Peng さん。

Segmenting sentences into linky strings using d-bigram statistics [segmentation][net]

<http://portal.acm.org/citation.cfm?id=993271>
Step 2-gram を用いた相互情報量の増減により、単語境界を判定。

Shiho Nobesawa [segmentation][lm][net]

<http://iskig11.is.noda.tus.ac.jp/~shiho/paper.ja.html>
音韻的類似に注目した言語モデリング?

大山 景詞, 延澤 志保, 太原 育夫, 音声認識システムにおける音韻的類似表現を考慮した言語モデルのタスク適応, 情報処理学会 第68回全国大会, no.5M-5, 工学院大学, Mar. 2006, to appear.
福田 雅志, 延澤 志保, 太原 育夫, 語彙的結束性に基づく話し言葉のテキストセグメンテーション, 言語処理学会 第11回年次大会, no.D3-2, pp.620-623, 香川大学, Mar. 2005.

読み付与 [segmentation]

そういえば、文字でなく形態素からはじめれば、読みはついてる。
形態素解析の誤りも入ってきてしまうけれど。

2006-01-24 Tue

Hermann Ney, Member, Ute Essen, Reinhard Kneser, On the Estimation of 'Small' Probabilities by Leaving-One-Out(1995) [lm][nlp][net]

<http://csdl.computer.org/dl/trans/tp/1995/12/i1202.htm>
Leaving-one-out というバックオフ手法について。

Tomokiyo & Ries, What makes a word - Learning base units in Japanese for speech recognition [lm]

Class Phrase Models For Language Modeling の日本語への適用。
日本語で、パープレキシティをもっとも減少させるように、2-gramを連結する。
ただし、単語の出現確率はクラスベースであたえ、クラスは単語クラスタリングを用いる。

Referrer (Inside): [2006-02-08-2]

2006-01-20 Fri

Ruby のある風景 [people][programming][ruby][net]

<http://mono.kmc.gr.jp/~oxy/>
若き情報学者?
anthy の開発者の一人でもある。

茶筌と kakasi の読み付与 [segmentation][nlp]

chasen

今日 キョウ 今日 名詞-副詞可能
の ノ の 助詞-連体化
輪講 リンコウ 輪講 名詞-サ変接続
の ノ の 助詞-連体化
際 サイ 際 名詞-非自立-副詞可能
、 、 、 記号-読点
御 ゴ 御 接頭詞-名詞接続
紹介 ショウカイ 紹介 名詞-サ変接続
し シ する 動詞-自立 サ変・スル 連用形
ます マス ます 助動詞 特殊・マス 基本形
EOS


kakasi -JH -f
今日[きょう]の輪講[りんこう]の際[きわ]、御紹介[ごしょうかい]します


中身 ナカミ 中身 名詞-一般
が ガ が 助詞-格助詞-一般
空 ソラ 空 名詞-一般
の ノ の 助詞-連体化
ボトル ボトル ボトル 名詞-一般


どちらも基本的に品詞に基づいた手法なので、同じ品詞で違う読みがある場合に弱い。

対処するには、意味理解するか、事例ベースにする必要がある。
意味理解は困難、事例にしても、読み付与された事例は入手困難、
ということで、パターンマッチング+ヒューリスティック。

基本的に、辞書ベースの手法に対する fix としてやる。
辞書ベースであいまいなとき、パターンマッチングにより、該当部分が仮名で書かれているところを探して置き換える。

Java パフォーマンスチューニング [java][programming][net]

<http://javanews.jp/javap/>
Java Performance Tuningの日本語版。

ヒープの大きさに関する質問では、
仮想メモリのことの他に、メモリを多く長く使うプログラムでは 古い非効率な GC が起動され、パフォーマンスを急激に低下させることがあるとか。

2006-01-19 Thu

言語計測研究 [lx][net]

<http://staff.aist.go.jp/t-nakai/language/index.html>
産総研 医用ビジョンラボ
言語処理する人間の脳をfMRIで観測。
松尾香弥子氏の、漢字の空書に関する研究とか。

Toward a Unified Approach to Statistical Language Modeling for Chinese [lm][segmentation][net]

<http://research.microsoft.com/~joshuago/talip01.pdf>
中国語におけるプレーンテキストからの言語モデルの構築

Compound splitting and lexical unit recombination for improved ... [segmentation][net]

<http://www.mmk.ei.tum.de/~waf/publ/00/icslp00ml_compounds.pdf>
ドイツ語における単語の分解と連結

ドイツ語における問題は、空白区切りでは単語が長すぎるということ。

SAKAI Masahiro [programming][net]

<http://www.tom.sfc.keio.ac.jp/~sakai/hiki/>
型理論とか勉強中の人。

Poderosa [win][net]

<http://ja.poderosa.org/>

Poderosa(ポデローサ) は、タブ式 GUI・SSH2 をサポートしているオープンソースの Windows 用高機能ターミナルエミュレータです

SSH と Cygwinがタブで並べられる。

卒論追記 [segmentation]

A \neq B を仮定するとき、
A = B はどう処理するのかを書いてない。

式が横に長すぎる箇所がある。
また、大量の場合分けは、最初のいくつかについて文章で述べ、導出手順を示し、
残りは結果を表にまとめ、導出は付録とする。

ベースラインである形態素解析システムの性能は、品詞つき言語モデルで比較すべき。
(事実上の標準)

2-gram PP の場合に、辞書の符号化を1-gramにしたけれど、
それは小さなコーパスに対するチューニングになっている可能性がある。

辞書を使うアプローチに関して、
辞書に登録すべきかどうかの判断が難しい。
大語彙連続音声認識は1語として入れるのか?

2-gram でパープレキシティ最小化/尤度最大化しているのは珍しいということ。
(Tomokiyo & Ries のみ?)

可搬性のある shebang (#! ...) の書き方 [programming]

#! /usr/bin/perl

だと、/usr/local/bin/perl のシステムでは使えない。

#! /usr/bin/env perl

だと、PATH を適用したときの perl が呼び出される。

#! /usr/bin/env perl -w

はどうもダメっぽいので、

#! /usr/bin/env perl
use warnings;

Manindra Agrawal, Neeraj Kayal, Nitin Saxena, "PRIMES is in P." [math][algorithm][net]

<http://www.cse.iitk.ac.in/users/manindra/primality_v6.pdf>
素数判定が多項式時間。
via Favorite Theorems Recap

2006-01-18 Wed

WISS, Workshop on Interactive Systems and Software [ui][net]

<http://www.wiss.org/>
美崎さんによるレポートが読みやすくて面白い。
メディアインタラクショングループの後藤さんによる楽曲ブラウジング、合奏支援、
緒方さんによる音声入力インターフェイス各種などがある。

宮川雅巳, グラフィカルモデリング(統計ライブラリー) [book]

佐藤隆 and 匂坂芳典, 語を構成する音韻の連接特性を考慮した音声認識 [lm][nlp][net]

<http://purple.giti.waseda.ac.jp/Master/Spring2003/t01a141/index.php>
認識結果として想定するのは仮名列、必要ならそのあとかな漢字変換をする、というアプローチ。

音響-言語モデルとして、品詞2-gram の中に音韻(モーラ)連接のモデルを作る。
クラスベース言語モデルと、可変長音節モデルの組合せか?

漢字混じり文を生成する通常のアプローチと比べて、タスク依存性が低い(学習しなおさなくてもいい)
モデルが作れる、とのこと。

確かに、人間でも、仮名までは分かるが漢字は分からない、というのはあり得る。
が、やはりより精密な、言語知識にまで踏み込むモデル化(人間でいう、分かっているから聞き取れる、というレベル)
のためには、漢字表記を認識のためのモデルに含める必要があると思う。

倉田 岳人 and 森 信介 and 西村 雅史, 日本語生コーパスから自動獲得した未知語と言語モデルによる大語彙連続音声認識 第57回音声言語情報処理研究会,SIG-SLP57,2005年7月 [segmentation][nlp][lm][net]

<http://www.research.ibm.com/trl/projects/speech/>
話し言葉に対応した大語彙連続音声認識か?
以前からの、事前知識なしの言語モデル構築の研究のつづき。

Ronald Rosenfield, A Maximum Entropy Approach to Adaptive Statistical Language Modeling (1996) [lm][segmentation][nlp][net]

<http://citeseer.ist.psu.edu/rosenfeld96maximum.html>
通称 Trigger Language Model
Trigger-based Language Model

長距離依存関係を表現するための言語モデルらしい。

Referrer (Inside): [2006-09-05-1]

2006-01-16 Mon

Windows のバッチファイルでの FOR [win]

FOR %%f in (*.txt) do type %%f

%が2回なのは、エスケープ記号だから(?)

DOS窓では % は1つだけ。

FOR %f in (*.txt) do type %f

2006-01-12 Thu

Ruby でプロセス間通信 [ruby][howto]_

#! /usr/bin/ruby

# 2対のパイプを用意
pin, cout = IO.pipe
cin, pout = IO.pipe

Process.fork {                  # この中は子プロセス
  STDIN .reopen cin
  STDOUT.reopen cout

  pout.close_write
  pin.close_read

  exec "bc"                     # 子プロセスはこのあと bc になる
}

# この後は親プロセス
cin.close_read
cout.close_write

STDIN.each { |line|             # 標準入力から1行読み取り
  pout.puts line                # それを親プロセス用書き込み口に書き
  puts "bc> " + pin.readline    # 親プロセス用読み取り口から読んで表示
}
大体 C と同じ。

open3 というライブラリを使うともっと見やすい。
require "open3" 

cin, cout, cerr = *Open3.popen3('bc') # 子プロセスの入力、出力、エラーを返す

# このスレッドで、標準入力から cin にデータを流し込む
Thread.fork {
  STDIN.each { |line|
    cin.print line
  }
  cin.close_write
}

pout.each do |line|             # 子プロセスの出力を表示する
  print line
end

Rubyリファレンスマニュアル 1.6.8から1.8.0への変更点(まとめ) [ruby][net]

$stdin [change]

    $stdout, $stderr は、$defout, $deferr の別名になり $defout, $deferr は obsolete になりました

    $stdin は、普通のグローバル変数となりました(STDINをリダイレクトする動作はなくなりました)

    $defout や $deferr に代入を行うと警告がでます。 (注:1.6 に $deferr はありません) [ruby-dev:20961]

    $stdin にオブジェクトを代入すると標準入力からの入力メソッド(gets 等) はそのオブジェクトにメソッドを投げます。 (リダイレクトしなくなった点を除けば、1.6 とそれほど違いはないようです)

1.6.8 では

$stdout = File.open("xxx", "w")
STDOUT.reopen("xxx", "w")

で、以降のプログラムでの標準出力への書き込みがファイル xxx にリダ
イレクトされていた。

1.8 では、前者が Ruby 内部でのリダイレクト、 後者が OSでのリダイレ
クトになり、
前者ではその文を実行するプロセスでのみリダイレクトされ、
後者は(今までどおり、 Cなどでもたぶん同じ)子プロセスまでリダイレク
トが波及する。

C++ で未定義クラスをつかった場合のエラー [cxx]

error: forward declaration of `class
   XXXX'

XXXX というクラスが未定義の場合に出るエラー。
よくある原因は、名前空間の使用を宣言していない。
関連して大量の文法エラーが出るので混乱した。

2006-01-11 Wed

ソース RPM の使いかた [linux][howto]

rpmbuild --rebuild xxx.src.rpm

とすると、コンパイルが行われてバイナリ RPM が作られ、

~/rpm/RPMS/i386/

などに出力される。
(最後に置き場所が表示される)

2006-01-08 Sun

JDK 5.0 で日本語フォントを使う [java][howto]

$JAVA_HOME/jre/lib/fonts/fallback/

に使いたいフォント(TrueType)を置き、

$JAVA_HOME/jre/lib/fontconfig.properties

の記述を書き換え、それらを使うようにする。

fallback ディレクトリは無ければ作る。
fontconfig.properties は、無ければ fontconfig.*.properties.src のどれかをコピーする。

2006-01-06 Fri

Piotr Indyk [string][algorithm][geom][people][ir][net]

<http://theory.lcs.mit.edu/~indyk/>
雑音のあるパターンマッチング。
FFTをツールとして、というのが面白そう。

Klaus Ries et al., Class Phrase Models For Language Modeling [lm][segmentation]

<http://citeseer.ist.psu.edu/ries96class.html>
単語区切りあり言語における、教師なしフレーズ分割。
よく使われる単語列を1つのフレーズにまとめる。
2-gram パープレキシティ評価基準で、連結する2単語のよさを計る。

パープレキシティ評価は 1-gram へのバックオフつきで、交差検定。

コーパスへの連結の適用は、単純な方法で行う。
このとき、古いコーパスも保存しておき、パープレキシティ差分評価のときに、
old model/new model として両方を使う。

Referrer (Inside): [2006-02-13-6]

2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12

最終更新時間: 2009-02-01 00:57

Powered by chalow
inserted by FC2 system