<http://nlp.cs.swarthmore.edu/sigphon/index.php>
ACL 2008 でワークショップ
http://phonology.cogsci.udel.edu/sigmorphon2008/
Submission Deadline March 17, 2008, 23:59 EST
産総研実習を出したい。
<http://karlmicha.googlepages.com/lg>
作ってたのとほとんど同じものがあった。
http://lists.sourceforge.jp/mailman/archives/mecab-users/2007-February/000231.html
MeCab の出力フォーマットもしくは C/C++ API を使えば、ある単語が
元のテキストの何バイト目から何バイト目に出現したか分かるので、
元のテキスト中にスペースがあったかどうか区別することができます。
なにも考えずに swig api にも追加。
mecab/swig/MeCab.i に追加:
%extend mecab_node_t { int position_start(mecab_node_t *ref) { return (int)( self->surface - (ref->surface + ref->length - ref->rlength) ); } int position_end(mecab_node_t *ref) { return (int)( self->surface - (ref->surface + ref->length - ref->rlength) + self->length ); } }
my $head; for (my $m = $head= $c->parseToNode($sentence); $m; $m = $m->{next}) { printf("%d %d\Token %s\t%s\n", $m->position_start($head), $m->position_end($head), $m->{surface}, $m->{feature}); }
<http://nltk.sourceforge.net/index.php/Main_Page>
各種コーパスやWordNetのパーザーがPythonで提供されている。
<http://nlp.iit.tsukuba.ac.jp/must/>
Matsuyoshi-Utsuro-Satoh-TsuchiyaでMUST
複合辞の表層表現のリストと、
その正例・負例へのポインタ(毎日新聞記事)リストとして提供されている。
<subentry id="A01-1000" name="といって[といって],と言って[といって]" freq="2828" total="28
60">
<example id="A01-1000-001" source="MNP-950101008-17" target="28-32" label="C"/>
<example id="A01-1000-002" source="MNP-950108168-36" target="34-38" label="C"/>
<example id="A01-1000-003" source="MNP-950116142-11" target="50-54" label="C"/>
<example id="A01-1000-004" source="MNP-950125251-25" target="32-36" label="C"/>
<example id="A01-1000-005" source="MNP-950201313-2" target="33-37" label="C"/>
<example id="A01-1000-006" source="MNP-950209310-3" target="2-6" label="B" note="と いっ ていい(B30-2000)"/>
...
AIチャレンジ研究会24回の資料の峯松先生の論文。
「定理」として最初にあげられるのがバタチャリヤ距離、カルバックライブラー距離、の変換不変性と、
N個の点集合が作る形とNxNの距離行列の等価性。
参考:距離 - 朱鷺の杜Wiki
注目している集合が閉じている(音素、音韻)ことと開いている(語彙)ことが、
音声処理と言語処理のあつかう対象の大きな違いだと思った。
第一著者は絶対音感を持っており、この階名での書き起こしが全くもって理解できない一人である。異なる音高に同一の音ラベルを振ることなど、全く理解不能である。
異なる話者間で「あ」の同一性が感覚できない人がいるのだろうか?
感覚できない「機械」が(中略)音声認識器である。
感覚できない「人」として、一部の自閉症者がいる。
極端な音声の絶対音感を持つと考えられる自閉症者にとって、物理的に異なる特性を持つ話者Aの音とBの音を「同一音」として認知する健常者の感覚こそ、想像を絶するものではないかと推測する。
異なる二音を「あ」と感覚できる健常者の認知能力が、音の絶対項に基づくものなのか、あるいは、音間の相対項に基づくものなのか
音声コミュニケーションに障害のある自閉者に対する健常者を、
絶対音感をもつ人に対する健常者に並行させる議論は魅力的だと思った。
彼らのグループが作った「音声から単語をメロディーのようにして認識する」システムは、
非シンボル的な相対音感に対応する。(と思う)
「構造表象」生得主義のようにも見えるけれど
この論文だけでは詳細が分からないので、参考文献をあたる必要がある。
峯松先生の過去の招待講演から
http://www.gavo.t.u-tokyo.ac.jp/%7Emine/paper/PDF/2006/speech_as_music.pdf
<http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/22-2.html>
クローラ
HTMLパーサ
言語処理ツール
のブックマーク
perl -MEncode::Guess -e'$b = join q{}, <>; $e=guess_encoding($b, qw/euc-jp shiftjis 7bit-jis utf-8/); print $e->name, "\n"; print $e->decode(substr $b,0,100), "\n"'
<http://www.cs.wisc.edu/~jerryzhu/>
Semi-supervised learning 専門家。
NLPよりでもある。
<http://www.cs.umass.edu/~fuchun/publication/thesis.pdf>
Fuchun Peng さんの博士論文ふたつめ
[2006-01-24-3]
<http://www.loebner.net/Prizef/loebner-prize.html>
Turing test で競うコンテスト