自然言語処理スレッド　その２

自然言語処理スレッド　その２at TECH

自然言語処理スレッド　その２ - 暇つぶし2ch1:デフォルトの名無しさん
07/03/05 23:34:47
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

前スレ：　自然言語処理スレッド
ｽﾚﾘﾝｸ(tech板)l50

次スレは>>980

2:デフォルトの名無しさん
07/03/05 23:35:10

形態素解析
- Juman: URLﾘﾝｸ(www-nagao.kuee.kyoto-u.ac.jp)
- ChaSen: URLﾘﾝｸ(chasen.aist-nara.ac.jp)

依存構造解析
- KNP: URLﾘﾝｸ(www-nagao.kuee.kyoto-u.ac.jp)
- CaboCha: URLﾘﾝｸ(www.chasen.org)

Namazu
- namazu: URLﾘﾝｸ(www.namazu.org)

3:デフォルトの名無しさん
07/03/06 17:10:50
>>1
お疲れー。

4:デフォルトの名無しさん
07/03/06 17:28:39

理系全般板のスレ

★自然言語処理★
ｽﾚﾘﾝｸ(rikei板)

5:デフォルトの名無しさん
07/03/06 17:48:49
こんな面白そうなスレがありましたか…。
いつか自然言語を解するプログラム作りたいな。
文法を解する>>2みたいのがあるなら、Ｃ＃とかで比較的簡単に作れそうだ。

6:デフォルトの名無しさん
07/03/06 21:11:08
>>5 冗談でしょ?

7:デフォルトの名無しさん
07/03/06 22:33:08
井の中の蛙、大海を知らずと言ってだな。

8:6
07/03/06 23:30:16
>>5 C#が嫌いなので、つまらないコメントを書いてしまった。ごめんなさい。
でも、Jumanを使いこなすだけでも、大変なことなのですよ。
私は以下の手順でプログラム開発をしています。
1..仕様をpdfファイルでもらう。(文章か表)
2..これをtxtに変換。(文字情報を抜き取る)
3..形態素解析。
4..格判断、後置詞、接続詞などの整理、並べ直し。
5..Prologの述語として整形する。
1から3までは作業を制御するのはPrologのプログラムです。
4,5もPrologが候補を出してきますが、相当に人間の判断が必要です。
3のJumanがやはり問題です。数に関する情報が上手く処理できません。
Jumanの出してくる候補はバラバラです。これを繋ぎ合わせる必要がある
のですが、一つの名詞として繋ぐのか、部分的に独立した数値として
扱うのか、私の能力ではうまくコード化出来ないケースが多々あります。

9:5
07/03/07 18:15:41
>>8
気分を害したりはしていないのでご心配なく…。
自然言語を解するとなれば想像を絶する壁がたくさんあるだろうな
とは思ってますので。

10:デフォルトの名無しさん
07/03/07 18:26:45
「Jumanの出してくる候補はバラバラです」というのはどういうことですか？
たとえば「1足す2は3」と入れれば、「1」「足す」「2」「は」「3」と
ちゃんと区切られているように見えますが…。

11:デフォルトの名無しさん
07/03/07 19:00:56
第五世代コンピュータを第、五、世代、と区切られてしまうと、
これをプログラムで第五世代に膠着し直すのは結構難しいのです。

12:デフォルトの名無しさん
07/03/07 19:14:31
なるほど。
こういうのが出てきたら特殊な処理をして結合し、Jumanに名詞として辞書
登録してもらう必要がありそうだ。

13:デフォルトの名無しさん
07/03/07 19:18:18
その「特殊な処理」というのが難しいんでしょうね。

各単語同士の連続出現率を記憶しておいて、ある割合を超えたら１つの
単語だと認識してJumanに辞書登録を促す、とか…。（素人考え）

でもだとしたら、オラクルとかの大規模データベースを使って、各単語の
パラメータを記憶しておかないとダメですね。
難しいそう…。

14:デフォルトの名無しさん
07/03/08 10:20:56
>>13 辞書でいいのでしょうね
Prologのプログラムでは何のオプションも付けずにjumanを使います。

?- sh('echo "第五世代コンピュータ" | juman',X).

X = [['第','(だい)','第','名詞接頭辞'],
['五','(ご)','五','数詞'],
['世','(せい)','世','名詞性名詞助数'],
['代','(だい)','代','名詞性名詞接尾'],
['コンピュータ(こんぴゅーたコンピュー','普通名詞'],
['技術','(ぎじゅつ)','技術','普通名詞']].
Prologインタプリタのトップレベルから呼ぶとこんな感じになります。これを

形態素解析(_文,_形態素ならび) :- concat_atom(['echo "',_文,'" | juman'],S),
sh(S,X),再膠着(X,_形態素ならび).

再膠着([],[]) :- !.
再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2]) :- concat_atom([A,B],C),
,再膠着(R1,R2).
再膠着([[A,_,_,_]|R1],[A|R2]) :- 再膠着(R1,R2).
のようなプログラム(述語)を定義しておいて(再膠着と品詞等付加情報の除去を
同時に行っている好ましくない定義です)
..., 仕様読み取り(_受信文), ... ,形態素解析(_受信文,_形態素ならび), ...
のように呼びだして処理します。要するに「本当にこれで澄むのか!」の問題ですね。

15:14の訂正
07/03/08 11:40:23
澄む -> 済む
それから　concat_atom([A,B],C), の後改行してまたカンマがきていますが
これは間違いです。いりません。

16:デフォルトの名無しさん
07/03/08 13:06:04
そのUNIXの正規表現のような書き方はなんでしょう… (ﾟДﾟ)ﾎﾞｰｾﾞﾝ
PROLOG言語ってPERL言語のような側面もあるのかな？

自然言語を解そうというのだから複雑なのは当然ですがこれは…

17:デフォルトの名無しさん
07/03/08 13:11:49
「形態素解析」や「再膠着」とかにカッコ ( ) が付いてますが、
これは関数ということでしょうか？

…PROLOG、面白そうなのでちょっと私も勉強してみます

18:デフォルトの名無しさん
07/03/08 14:17:33
>>16 >>17 疑問はリストのことですね。Prologのリスト表記は例えば、
[a,b,c] = [a|[b,c]] であり、
[a,b,c] = [a|R] だとRは英数の大文字から始まっているので変数であり
R=[b,c] になります。

再膠着([[A,_,_,名詞接頭辞],[B,_,_,数詞]|R1],[C|R2])　の部分を解説すると

再膠着という関数は2引数の関数である。最初の要素(第一引数)は
リストの形式をしており、その第一番目の要素も
またリストである、 [A,_,_,名詞接頭辞]
さらに第二番目の要素もまたリストである。 [B,_,_,数詞]
第三番目以降もリストであってその部分は変数R1で表すこととしよう。
さて、
この第一引数のリストの第一番目の要素もリストなのだが、その第一番目の
要素はAという変数である。その四番目の要素は「名詞接頭辞」である。
同様に第二番目のリストの第一番目の要素はBという変数であり、
第四番目の要素は「数詞」である。

以下省略するがこんなことが宣言されている。
このようなパターンを持った情報が第一引数に与えられて、
述語、再膠着が呼びだされた時に限り、このルールが適用されて
バラバラになったA(実は第)とB(実は五)が再膠着されるのだ。
そういうことを述べている。

再膠着という関数(述語)は
第一引数がリストでその最初の要素もリストで
その四番目の要素に名詞接頭辞がきて、
かつ、
第一引数の二番目の要素のやはり四番目の要素が数詞の時は

19:ゴミが・・
07/03/08 14:20:40
済みません。最後五行、ゴミが入ってしまいました。

20:デフォルトの名無しさん
07/03/08 19:04:04
>>18
　　_, ._
（　ﾟ Дﾟ）

もともと難しいんだろうけど、その説明も難しい…
あと「prolog　再膠着」でググってもヒット件数０というのはどういうことでしょう？
レアモノですか？

21:デフォルトの名無しさん
07/03/08 19:31:59
その検索は無理でしょう。再膠着なんて言葉聞いたことない。
多分、私の造語だと思います。説明が難しいのは、一般にリストの場合
構造体ですから仕方ない。この場合などは
構造体のなかにさらに構造体があるというケースですから尚更です。
リストのような構造データを使わずに、スカラ型データ渡し
だけで書くのが理想ですが、
1..問題が要素の前後関係などに依存する場合(>>18がこれ)
2..集約問題(sum()など)
などはリストで処理せざるを得ないですね。ここでは説明は避けますが
Prologの泣き所です。

22:デフォルトの名無しさん
07/03/08 20:42:17
ここは自然言語処理のスレでプログラム言語を語る場ではないので
Prologの話はこれくらいにします。最後に、Prologと自然言語処理との
間の以下のことに触れておくべきでしょう。
Prologが普及する初期に、自然言語処理向きの言語ということが
喧伝されました。実際はそれほどでもなかった。すぐに左再帰問題の
ような基本的な難題に直面しましたし、上でもちょっと触れましたが、
Prologで深いデータ構造を扱うとPrologの良さが生きてこないという
ことにも気づきました。プログラム言語の記述力にだけ目を奪われて、
対象としている世界とのギャップに対しても、あまりに楽観的でした。
実際この分野で成果がどんどん積み上がっていくということはあり
ませんでした。期待が大きいだけ失望も大きかったのかも知れません。
結果的にこのPrologへの過度の期待はこの言語の普及、実用への展開
にはマイナスに働きました。もっと強調するべき点は他にあったのです。
Prologと自然言語処理にはそんな少々不幸な歴史があります。

23:デフォルトの名無しさん
07/03/08 20:47:08
> リストのような構造データを使わずに、スカラ型データ渡し

「リストのような構造データ」と、「スカラ型データ渡し」は、
具体的な例を出すとすれば、どういう例を出せますか？

24:デフォルトの名無しさん
07/03/08 20:56:04
あ、>>22とかぶってしまった。ごめん

25:デフォルトの名無しさん
07/03/08 21:11:25
>>23 理想的なPrologプログラムは引数に構造体を要求しない
年令(大島,32).
年令(尾崎,58).
年令(稲葉,55). というようなものでしょう。
この定義に対して、
?- 年令(X,58). と質問する。答えは X=尾崎　となり質問は真となります。
このようなフラットな構造のデータだけで構成されるプログラムを
Prologプログラマは夢見ます。この辺りはリレーショナルデータベースの
第三正規形などの議論をご存じの方にはわかりやすいかも知れません。
これに対して
sum([],0).
sum([A|R],X) :- sum(R,Y),X is A+Y.
と云う定義はリスト構造を引数に期待しています。
?- sum([32,58,55],X). これは X=146　となり質問は真となります。
Prologの多分最大の魅力は部分要素の簡単なパターンマッチだけで
プログラムの挙動が完全に読み取れるという点なのですが、そのためには
データ構造はフラットであるほどよい。リストでさえプログラムの明快さ
に欠けるという感覚があります。それから、
>>21でちょっと触れた 1..集約問題　とは、上の年令( ) 定義に於いて、
このクラスの年令の合計を求めるプログラムをPrologでは上手く書けない
ということを云っています。武骨にやればもちろん書けますが。

26:デフォルトの名無しさん
07/03/08 21:15:41
や、や、 X=145 だ(笑)

27:デフォルトの名無しさん
07/03/09 14:42:31
自然言語処理は、prologでできそうですか？

私のここまでの印象では、確かに自然言語処理らしき片鱗が見えるプログラム
を作ることができるとしても、それは日本語を部分的に解釈しているだけで
あって、たとえば知識を溜め込むとか、という部分にまで至らない感じがしま
す。

28:デフォルトの名無しさん
07/03/09 16:16:58
>>27 Prologだと簡単に行くかという期待は裏切られた、というところ
でしょう。
自然言語処理の困難さに較べたら、プログラム言語の記述力の差など
小さい小さいということかも知れません。

29:デフォルトの名無しさん
07/03/09 17:17:48
確かに言語うんぬんではなくどういう論理構造を作るか、なんでしょうねぇ。

ただ以前、Ｃ＋＋やＣ＃のオブジェクト指向というパラダイムは自然言語処理
に適切かも知れないな、と勉強してたときに思った記憶があります。

たとえば
「私は人間です」
の「私」を「人間」という基本クラスから派生した派生クラスだとすると、
「私」＝「人間」という真偽判定ができてしまうんですよね。

Prologにもオブジェクト指向という考え方はあるのでしょうか？

30:デフォルトの名無しさん
07/03/09 17:49:36
私も含めて、Prologプログラマはオブジェクト指向が嫌いだと思います。
「あの本は厚い」という仕様に対して、
厚い(本). がよいか
厚い(あの,本). か
厚い(あの本). が良いのかを即断する能力を磨くのがPrologプログラマです。
あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
これを述語として形式化して定義することにとどめます。
一方、オブジェクト指向プログラマは
「あの本」は「他の本」とは違うに相違ないなどと、意味に踏み込んだ、
解釈をいきなり始めようとする。オブジェクト指向プログラミングの本質は
差分プログラミングなので、どうしても立ち入って解釈をする習性が
身に付きます。これはPrologプログラマから見ると余計なことなのです。
ということで、Prologプログラマは全員が一度はオブジェクト指向Prologを
自作していると思いますが、全員がこれを捨ててしまっていると想像します。
ESPという大変立派なオブジェクト指向Prologがあったのですが、私も
含めてそのオブジェクトを生成して論理変数として述語の引数に持ち回る
仕様に陰で文句ばかり云っていました。

31:デフォルトの名無しさん
07/03/09 18:09:44
>>22 >>30 読み物としては大変面白いが、すこし、話が極端なのでは
ないかな。そこまで徹していることには敬意を表するが。

32:デフォルトの名無しさん
07/03/09 18:34:31
ん～～～、少し誤解されているかもですw
オブジェクト指向Prologというのがよほど使い勝手が悪かったのでしょうか…。

オブジェクト指向は、どういう形式でプログラムをつくるか、ということですので
「あの本」などのようなデータの中身とは別じゃないかな、と思います。

「仕様を与えた人の内面」にしかない、
この記述が興味深いですね。

自然言語処理では、知識を蓄積した上で、相手の意図を予測するんでしょう
けど難しそうだw

33:デフォルトの名無しさん
07/03/10 04:00:54
>30
> あの、や、本、や、厚い、は仕様を与えた人の内面には像があっても、
> それには踏み込まずあくまで言語的なシンボルとしてのみ受取り、
> これを述語として形式化して定義することにとどめます。

私も Prolog のこういう部分は凄いと思う。
中身を本当に「一切」定義しないことに最初は驚いた。
「厚いってどういうこと？」ということを Prolog 自体が必要としないんだよね。

ちなみに、その定義をOOP風に表すなら、単に

本 . 厚い

この場合、厚いか否かの判断は「本」に任せるって形になるね。
本が厚いか訊いた質問者はそこまで踏み込むことはない。
（深入りすることはあるけど、それはOOPの理念からはちょっとズレると思う）

まぁ、Prolog と違って最終的には「本」か、もしくは
「本」が頼んだどこかのメソッドで具体的な判断がされるけど。

> 「あの本」は「他の本」とは違うに相違ないなどと
> 意味に踏み込んだ解釈をいきなり始めようとする。

それはOOPで意識しないけどなぁ。
OOPって良くも悪くも「たらい回し」が多くなるから
「本」自体も他から「この本ね」と渡されたものである場合が多い。

34:デフォルトの名無しさん
07/03/10 09:26:56
>>33 OOPに関しては大分遠ざかっているからまともなレスが書けそうにない。
私が書いてきたことは自然言語処理というより、自然言語プログラミング
ですね。この自然言語プログラミングの一番大事な処理は今のところ
人間がやってしまって、Prologに落としちゃいましょう、ということです。
そのスキルを磨いて、同時通訳くらい早く書けるようになったら、その時
にはその部分をPrologでエキスパートシステムとして記述すればよい。
そういう道筋の第一段として現在のPrologプログラミングがある。

35:デフォルトの名無しさん
07/03/10 09:48:24
エキスパートシステムとして記述される段階では、実は落とすコードは
Prologである必要はありません。Prolog的なロジックをライブラリに
持つ、C++ あるいは　Ruby のプログラムコードで構いません。なぜかと
いうと、その部分が機械処理された時点で人間の思考・論理とプログラムの
親和性という視点は必要なくなってしまうからです。

36:デフォルトの名無しさん
07/03/11 18:16:51
age

37:デフォルトの名無しさん
07/03/11 18:17:13
ここの人たちからするとレベルが低いと思いますが、
ニュー速＋の記事を要約して読めるサービスを作ってみました。
URLﾘﾝｸ(misaki.mine.nu)
スレの投稿速度でランキングするのは2nnのマネです。

単純に重要度でソートしてるだけなので、
似たような書き込みを除外できてませんが、
スレッドの要約というのも面白いテーマと思います。
形態素解析はMeCabを使っています。

38:デフォルトの名無しさん
07/03/11 21:02:15
あーこれは面白いね。。。

・・・ってこれ要約じゃなくて単なる抽出じゃん。
相変わらず抽出と要約の区別ついてないやん。
前スレ 438-497戻って再確認汁

ｽﾚﾘﾝｸ(tech板:438-497番)

39:37
07/03/11 22:11:53
>>38

過去ログ読みました！
GoogleNewsがやってるような似たもののグルーピングはできてません。

確かに。抽出が正しいっす(ノД`)ﾉ

オーム社の「テキスト自動要約」を読んで作ってます。
頻出する重要単語をより多く含む文を抽出してます。
今後、似たものをまとめる方面をやってみようと思います。
それと因果関係としてレス同士の>>の関係も利用してみます

40:デフォルトの名無しさん
07/03/12 09:37:11
…前スレ 438-497 を読んだけどすごいな。
煽り合いを楽しんでいるかのようだ…。
やさしく指摘して「あ、そうかスマソ」で終わらせりゃいいのに…。

41:デフォルトの名無しさん
07/03/12 12:57:53
あん時は、どっかのバカが俺の発言の陰に隠れて
「Google検索結果の引用文は『要約』の一種だ」とか主張しちゃって
誤爆の嵐でまいったさあー

42:デフォルトの名無しさん
07/03/12 16:18:45
Google検索は抜粋、キーワードが該当した場所ってだけだよなぁ。
つーかあそこで出てたような要約なんてできるのかな？
日本語を解して要点をまとめる機能が必要か…。

43:デフォルトの名無しさん
07/03/12 17:10:50
要約とはなにかって、この分野ではどう定義されてるのよ。

44:デフォルトの名無しさん
07/03/12 17:47:47
>>43
文意を変えずに書き手の＜＜意図＞＞を抽出することだから、たんなる抽出と間違えやすいんじゃないのかな？

45:デフォルトの名無しさん
07/03/12 18:25:43
「ＡはＢに似ておりＣとは違うためＤと同じである」
という文章の意図は「ＡはＤと同じ」

…こういうのを解釈して、なおかつ簡潔な文章に装飾するのが
ここで言う要約ってことでしょうか？

46:デフォルトの名無しさん
07/03/12 19:16:54
>>37
そんなパクリページ作るくらいだったら
2NNに協力する方がええんじゃね？

47:素人
07/03/12 21:43:44
>>37　よくわかんないんだけど、これってどうやって抽出してるの？
左側のIDの意味ってなに？レスの番号とは違うようだし・・・点数とも関係なさげだし・・・

48:37
07/03/13 01:09:23
>>46
2NNは2chビュアーが無いみたいですねえ。read.cgiに直接飛ばしてるし。

>>47
簡単に説明しますと、（ちょっと長いですごめんなさい）

スレ内で、たとえば1-100のレスから、まず単語の出現回数を数えます。
数の多いものが重要語となります。

つぎに、重要語を含む数をスコアにして、重要なレスから表示しています。

左側の番号は、レス番号ではなくて、いったん文章を単文にひらいた場合の
単文番号です。

レス番号の方が分かりやすいかもしれませんが、長文レスが重要になったときに
全体が長くなるので、こうしました。

URLﾘﾝｸ(misaki.mine.nu)
同じ手法で要約だけやってるページも作ってるので参考にどうぞ。
チェックを入れると、やってることがわかります。

49:37
07/03/13 01:21:22
>>48
自己レスですが、

要約サイトはkakasiで形態素解析してますが、

2nnもどきはMeCab使ってます。
MeCabで工夫してるのは、品詞も使って見ました。

名詞が続くときは、名詞＋名詞＋名詞＝名詞とまとめてます
これで未知の「国民投票法案」とかも抽出できました
あと、名詞＋の＋名詞＝名詞もやってます。
その他、長文になってくると頻度が偏るのでlog10をとってみました。

50:素人
07/03/13 02:11:20
>>37,48,49 なるほど。勉強になりました　m(_ _)m

この方法はtf-idfを用いた重要文の抽出で認識あってますでしょうか？
聞きかじりなので、tf-idfも詳しくわかっていない状態です。間違っていたらすみません。

51:デフォルトの名無しさん
07/03/13 09:35:44
>>37
こういうのって何言語で作るの?

52:デフォルトの名無しさん
07/03/13 18:34:02
やっぱむつかしいなこういうの

53:37
07/03/14 00:03:17
>>50 オーム社の本でもTF法と紹介されてるので合ってると思います。

>>51 perlで作ってます。
perlは遅いイメージがあると思いますが、ハッシュを使うと頻出語の調査は簡単に素早くできますよ

use MeCab;
use Encode;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語
$tf{$word}++;#単語のハッシュ変数の出現回数を１増やす
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}

とりあえず1文字とか名詞以外は除外でもいいと思います。実際は、複合語を扱えるようにしたりとか工夫が面白いです。

ベイズ推定によるニュース分類もやってますが、単語の出現回数も同じ手法で作ってます。

54:37
07/03/14 00:09:32
こんな感じでずいぶんいい感じになりました

#名詞でかつ全角で2文字以上の場合だけ有効
use MeCab;
my $m = new MeCab::Tagger("");
my %tf;#頻出語のハッシュ変数

sub TermFreq
{
my ($str) = @_;

my $n = $m->parseToNode($str);#形態素解析

while ($n = $n->{next}) {#次の形態素を取り出す
my $word = $n->{surface};#単語そのもの
my $hinshi = (split( /,/, $n->{feature} ))[0];#品詞
if( ($hinshi eq "名詞") and (length( $word ) >=4) )
$tf{$word}++;#単語のハッシュ変数の出現回数を１増やす
}
}
return sort{ $t{$b} <=> $t{$a} } ( keys %tf );#出現回数が多い順にソート
}

55:37
07/03/14 00:24:41
バッチで新聞社の経済記事を毎日読み込んで、単語の出現回数を数えてるのですが、
現在、2250個の文で、発表が428回、東京が369回出現となってます

過去の統計データを使えば、
与えられた「未知の記事」が経済記事であるか？を推定する確率が求められます（・∀・）/
（経済以外の記事の出現回数を、非経済記事である確率に使ってます）

2250
発表,428
東京,369
市場,351
前日,289
ドル,284
株式市場,234
株価,221
東証,188
（改行が多いと怒られたので以下略）

56:デフォルトの名無しさん
07/03/14 09:19:13
パールかー。
ちょっと遅いイメージがあるけど、いまどきのマシンなら問題ないだろうし、
すぐ変更できるし使い勝手はいいだろうね。

あと、しばらくみないうちに変わったのかな。
なんかnewとかあるし…クラスまである？
オブジェクト指向！？
変数名の$は相変わらずのようで…w

57:デフォルトの名無しさん
07/03/14 18:47:46
>>56
どれだけ遅れてるんだよｗ
10年前のPerl5からずっとOO機構はあったよｗ

58:デフォルトの名無しさん
07/03/14 20:39:14
>>56は1999年の書き込みだとちょうどいいぐらい

59:56
07/03/14 20:42:50
遅れてるっていうか、そんな使ってないしオレ…
せいぜい簡単な定期処理動かすのくらいだし…
（´・ω・`）ｼｮﾎﾞｰﾝ

60:デフォルトの名無しさん
07/03/16 18:40:23
まぁでもPerl5のOOPはちょっと無理矢理だけどな
クラス設計する側がかなり疲れる仕様

61:デフォルトの名無しさん
07/03/16 18:54:32
> クラス設計する側がかなり疲れる仕様

まぁ慣れの問題のような気がする。

PerlのOOは動的OOだから、
実経験で感覚掴まずに、
仕様だけ見て想像で設計しようとしたら、
まぁ大変だろうね

62:デフォルトの名無しさん
07/03/16 21:56:37
言語ってOOPを取り込むと美しさが全く失われるのはなぜだろう。
自然言語処理とは何の関係もないが・・。

63:デフォルトの名無しさん
07/03/16 23:11:05
ひらがなゲートウェイ
URLﾘﾝｸ(www.hiragana-gateway.com)

ひらがなゲートウェイとは、指定したサイトの漢字を全てひらがなで表示させるコンテンツプロキシーです。

64:デフォルトの名無しさん
07/03/16 23:29:57
>>62
表現と構造の次元の違いによるギャップだろ。
自然言語、プログラム言語は一次元的表現
データ構造、オブジェクト構造は二次元以上
etc.
ところで人間の頭の中にある概念空間は・・・いったい何次元だろうね？

65:デフォルトの名無しさん
07/03/17 14:04:50
同じニュースの複数記事をまとめて自動要約してくれるサイト(上)
URLﾘﾝｸ(hotwired.goo.ne.jp)

ここで紹介されてる複数記事からの自動要約サイトだけど、
URLﾘﾝｸ(www.newsblaster.com)
ここで書かれてる文章が自動要約なのかな？
かなりまともな文章のように思える。
ただ、どの複数の記事を元にして要約してあるのか分からない。

もうひとつのNewsInEssenceは死んでるみたい。
URLﾘﾝｸ(www.newsinessence.com)

66:デフォルトの名無しさん
07/03/22 18:27:41
操作員Ａ「こんにちは」　→　COM「はい、こんにちは」
操作員Ａ「今日は天気が良いですね」　→　COM「そうですか」
操作員Ａ「今日は何月何日ですか？」　→　COM「今日は３月２２日です」

操作員Ｂ「今日の天気はどうでしょう？」　→　COM「良いという話です」

…こんなの可能でしょうか？

67:デフォルトの名無しさん
07/03/23 03:55:27
人工無能でそういうふうにプログラムすれば可能だろ。

68:デフォルトの名無しさん
07/03/26 08:28:39
2chのレスは全部人工無能で生成されている。
まめちしきな。

69:デフォルトの名無しさん
07/03/26 19:17:36
>68
まぢで！？
俺もお前も人工無脳だったのか…
誰が！？誰が俺を作ったんだ！？

70:デフォルトの名無しさん
07/03/26 20:16:25
あの晩、おとんが酔って帰ってこなければ・・・
あの時、スキンの買い置きさえあれば・・・

71:デフォルトの名無しさん
07/03/27 19:02:42
俺が思うに・・・
自然言語というか人工知能はRubyとかでこつこつ作るものじゃなくて、
単純なロジックを再帰的に呼び出して形とし、
ある時点ではじめて単語になり、ある時点でやっと文章になる・・・って感じだと思う。
非常に観念的だけど・・・
たぶん、フラクタル理論を勉強して応用したほうが早いんじゃないかと。

72:デフォルトの名無しさん
07/03/27 20:52:49
実際にそれを証明してみたまえ

73:デフォルトの名無しさん
07/03/27 21:02:35
Infinite monkey theoremと何が違うんだ。

74:デフォルトの名無しさん
07/03/28 09:53:31
すべてデータ化する前提で文法解釈ロジックを考えるべきだと思う。
単語はそれが名詞だろうと助詞だろうと動詞だろうとすべて同列なもので
ただ属性が違うだけ、という風に。

75:デフォルトの名無しさん
07/03/29 03:52:18
>>72
結婚してセックルして、子供が出来て3年後ぐらいに証明できる。

76:デフォルトの名無しさん
07/04/05 13:01:22
しつもんなんですが、
形態素解析ソフトを使わないで、
有る文書の中から重要な単語だけを抜き取る場合、
何か良い案はないでしょうか?

77:デフォルトの名無しさん
07/04/07 22:13:12
まず重要という意味を定義しろﾎﾞｹ

78:デフォルトの名無しさん
07/04/08 05:04:54
>>76
形態素解析ソフトを使わないなら、少なくとも自力か他力で
単語の辞書を作る必要があるよ。他力がお勧め。

辞書が出来たら、文書の中に出てくる単語の出現頻度、出現確率などから
適当に重要さを計算すればいい。
一般には他の文書にはあまり出てこないけど、その文書にだけよく出てくる単語、
というのは重要にすればいい。

79:デフォルトの名無しさん
07/04/11 08:31:23
頻出頻度だけ調べたら
「の」「が」「。」が多いだろうね

80:デフォルトの名無しさん
07/04/11 13:33:38
>>79
最長一致法（最も長い単語を採用する）ではダメだろうか。

81:デフォルトの名無しさん
07/04/11 14:26:12
>>79
助詞を省いて、名詞と動詞だけに限定すれば良いんじゃない？

82:デフォルトの名無しさん
07/04/11 14:33:35
頻度ランク１００以内は無条件に削除、でもまあいける

83:デフォルトの名無しさん
07/04/14 09:57:28
形態素解析せずに、
助詞を省いて名詞と動詞だけに限定できるの？

84:デフォルトの名無しさん
07/04/14 11:22:23
形態素解析は使わないが、辞書は使う、ということだろう。

85:デフォルトの名無しさん
07/04/14 11:25:36
トートロジー

これだから自作自演は・・・

86:デフォルトの名無しさん
07/04/16 14:55:22
トトロがどうしたって？

87:デフォルトの名無しさん
07/04/17 22:02:43
ACL 07 プラハ
URLﾘﾝｸ(ufal.mff.cuni.cz)

LRECと同じく、世界遺産の街で学会開催。
研究発表のため旅費を支給してもらい、ついでの
観光旅行は最高。

88:デフォルトの名無しさん
07/04/17 23:03:43
papersに日本人いねえ
ｵﾜﾀ

89:デフォルトの名無しさん
07/04/18 20:11:57
下から2つめ

90:デフォルトの名無しさん
07/04/19 21:54:37
4つあるじゃん．T研から2つ，K先生，あとMSのSさん．

91:デフォルトの名無しさん
07/04/20 06:04:35
チェコ航空だとウィーン経由。
ウィーンで２泊しても成田・プラハ
往復運賃は同じなので、ACLから２日早く
抜け出して、ウィーン観光をする。

ACLは開催期間が長いので、出張が延ばせ、
良い季節に観光旅行ができる最高の学会だ。

92:デフォルトの名無しさん
07/04/21 03:32:26
うぃ～～～ん

93:デフォルトの名無しさん
07/04/22 09:09:24
辻井先生は元気だな

94:デフォルトの名無しさん
07/04/22 12:07:42
この分野で理論だけじゃなく実際のプログラミング言語で実装している入門書か専門書知らないですか？

95:デフォルトの名無しさん
07/04/23 17:21:13
>>94
全くの見当はずれかもしれないけど答えがないよりましだから、
「LISPで学ぶ認知心理学3 言語理解」
佐伯胖監修田中穂積元吉文男山梨正明共著　東京大学出版会
1983年7月初版 3311-12233-5149

96:デフォルトの名無しさん
07/04/24 08:38:00
たぶんそういうのを求めてるんじゃないと思うが

ちまたにあふれる画像処理本みたいなやつの
自然言語処理版は無いのかってことかと

97:デフォルトの名無しさん
07/04/30 08:55:50
ちょっと質問しますよ

例えばです

今日は天気がいいから
外出しようかな
でも雨が降ったらいけないから
天気予報を見よう

こういう様に複数行に改行された日本語文章があります
２ｃｈのレスもそうです

今日は天気がいいから外出しようかな
でも雨が降ったらいけないから天気予報を見よう

これを一文完結してるようにつなげたいのだけどどうしたらいいんでしょう？

98:デフォルトの名無しさん
07/04/30 09:04:13
文章を１文字、２文字、
３文字、４…と
区切っていき、その文字が
文末に来る文字(辞書から検索する)なら
改行する。

とかは？

99:デフォルトの名無しさん
07/04/30 17:15:49
>>97
きちんとやるなら、真面目に形態素解析するしかなかろう。
尤も句点がないと完璧な判断は無理だけどね。

簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい

100:デフォルトの名無しさん
07/04/30 19:16:28
> 簡易な方法でいいなら、「文末らしい」語の辞書を持っておいて行末をチェックすればいい

簡易すぎ。
せめて次の行の頭が続きそうかどうかは見た方がいい。

101:デフォルトの名無しさん
07/05/01 08:41:16
今日は天気がいいから。
外出しようかな。
でも雨が降ったらいけないから。
天気予報を見よう。

どの文も句点で終わる可能性があるよな

102:デフォルトの名無しさん
07/05/01 08:56:20
>>100
「続き<そう>」これってﾏﾙｺﾌ連鎖とかで確立的に決めちゃう方式ってこと？

103:デフォルトの名無しさん
07/05/01 10:19:01
>>97
接続語でチェックすればいいんじゃね？
「から」は文頭に来ることはなさそう．
「でも」は文末に来ることはなさそう．

104:デフォルトの名無しさん
07/05/03 07:23:18
>>95
あーそれ読んだことある！
確かに「LISPを」勉強するときはそのシリーズいいね。

105:デフォルトの名無しさん
07/05/06 23:07:13
自然言語処理のしの字も知らない俺にオススメな本はありますか

106:デフォルトの名無しさん
07/05/06 23:10:05
「テキストマイニングを使う技術/作る技術」が読みやすくていいよ

107:デフォルトの名無しさん
07/05/06 23:27:08
>>105
田中穂積著　自然言語処理―基礎と応用

108:デフォルトの名無しさん
07/05/06 23:44:31
URLﾘﾝｸ(www.amazon.co.jp)

最近新しい教科書出ないよな

109:デフォルトの名無しさん
07/05/07 07:41:55
>>108
FSNLPってよく推薦されてるけど、そんなにいいか？
あんまり好きじゃないんだけど。

110:デフォルトの名無しさん
07/05/07 09:06:41
すごく偏りがあるのは認める

111:デフォルトの名無しさん
07/05/07 11:31:02
>>108
どっかの研究室で訳してくれないかな

奈良先あたりでさー

112:デフォルトの名無しさん
07/05/07 20:04:41
>>111
URLﾘﾝｸ(www.amazon.co.jp)
ちょっと薄いけどこれじゃだめか？

113:デフォルトの名無しさん
07/05/08 00:06:01
やっぱあれだな。
一口に自然言語処理と言っても形態素解析や係り受け解析のような基礎技術から
テキストマイニングとかのアプリケーションまで幅が広すぎる。
おまけに今は機械学習の各手法を知らないと論文も読めないし、なかなか大変。

研究するって訳じゃなければそんな真剣に考えなくてもいいか。結局何が目的にかによるな。

しかし、新しめトピックもカバーしたライトで実用寄りの入門書は存在しないというのが実情では
ないだろうか。

114:デフォルトの名無しさん
07/05/08 06:32:02
>>113
新しくてライトで実用的って無理じゃね？
「SVMという魔法のツールがあります」から始めるのか？

115:デフォルトの名無しさん
07/05/09 07:50:37
SVMってちゃんと理解しようと思うと
甘利ﾀﾝの情報幾何学まで引っ張り出さないとﾀﾞﾒ

116:デフォルトの名無しさん
07/05/09 09:02:27
文系出身の俺には無理

117:デフォルトの名無しさん
07/05/10 00:08:06
文系ならなおさら言語構造に詳しいだろｗ

118:デフォルトの名無しさん
07/05/10 05:15:00
116はSVMのことでしょ。

119:デフォルトの名無しさん
07/05/10 07:50:33
自然言語処理をやっている研究室って
画像処理をやっている研究室より数が少ないよね？

120:デフォルトの名無しさん
07/05/10 07:53:46
MSが日本語のNLP研究やり始めたからな…
日本ｵﾜﾀ

121:デフォルトの名無しさん
07/05/10 08:36:52
>>120
終わんねーだろ・・・
常識的に考えて・・・

122:デフォルトの名無しさん
07/05/10 10:55:18
画像処理のほうが

123:デフォルトの名無しさん
07/05/10 11:49:07
世界共通言語

124:デフォルトの名無しさん
07/05/10 12:53:44
英語のこと？

125:デフォルトの名無しさん
07/05/10 15:38:07
エスペラント語に決まってんでしょ

126:デフォルトの名無しさん
07/05/10 19:45:55
何それ？

127:デフォルトの名無しさん
07/05/10 19:55:06
自然言語処理の＜教科書＞に登場する
（文科系？）言語学者はチョムスキー
の他は誰？

128:デフォルトの名無しさん
07/05/10 20:02:36
チョムスキーが文科系って･･･

129:デフォルトの名無しさん
07/05/10 21:56:22
スタンフォード大HPSGのSag?

130:デフォルトの名無しさん
07/05/12 07:12:08
ロシア人？

131:デフォルトの名無しさん
07/05/12 08:15:59
LFGのBresnan

132:デフォルトの名無しさん
07/05/19 13:34:51
自然言語処理やったらメーカーに入れるの？

133:デフォルトの名無しさん
07/05/19 14:09:12
メーカーなんて自社製品売ってなんぼだから。自然言語処理とか関係ない。

134:デフォルトの名無しさん
07/05/19 14:16:41
修士卒で自然言語処理関係の仕事をやってる人なんていないよ、と教授に言われました。。。

135:デフォルトの名無しさん
07/05/19 14:38:26
うちは歓迎する

136:デフォルトの名無しさん
07/05/19 15:59:57
むしろ、自然言語処理で学部卒とかどうしようもないっしょ
そんな短時間で何が習得できるってんだ。

137:デフォルトの名無しさん
07/05/19 16:03:14
>>135
どこ？
うちの院（マスター）は過去五年間の就職実績で関連した企業なんて、
ヤフー、ジャストシステムくらいだよ

138:デフォルトの名無しさん
07/05/19 16:04:18
NTTデータとか

139:デフォルトの名無しさん
07/05/19 16:20:43
NTTデータ、Google、MSR、Yahoo
この辺は、院卒前提でしょ。

140:デフォルトの名無しさん
07/05/19 16:26:41
自然言語をまじで処理する仕事したけりゃ、
院卒前提だろうな

141:デフォルトの名無しさん
07/05/19 17:20:44
データって関連してるの？
ただのSIかと思ってた

142:デフォルトの名無しさん
07/05/19 19:39:06
うちのとこ（メーカー）は音声・言語のＵＩ開発してるんだけど、
音声や自然言語をやってた学生には来てほしいよ
でも、いっつも、ぜんぜん違うことやってた学生ばっか来るんだよね

143:デフォルトの名無しさん
07/05/19 19:42:31
カーナビとか？

144:デフォルトの名無しさん
07/05/19 19:53:39
>>142
いい勘してる

145:デフォルトの名無しさん
07/05/19 21:46:58
パイオニア？松下？

146:デフォルトの名無しさん
07/05/19 22:33:49
Microsoft Research行きたいよー

147:デフォルトの名無しさん
07/05/19 23:13:38
自然言語処理の研修室かPLDの研究室か迷ってるんだよなぁ
まぁ行くのは来年度の事だけど

148:デフォルトの名無しさん
07/05/19 23:14:50
自然言語は止めといた方が良いよ

149:デフォルトの名無しさん
07/05/20 19:55:01
n-gramモデルを調べようと思ったのですが、何かわかりやすい解説がされてる資料はありませんでしょうか？
完全に知識0からなので、これらがどう有用なのか、とか、どういう研究に使われてるかなどもわかれば嬉しいのですが・・・。

150:デフォルトの名無しさん
07/05/20 21:04:21
ググレカス (AAry

151:デフォルトの名無しさん
07/05/20 22:30:37
自然言語処理研究者の馴れ合いｷﾓｽ

関西、特に奈良、京都ばっかじゃん

152:デフォルトの名無しさん
07/05/20 22:32:59
>>151
研究室特定すなｗｗ

153:デフォルトの名無しさん
07/05/20 23:59:36
奈良線と京大の馴れ合いですか？

154:デフォルトの名無しさん
07/05/21 00:46:39
NTT

155:デフォルトの名無しさん
07/05/21 01:06:30
>>151
そういうあんたも業界人？

156:デフォルトの名無しさん
07/05/21 01:40:25
名大

157:デフォルトの名無しさん
07/05/21 01:51:54
京大と奈良先端の人多杉ｗｗ
関西人ばかりだということが丸わかりのスレだなｗｗｗ

>>149
簡単な知識だからgoogle先生で十分
厳密さを求めるなら元論文で

158:デフォルトの名無しさん
07/05/21 02:06:43
なんで関西人は自然言語処理好きなの？

159:デフォルトの名無しさん
07/05/21 02:44:33
一昔前、まったく自然言語処理が注目されてなかった時に
予算がなかなか下りなかったって歴史的時代背景じゃね？

で、たまたま、やってた数少ないところが、京大だったって話かと。
奈良先端だって、比較的若い大学院大学っしょ

160:デフォルトの名無しさん
07/05/21 06:46:27
鳥取大学(´･ω･｀)ｼｮﾎﾞｰﾝ

161:デフォルトの名無しさん
07/05/21 23:55:49
東工大は最近どうなん？

162:デフォルトの名無しさん
07/05/22 00:06:11
なぜ東大がでない？

163:デフォルトの名無しさん
07/05/22 00:25:17
鳥取は、京大に居たやつが始めたんだっけな。
関東勢はどうも弱いよな。

164:デフォルトの名無しさん
07/05/22 00:46:25
JAIST

165:デフォルトの名無しさん
07/05/22 11:09:55
徒弟制度じゃないけど、
元をたどればN尾先生の弟子だったり孫弟子だっり。

166:デフォルトの名無しさん
07/05/22 11:28:03
ながおﾀﾝね

167:デフォルトの名無しさん
07/05/22 12:36:19
ながおﾀﾝﾊｧﾊｧ

168:デフォルトの名無しさん
07/05/22 17:54:15
自動翻訳機が発明されないことを祈るスレ
ｽﾚﾘﾝｸ(english板)l50

向こう100年はできないと思ってるらしいぞ

169:デフォルトの名無しさん
07/05/22 18:10:22
機械翻訳の技術が向上していけば
より上質な翻訳が出来る翻訳家以外あぼーんだな

170:デフォルトの名無しさん
07/05/22 20:05:45
でも、所詮今の機械翻訳って、大企業が金に物を言わせて巨大な辞書を作ってお茶を濁してる感じでしょ。
もう破綻した手法だが、だからと言って別の手段だと誤訳率が上がるんだよなぁ。

171:デフォルトの名無しさん
07/05/22 20:13:40
１００億文くらい例文集めても駄目か？

172:デフォルトの名無しさん
07/05/22 20:58:17
英語はほとんどが比喩表現だから辞書いくら作っても無駄ｗ

173:デフォルトの名無しさん
07/05/22 21:12:39
翻訳機械が完成されるのと、脳に意味を直に送信できるようになるのではどちらが先ですか。

174:デフォルトの名無しさん
07/05/22 21:21:32
>>172
>英語はほとんどが比喩表現
そこで、G. Lakoffが登場し、UC Berkeleyの自然言語
処理グループとの共同研究で巨額なNSF資金を獲得する。

175:デフォルトの名無しさん
07/05/22 21:23:32
ぬおお！足りぬ・・・・足りぬぞ・・・！コーパスがッ！

176:デフォルトの名無しさん
07/05/22 22:02:03
まぁ、機械翻訳なんてのは大企業に任せときなさいって
どうあがいても学術機関では敵わない。
小さなコーパスで何か画期的な事が出来るようなモデルを考えるとかじゃない限りな。

177:デフォルトの名無しさん
07/05/23 06:11:12
ATRも大企業になるのか？

178:デフォルトの名無しさん
07/05/23 22:16:50
国からの補助金は削減された？

179:デフォルトの名無しさん
07/05/23 22:18:14
優しくてかわいい彼女が欲しい脳
頭がよければモアベター

180:デフォルトの名無しさん
07/05/23 22:19:28
大規模な誤爆をしました

181:デフォルトの名無しさん
07/05/25 17:00:46
>>1-178を機械翻訳した結果が>>179だぞ。

日本の自動翻訳もここまできた！

182:デフォルトの名無しさん
07/05/25 20:50:27
Google翻訳よりExcite翻訳、Excite翻訳よりYahoo翻訳の方がいいな

183:デフォルトの名無しさん
07/05/25 21:04:15
>>182
>Yahoo翻訳の方がいいな
私もそう感じます。理由をご存知の方はいらっしゃいますか？

184:デフォルトの名無しさん
07/05/25 21:21:07
それは、そう思った理由が、そもまま理由じゃないか？

185:デフォルトの名無しさん
07/05/25 21:28:27
URLﾘﾝｸ(www.google.com)
googleのこの辺を読んでみると、
googleはパラレルコーパスで統計的に処理してるっぽい

日：おはようございます．
英：Good morning.
独：Guten tag.

みたいに各言語の対訳を大量に作ってるのかいな？

186:デフォルトの名無しさん
07/05/26 02:27:55
>>183
Yahooはなぁ、"ぬるぽ"を翻訳したら「ガｯ」になった事があって嗤ったっけ

187:デフォルトの名無しさん
07/05/26 11:15:35
私もそう感じます。理由をご存知の方はいらっしゃいますか？

google翻訳
→I　so　feel.　As　for　the　person　who　knows　the　reason　it　is　and　others　the　[tsu]　plain　gauze　is?　

yahoo翻訳
→I　feel　so　it,　too.　Does　a　person　knowing　a　reason　come?

googleはしっかりしろ
検索ボットやgmailやgoogle　docでテキストを只で手に入れてんだからさー

188:デフォルトの名無しさん
07/05/26 15:34:45
50歩100歩のような。。。

I think so too, Does anyone know the reason?
とか、もっと自然に訳してくれるソフトはないの？
Webの無料翻訳じゃなくて、富士通のAtlasとかでも全然だめなのかな。

189:デフォルトの名無しさん
07/05/26 17:04:07
【福島】男性教諭、同級生を冷やかしていた生徒を注意し頭を叩く→保護者に謝罪
ｽﾚﾘﾝｸ(newsplus板:1番)
ｽﾚﾘﾝｸ(newsplus板:2番)　←

【愛知・発砲立てこもり】解決まで約29時間…｢いつまで作戦考えていたのか｣｢仲間を長時間放置したことは許せない｣　県警内からも批判の声
ｽﾚﾘﾝｸ(newsplus板:1番)
ｽﾚﾘﾝｸ(newsplus板:3番)　←

その他大量多数。
語句の並び替えて文意をめちゃくちゃにするだけで、

　　つ　ま　ら　な　い　し　、う　ざ　い　か　ら　や　め　ろ　よ　

形態素解析覚えたての馬鹿のしわざだろう？
馬鹿ほど使って見せたがるからな。

あと君、著作権法第20条同一性保持権違反だから。

著作権法
（同一性保持権）
第20条　
著作者は、その著作物及びその題号の同一性を保持する権利を有し、
その意に反してこれらの変更、切除その他の改変を受けないものとする。

190:デフォルトの名無しさん
07/05/26 17:15:39
>>187
テキストがあったって意味が分からないと知識にはならんがな。

191:デフォルトの名無しさん
07/05/26 18:10:38
excite翻訳のbizlingoはatlasがベースだろ？

192:デフォルトの名無しさん
07/05/26 20:50:41
オープンソースの英日機械翻訳のプロジェクトはまだないのかな。
結局、機械翻訳っつーのはコーパスをガシガシ整備しさえすりゃいいんでしょ？
ほら、同音多義語なんかは今風にタグでジャンル別に分類すればいいわけだし。
なんかそんな難しい分野じゃない気がしてきた

193:デフォルトの名無しさん
07/05/26 20:55:06
(　＾ω＾)ﾀﾀﾞでｺｰﾊﾟｽ書いてくれる人が居ればね

194:デフォルトの名無しさん
07/05/26 21:06:38
オープンソース厨は(ﾟ⊿ﾟ)ｲﾗﾈ

195:気まぐれアナスイ
07/05/26 21:11:04
上手く理解すれば出来ると思いますが？

196:デフォルトの名無しさん
07/05/26 21:55:55
ソースを部品と見抜けない人には(オープンソースを使うのは)難しい

オープンソース思想家は去れ。
オープンソース厨と罵倒するのは簡単だ。

197:デフォルトの名無しさん
07/05/26 23:33:48
日本語WordNetの構築は、なぜ行われないの
でしょうか？ EDR関係者が邪魔をしているの
でしょうか？

198:デフォルトの名無しさん
07/05/27 01:20:56
関西の連中が牛耳ってるからだろ？
自分とこの研究室で研究させて論文生産して
院生をATRとかNICTあたりに突っ込んで
また自分とこの研究室と一緒に研究させて論文生産して

199:デフォルトの名無しさん
07/05/27 20:00:16
図星かよｗｗｗ

200:デフォルトの名無しさん
07/05/27 20:02:51
>>198が見えない

201:デフォルトの名無しさん
07/05/27 20:05:16
内輪過ぎて大半の人がついてきてないんじゃね？ｗ

このスレは、NISTと京大と鳥取と、ATR、NICTの提供でお送りしました。

ここム板だから、あんまり内輪すぎる話をするのもどうかと

202:デフォルトの名無しさん
07/05/27 20:39:59
まったくの専門外の分野から自然言語処理をやるマもいないだろ？

203:デフォルトの名無しさん
07/05/27 20:44:01
いくらでもいるだろ

204:デフォルトの名無しさん
07/05/27 21:07:14
JAISTのこともときどき思い出してやってください

205:デフォルトの名無しさん
07/05/27 22:57:59
[JN]AIST

206:デフォルトの名無しさん
07/05/28 02:18:19
JAISTとか、能無しが行くところだろ。
名前が似てるだけでNAISTの姉妹っぽい扱いされてるのが気に入らん。全然格が違うのに。
まるで電気通信大学と、大阪電気通信大学みたいだ。

207:デフォルトの名無しさん
07/05/28 02:22:56
いやいや、いくらなんでもこのスレは内輪すぎるだろ・・・ｗ
既に部外者が入り込める雰囲気じゃねぇｗｗｗ
いくら業界狭しといえど、ちょっと狭すぎないか

という俺は、ここに名前すら挙がってない大学の自然言語処理の研究室の人間だけどな・・・orz

>>206
大学院大学に入学資格に関して格差なんてあんの？
学部と違って、大学院に関しては好きな所に入れるイメージあるんだけど。
担当教官とさえ話が合えば・・・

208:デフォルトの名無しさん
07/05/28 02:55:35
まさにセクトの内ゲバだなｗｗ

209:デフォルトの名無しさん
07/05/28 03:45:04
>>206
どっちも同じだろｗ
誰でも入れる院に変なプライド持つなよ

210:デフォルトの名無しさん
07/05/28 10:34:54
何か関西に恨みでもあるのかよ。

211:デフォルトの名無しさん
07/05/28 20:32:28
一応はっとくね

【言語】国立国語研究所、1,000万語分の日本語コーパスを試験公開
ｽﾚﾘﾝｸ(newsplus板)

212:デフォルトの名無しさん
07/05/30 00:42:54
200文字程度のデータを読み込んで、
その文書が英日独仏西伊のどの言語
かを判断するツール／モジュール／
ライブラリを探しています。できれば
perlで使えるものが良いですが、何か
ございますか？

213:デフォルトの名無しさん
07/05/30 00:46:09
Lingなんとか::なんとかっていうモジュールがCPANにあったな・・・

214:デフォルトの名無しさん
07/05/30 12:13:56
googleとつるんでるbasis techで売ってるよ

215:デフォルトの名無しさん
07/05/31 20:58:07
YO！

216:デフォルトの名無しさん
07/06/03 20:22:13
誰かGosen使ってみた人いる？
いたらインスト情報プリーズ。
なんか動かんorz
API周りの変更が原因っぽいが。

217:デフォルトの名無しさん
07/06/04 01:11:41
この分野ってさ
ノーベル賞とか、取ろうと思えば取れるような分野なの？
過去に受賞した人とか居るのかな？

チョムスキーが提唱したような、人間の脳による、正確な生成文法をキチンと科学的に解明出来れば、取れそうなもんだが
ぶっちゃけ、それもう自然言語処理の分野から外れてるような。

いやぁ、今高校2年なんだが、将来どんな分野に行くか考えてる時期で、自然言語処理に興味あるんだけど
どうせなら、ノーベル賞くらいと思ってねｗｗｗ
恥ずかしい夢物語だけどｗ

218:デフォルトの名無しさん
07/06/04 01:24:10
ノーベル生理学賞取るんなら、医学系行って言語野調べたほうがよさそうな。
自然言語処理なら、ノーベル賞よか、チューリング賞じゃないか？

219:デフォルトの名無しさん
07/06/04 11:29:58
自分で賞を創設する

220:デフォルトの名無しさん
07/06/04 22:08:28
やっぱ、ここは長尾賞

221:デフォルトの名無しさん
07/06/04 22:24:19
長尾翔ってもうなくね？

222:デフォルトの名無しさん
07/06/05 02:47:37
誰かチューリング賞くらい取れよ。
日本人じゃあまだ誰も出てないだろ？

個人的にCPU開発者の嶋正利とか、TRONの坂村健とか、ちょっと格が落ちるがRubyのまつともとかは、
とってもいいくらいだと思うんだがな。
ACM会員じゃないとかがやっぱでかいんだろうか、それともアメリカの日本のコンピュータ封じか？

アジアだと、中国人が受賞してたっけ。

223:デフォルトの名無しさん
07/06/05 16:48:52
なんでまつもと氏が取るんだよｗ

224:デフォルトの名無しさん
07/06/05 17:43:56
matzはないｗ

225:デフォルトの名無しさん
07/06/05 18:34:10
マッツって聞くと松屋で牛丼でも食ってきたくなるんだよ
行ってくるわ

226:デフォルトの名無しさん
07/06/05 21:34:35
>>222
>誰かチューリング賞く
同性愛者以外は対象外？

227:デフォルトの名無しさん
07/06/05 23:05:38
フォートランの人がとってたから、matzにもチャンスはあるんじゃね？

228:デフォルトの名無しさん
07/06/06 00:38:33
URLﾘﾝｸ(ja.wikipedia.org)

スレチな流れですね。

229:デフォルトの名無しさん
07/06/06 08:31:01
>>228
つい数ヶ月前に亡くなられたのか。　黙祷。

230:デフォルトの名無しさん
07/06/06 15:00:06
>>216
俺はできたけど、どこで詰まるの？

231:デフォルトの名無しさん
07/06/06 15:23:54
mecabの焼き直しだっけ？

232:デフォルトの名無しさん
07/06/06 16:23:50
mecab->sen->gosen
mecab0.8系?

自前辞書がコンパイルできなかったから、senに戻したよ。
もうmecab-javaにしたい。

233:デフォルトの名無しさん
07/06/06 19:43:27
自然言語処理界のアイドルって誰？

長尾ﾀﾝ？
工藤ちゃん？
たつを？

234:デフォルトの名無しさん
07/06/06 20:15:45
長尾ﾀﾝﾊｧﾊｧ

235:デフォルトの名無しさん
07/06/06 21:34:56
辻たんも黙ってないぞ

236:デフォルトの名無しさん
07/06/06 21:36:45
松っちゃんもいるがな

237:デフォルトの名無しさん
07/06/06 21:57:11
>>234
本人乙

238:デフォルトの名無しさん
07/06/06 23:14:16
長尾バロス

239:デフォルトの名無しさん
07/06/11 16:08:09
AAMTｱｹﾞ

240:デフォルトの名無しさん
07/06/11 20:02:39
はいはいまた馴れ合い

241:デフォルトの名無しさん
07/06/15 15:29:40
URLﾘﾝｸ(hal3.name) かな

242:デフォルトの名無しさん
07/06/19 06:47:41
excite翻訳で　

スゲиシ┐ゝ,ザァ,ユЮ.　
θイ,ゎモモモモマいデ.　
びデた,ゝС,さーモモモモデゝねг　

↑を中国語→日本語翻訳してみると・・・・　
URLﾘﾝｸ(www.excite.co.jp)　

こういうのってわざとやってるの？
それとも偶然なの？

243:デフォルトの名無しさん
07/06/19 17:23:02
朝は必ず私は厨房の妹に飛びかかって、すがりついてお願いして、交尾
して乳をむさぼって、ただぱんぱんぱんぱん穴の中で犯すのがあま
りに犯します凶悪で、妹は身ごもって、今しようがなくぱんぱんぱんぱん妹の友達を犯して我慢します

偶然というより
中国語の文字コード見れば氷解するんじゃないかな

244:デフォルトの名無しさん
07/06/19 20:50:43
うほっmoonとかも？

245:デフォルトの名無しさん
07/06/19 21:22:31
大量のコーパスとして学術論文データが欲しいのですが、ＰＤＦ論文データを大量にＧＥＴできる方法はないでしょうか？

246:デフォルトの名無しさん
07/06/19 21:25:39
○○周年記念DVDとか　なかったっけ？
どこの学会は忘れたが…。

247:デフォルトの名無しさん
07/06/19 22:03:50
変な日本語多いじゃん

248:デフォルトの名無しさん
07/06/25 20:04:39
yamcha-0.33.tar.gzを展開してインストールしようと思ったんだけど、
Makefileが入ってないのは仕様ですか？

249:デフォルトの名無しさん
07/06/26 10:03:44
しょうです

250:デフォルトの名無しさん
07/06/26 12:44:52
public static void main(String[] args){
int [] [] Ma=new int[Machine+1][K+1];
int [] forbid=new int [Job+1];
int [] penal=new int [Job+1];
int Obj=0;

for(int i=1;i<=Job;i++){
int mindue=10000;
int assignJob=0;
for(int i2=1;i2<=Job;i2++){
if(mindue>(duedate[i2]+forbid[i2])){
mindue=duedate[i2]+forbid[i2];
assignJob=i2;
}
}

251:デフォルトの名無しさん
07/06/28 12:12:18
コーパス中の任意の場所が類似しているというのを線形時間ぐらいで近似的に見つけ出すという方法を考えてるんですが、

2chでは特にそういうの（類似表現）多そうですが

助詞が入っていないとか間違ってるとか、
語尾や言い回しが微妙に違うとか、
主語、目的語が違うとか

これとこれとこれと....これが類似してる　と示せます
そして、その「これ」が、先に与えられているわけではない、というやつです。

※エントリとエントリの類似度を測るのではないです。
任意のエントリ中の任意の部分文字列と
任意のエントリ中の任意の部分文字列との中から
（つまり可能な全ての部分文字列の組）

そういうのを全部見つけ出す方法考えたんですが
その、評価方法を知らないでしょうか？

見つけ出す方法は大体できてるんですが、
それがこんなに有効なんですよと、示すための（他の手法との）比較方法がわかりません。（そんな研究が存在しているのかどうか）

252:デフォルトの名無しさん
07/06/28 12:16:50
＞そういうのを全部見つけ出す方法考えたんですが

ｋｗｓｋ

253:デフォルトの名無しさん
07/06/28 15:03:33
lcs?

254:デフォルトの名無しさん
07/06/28 16:53:14

コーパスの例は適当です。

①東京・臨海地区に新しく開設される警察署の名称が「東京湾岸署」となる可能性がでてきました。まだ正式決定ではないですが、
別に踊る大捜査線を意識したものではないのだそうです。.....

②警視庁が来年３月に臨海地区に開署予定の警察署の名称に「東京湾岸署」とする条例改正案を提出する方針らしい。
踊る大捜査線を意識してないと発表してるけど、.....

③「東京湾岸署」新設へ「踊る大捜査線」意識せず
臨海副都心に新設される警察署の名称が「東京湾岸署」に決まった。......

①　[臨海地区に新しく開設される警察署の名称が「東京湾岸署」]
②　[臨海地区に開署予定の警察署の名称に「東京湾岸署」]
③　[臨海副都心に新設される警察署の名称が「東京湾岸署」]

が、それぞれ似ている　Ⅰ

①　[踊る大捜査線を意識した]
②　[踊る大捜査線を意識して]
③　[踊る大捜査線」意識せず]

が、それぞれ似ている。Ⅱ

というように、（厳密一致ではなく）似てると思う部分を（線形時間ぐらいで）列挙するもちろん、①②③は便宜上書いているだけで、このように文書が分かれていなくても

類似検索などでは　「踊る大捜査線を意識」というようなクエリーを与えられてからⅡを返せばよいが、
そうではなく、コーパスを読み込んだときに、こういう類似パターンを「先に全て」列挙する（人間が気づいていない類似パターンがあるかもしれない）

255:デフォルトの名無しさん
07/06/28 17:54:14
卒論の時期なのかな

256:デフォルトの名無しさん
07/06/28 19:42:17
>>251
遺伝子の配列アラインメント問題関連で調査すると良いかもしれないです

257:デフォルトの名無しさん
07/06/29 00:46:45
ブロックソーティング

258:デフォルトの名無しさん
07/07/03 12:30:05
SVMでOK。

259:おねたん
07/07/04 21:36:59
SVMと同様なクラスに分類されるアルゴリズムはいろいろあるだろ
SVMに拘る意味が不明だと思った。知ってる言葉並べただけ？

260:デフォルトの名無しさん
07/07/06 06:04:01
>>259
ハイパーパラメータが少ないし、libsvmなど出来合いのツールで手っ取り早くできるからじゃない?

261:デフォルトの名無しさん
07/07/06 07:16:25
だからブロックソートが一番早いっつーの
インデックスを作る時間を考慮しなければ最大でも線形時間ですむ

262:デフォルトの名無しさん
07/07/06 10:32:13
SVMというﾊﾞｶﾁｮﾝツールが出てきたから
つまんなくなったな

ｶｰﾈﾙ法の奥は深いけどさ

263:デフォルトの名無しさん
07/07/06 14:42:47
SVMのおかげでベースラインには困りません

264:デフォルトの名無しさん
07/07/06 16:53:40
誰か僕にノンパラベイズを教えてください

265:デフォルトの名無しさん
07/07/07 10:33:32
つ今年のACLﾂｰﾄﾘｱﾙ

266:デフォルトの名無しさん
07/07/07 11:04:45
どこ？

267:デフォルトの名無しさん
07/07/07 19:47:06
このスレの人達にいくつか質問が．

エスペラントでは単語の後に品詞を示す接尾語がついていて，
少なくとも品詞解析のレベルまでは曖昧性なしで行けると思うんだけど，
こういう，ある程度文法が整理された人工言語をコンピュータで解析している研究とか知ってる人がいたら教えてください．

エスペラントとかを話す人はかなり少ないけど，
コンピュータによる理解が容易であるなら普及にもつながるはず…と思うんだがそこら辺はどう思う？
たとえば，ある言語Xから英語や中国語へ正確な翻訳ができるなら，Xを勉強するコストを支払うか，という質問．

268:デフォルトの名無しさん
07/07/07 20:33:51
>>266
プラハ

269:デフォルトの名無しさん
07/07/07 20:51:34
そういう問題じゃねえｗ

270:デフォルトの名無しさん
07/07/07 22:16:19
>>267
エスペラント語から英語や中国語へ翻訳ができても、逆ができないなら、魅力はほぼないと思う。
こっちから何か伝えることはできても、相手の言ってることはわからないんじゃ、英語でも覚えるほうがマシ。

逆に、エスペラント語と英語や中国語との間で相互に正確な翻訳ができるなら、当然エスペラント語経由で英中・中英の正確な翻訳ができる。
この場合、エスペラント語はコンピュータが理解してれば充分で、人間は覚える必要がない。

…ってことで、その路線でも普及しないと思うよ、エスペラント語。

271:デフォルトの名無しさん
07/07/08 00:18:45
>>270
でも誰かに読ませるためにHTMLとかを覚える人は沢山いるでしょ．
インターネット上で何か発信したいと思ったらその言語で書けば主要な言語に翻訳されるわけだから，
読む方にとってみれば相当の省力化になると思う．

書く方にしても，マニュアルとか書く人にしてみたら一つ書けば多言語のマニュアルができあがるわけだし．

272:デフォルトの名無しさん
07/07/08 01:24:10
>>267
中間言語にエスペラント語を使った自動翻訳システムがあると聞いたことがある

273:デフォルトの名無しさん
07/07/08 03:35:16
>>272
はいはい

274:デフォルトの名無しさん
07/07/09 02:57:45
>>272
適当に探したら
URLﾘﾝｸ(www.cs.berkeley.edu)
とかがそうだった

275:デフォルトの名無しさん
07/07/16 13:28:35
統計翻訳っていまいちじゃね？

276:デフォルトの名無しさん
07/07/19 10:53:11
MeCab

277:デフォルトの名無しさん
07/07/19 19:38:08
ChaSen

278:デフォルトの名無しさん
07/07/20 11:06:59
JUMAN

279:デフォルトの名無しさん
07/07/20 14:14:31
KAKASI

280:デフォルトの名無しさん
07/07/20 15:47:43
Ukkonen's algorithmが分からん

281:デフォルトの名無しさん
07/07/21 02:57:43
奇遇だな。俺も今Ukkonen's algorithmを実装してる。
確かに難しい。今まで書いたプログラムの中で一番難解だ。

282:デフォルトの名無しさん
07/07/21 07:14:42
(･∀･)ｳｯｺﾈﾝ！

283:デフォルトの名無しさん
07/07/21 09:36:42
MecabやChaSenってURLを一まとめに扱ってくれないみたいですが、扱えるようにするパッチとかはありませんか？

284:デフォルトの名無しさん
07/07/21 13:02:31
解析結果に後処理かますのが一番簡単そう。

285:デフォルトの名無しさん
07/07/22 12:22:03
Win版MeCabにUTF-8を突っ込むのは無理なの？
やっぱ、EUC以外だと、./configureのオプションつけるしかないのかな？

この辺、iconvでも使って、パフォーマンスは落ちるけど、コマンドライン引数で何とかできるようにすればいいのに

286:デフォルトの名無しさん
07/07/22 13:31:03
>>285
そういうラッパーを自分で書けばいいだろ

287:デフォルトの名無しさん
07/07/22 13:57:54
win版も工藤が作ったの？

コードのセンスは良くないよね

288:デフォルトの名無しさん
07/07/22 14:18:30
Haskellってどうよ。

289:デフォルトの名無しさん
07/07/22 14:18:32
正直、MeCabとChasenは辞書を共通にしてもらえるとありがたかった・・・。
そしたら、俺の仕事が大変楽になったのに・・・。
どっちもDARTSライブラリ使いまわしで、DobleArray構成してるんだよね？

290:デフォルトの名無しさん
07/07/22 14:39:45
dartsのベンチって誰かとった？
他にもっと速いのないの？

291:デフォルトの名無しさん
07/07/23 06:51:06
Txは、dartsよりサイズが小さくなるけど、今のところまだ遅いみたいね。

292:デフォルトの名無しさん
07/07/23 08:51:19
Suffix Arrayは駄目なの？

293:デフォルトの名無しさん
07/07/23 10:08:25
はい？

294:デフォルトの名無しさん
07/07/24 05:56:53
ライブラリの話をしてるんだろが・・・

295:デフォルトの名無しさん
07/07/24 14:47:36
ライブラリ途中下車の旅

296:デフォルトの名無しさん
07/07/24 19:20:00
自然言語処理のゴール地点はどこだと思いますか？

297:デフォルトの名無しさん
07/07/24 19:22:29
コンピュータと人間で人間らしい会話ができたらかな

298:デフォルトの名無しさん
07/07/24 20:19:24
チューリングテスト？
それって特定の分野に絞ればもう合格してたような希ガス

299:デフォルトの名無しさん
07/07/24 22:56:11
ELIZAタイプは例外ルールだとよ。

300:デフォルトの名無しさん
07/07/25 07:56:58
昔ラクターってソフトがあってな

301:デフォルトの名無しさん
07/07/25 09:11:04
ねーよ

302:デフォルトの名無しさん
07/07/25 20:22:11
URLﾘﾝｸ(en.wikipedia.org)
あるーよ

303:名無しさん＠そうだ選挙に行こう
07/07/29 16:34:48
　　　　　いいか､みんな
　　　　　　　　(ﾟдﾟ )
　　　　　　　　(|　y |)

　　　ハードディスクが中国で人気が在ると言っても
　　　　　　　　　　　　　　
　　　　　ハード　( ﾟдﾟ)　ディスク！
　　　　　　　＼／|　y |＼／

　　　exciteの中国翻訳で日本語に訳してみよう。
　　　　　　　　( ﾟдﾟ)　ハードディスク
　　　　　　　　(＼／＼／

　　　すごい事になりますた。
　　　　　　　　( ・д・)
　　　　　　　　(|　y |)
URLﾘﾝｸ(www.excite.co.jp)

304:名無しさん＠そうだ選挙に行こう
07/07/29 19:41:07
こうでんしゃって新卒とってるのかなー

305:デフォルトの名無しさん
07/07/30 15:38:50
>>303
各種ディスクドライブ
でやってみると…

306:デフォルトの名無しさん
07/07/30 23:47:39
「ババブーディンゴ」とか。

307:デフォルトの名無しさん
07/07/31 18:52:56
LFG理論に基づく自然言語処理を30年近く続けてきたRon Kaplanが
Powerset社に参加し，サーチエンジンに自然言語処理を本格的に
応用する。

Kaplan, who has led the [Xerox PARC] “natural language” group for several years,
joined Powerset as chief technology officer in July.

URLﾘﾝｸ(72.14.235.104)

LFGを応用すると，こんな検索が可能となるそうだ。
“Who acquired IBM?” Google will give you lots of results about companies that
IBM acquired, even though that’s not what you asked. Powerset, on the other
hand, will give results of the companies that acquired IBM units

LFGは日本語の処理も可能で，多言語対応版はXFGと呼ばれている。

ACL2007ではPowerset社COEが基調講演を行った。講演後にKaplanとともに
皆の祝福を受けていた。

308:デフォルトの名無しさん
07/07/31 21:19:55
せきねしね

309:デフォルトの名無しさん
07/08/01 09:45:52
ごめん、検索エンジンを高機能化するって
いったい現状のどこが不満なのかわからん。
推論マシンみたいにしたいって事？

310:デフォルトの名無しさん
07/08/01 09:48:53
心を読み取る装置は本当に実在する！！

僕、実は思考盗聴されているんですけど！その3
ｽﾚﾘﾝｸ(jinsei板)

311:デフォルトの名無しさん
07/08/01 10:00:01
キーワード入れるんじゃなくて、いわゆる自然文検索ってことかしら？

312:デフォルトの名無しさん
07/08/01 12:28:35
今のGoogleってwikiがいつも上位に来て、ちょっと間違ってるような気がする。
最近出来たばっかりのページでも「正しい」内容を書いてあるページを
理解して、そこを上位にして欲しい。

313:デフォルトの名無しさん
07/08/01 13:12:05
ようするに

"日本国の総理大臣は誰ですか？"
"今流行のファッションはなんですか？"

って検索すると、答えのページが出てくるって話だろ。

Prologを実装したらよくね？ｗ

314:デフォルトの名無しさん
07/08/01 13:37:55
Powersetが14億7千5百万円を投資家から集める
Powerset gets $12.5M

URLﾘﾝｸ(72.14.235.104)

日本の自然言語処理も高く売れるといいね。

Powerset/PARCのLFGパーサー出力を次にどのように意味分析するかは，
企業秘密なのだろう。講演を聞いても分からなかった。同じACL2007で
元PARCの研究者がLFG+意味解釈について発表していた。彼女は，
Powersetとは関係ないが，参考になるかも。

URLﾘﾝｸ(www.aclweb.org)

315:デフォルトの名無しさん
07/08/01 13:52:47
URLﾘﾝｸ(www.freewebs.com)

316:デフォルトの名無しさん
07/08/01 14:03:14
基本語彙群を理解でき、かつ、基本語彙のみにより他の語を完全に理解できるという状況を考える。
未定義の語を基本語彙へ置き換えることで定義すれば、理解できた（定義された）文は、基本語彙のみにより記述されている。
ただし、語に複数の意味がある場合、意味で分類しなければならない。どの意味になるかは、文の理解に必要で、
人工知能が正確な意味を確認する状況も想定される。例えば、「肩車」を「肩」と「車」の
複合語として読み取った場合、「車」は一般的な「自動車」の意味なのかを確認する必要があるかもしれない。

317:デフォルトの名無しさん
07/08/09 21:43:03
このスレの住人って2chの過去ログを解析して関連スレを列挙するくらい朝飯前ですか？
そんな感じの処理に役立つソフトやライブラリ、アルゴリズムを教えてください。

318:デフォルトの名無しさん
07/08/09 21:55:45
カテゴリ分けに必要な辞書作成に、時間と労力を消費するから
個人がどうとか言うレベルの話ではないと思われ。

319:317
07/08/09 22:12:49
えー。でもローカルに落とした過去ログって何かもったいなくないですか？
個人利用にとどめれば2chは訴えたりしないだろうし、一種のコーパス、知識データベースとして
見ればなかなかオイシイですよ。特に質問スレ。
聞いたことあるな～って単語があったとき、詳しく知るためにgrepしたこと数知れず……。
もしかして私だけ？(￣～￣；)

320:317
07/08/09 22:25:32
ローカルの過去ログ集合に対して、各ログを形態素解析
↓
平均との差分を取って、出現箇所の偏りが激しい単語を抽出
↓
それらの単語について共起確率を計算、適当にカテゴリ化
↓
カテゴリ内の距離を詳しく計算

みたいな感じで地図つくったらなんか便利そうなのよね。

321:デフォルトの名無しさん
07/08/10 00:08:11
A社のコーパスをNさんが機械的に処理して何らか統計情報（単語のリスト、出現数、共起確率など）を得た場合、
この統計情報は誰のものになりますか？
A社のコーパスのかわりに、B社のWEBサイトの文章を使った場合についても教えてください。

322:デフォルトの名無しさん
07/08/10 07:55:01
>>321
統計情報のみの提供なら、統計情報は統計情報を作った人の物。

323:デフォルトの名無しさん
07/08/11 09:01:35
そうなの？

だめなんじゃない？

324:デフォルトの名無しさん
07/08/11 09:02:23
社会保険庁の名前処理で
声かけられた人いる？

325:デフォルトの名無しさん
07/08/11 09:19:14
DoubleArrayとSuffixArrayを比べた場合。
SuffixArrayの利点は何かあるんでしょうか？
直感的に(実装が)分かりやすいくらい？

326:デフォルトの名無しさん
07/08/11 12:48:12
比べるのが間違ってる。

327:デフォルトの名無しさん
07/08/11 13:47:05
90年代のアルゴリズムと比べるとかありえない…
特定分野に限れば、Suffixに構築速度の点で一応分がある

あとDoubleアレイは辞書引き特化だから、全文検索に使うのは一工夫いる

328:デフォルトの名無しさん
07/08/12 03:38:32
>>323
Googleとか、普通に検索エンジンのデータ流用してるし、売ったりもしてるっしょ。

329:デフォルトの名無しさん
07/08/12 09:32:49
市販の辞書はダメでしょ？

辞書ファイルをぶっこぬいて
それを処理したら・・・

330:デフォルトの名無しさん
07/08/14 18:15:10
そういや、Googleのクエリサーバーのディスクスペースってどれくらいあんのかな？
そこから大量の統計データ取ってそうだけど。

331:デフォルトの名無しさん
07/08/14 21:38:33
ｸｴﾘｻｰﾊﾞとかﾃﾞｨｽｸｽﾍﾟｰｽとか、なんて前時代的な。

332:デフォルトの名無しさん
07/08/15 18:30:14
>>329
辞書とか確率とか、自然言語処理って圧縮操作に似てるところがあるから、
オリジナルの劣化圧縮版と見做されると危険は常にあるよね。

市販の辞書をコーパスにするのがまずいっていうのは、そういう背景があってのことでしょ？
言い換えるなら、情報の有無自体が辞書の価値だからさ。

333:デフォルトの名無しさん
07/08/15 18:31:20
記号論的人工知能も、自然言語処理も、
なんか時代に取り残されてる感じだよね。

統計学を熟知したスーパーハカーが趣味で書いたコードのほうが
実際には訳に立ちそうな感じ。スパムフィルタとか。

334:デフォルトの名無しさん
07/08/15 19:12:48
>>332
そういえば、Googleは他人のサイトのデータを勝手に使って、色んなサービス(検索エンジン自身も)をやってるわけだけど
ああいうのって、裁判起こされたりしないのかな？

335:デフォルトの名無しさん
07/08/15 19:43:48
>>334
Google「おいおい、俺らは利用者のためにサービスを向上させてるだけで、
　　　　　それ以外のことはしてないぜ？」
Google「俺らのサービスは、利用者をオリジナルのサイトに案内することだ。
　　　　　そのために要約を作ったり、統計を使ったり、辞書を作ったりする。
　　　　　ついでに広告も出す」
Google「どうしても嫌ならサイトのトップディレクトリに robots.txt 置けよ。
　　　　　お望みどおり、サイトが『存在しなかった』ことにしてやるからｗｗｗ」

という感じ。

336:デフォルトの名無しさん
07/08/16 18:48:50
なんというネットマフィアｗ

337:デフォルトの名無しさん
07/08/16 20:34:24
Googleは他人のふんどしで相撲を取ってる、というイメージが付きまとって
好きになれない。

338:デフォルトの名無しさん
07/08/16 21:52:42
>>334
なんかグレーゾーンって著作権やってる弁護士に聞いたことある。
特にキャッシュなんかはまずいらしいけど。

339:デフォルトの名無しさん
07/08/17 18:58:12
しかしそのGoogleの食べ残しに群がるだけの研究の多いこと。

340:デフォルトの名無しさん
07/08/17 22:27:14
もうGoogleがいるから研究する気なくなりそう。

341:デフォルトの名無しさん
07/08/18 02:13:49
っていうか逆逆
研究やってるヤツが、Googleに引き抜かれるんだよ。
Googleそのものが研究の大部分をやってたわけじゃない。
Googleがいるから研究が出来ないとか、根本からおかしい。
あそこは所詮商業的な活動をする企業だよ。

342:デフォルトの名無しさん
07/08/18 10:36:37
Googleに人材引き抜かれる
→優秀な人はGoogleで研究する & Google以外は人が減る
→Googleに太刀打ちできない！

あってると思うが？
あと研究が"出来ない"とはだれも言ってない。

343:デフォルトの名無しさん
07/08/18 17:46:22
ホラ来た脳内妄想強弁するおかしな奴

344:デフォルトの名無しさん
07/08/18 19:07:24
構文解析アルゴリズムってどれがいいの？

345:デフォルトの名無しさん
07/08/18 19:50:57
脈絡のない単発質問は
回答しても時間の無駄なので却下

346:デフォルトの名無しさん
07/08/19 03:54:03
>>345
掲示板で脈絡とか痛い奴だな。
わかんねーならただROMってろよ、低脳。

347:age
07/08/19 13:03:15
>>344
ルール？確率？

348:デフォルトの名無しさん
07/08/19 14:39:32
その件は却下だそうです

349:デフォルトの名無しさん
07/08/19 22:18:58
>>347
なんでもいいんで研究で使ってるアルゴリズム教えてください。

350:デフォルトの名無しさん
07/08/19 23:29:42
>>349
わかんねーならただROMってろよ、低脳。

351:デフォルトの名無しさん
07/08/19 23:59:49
話題提供もできねぇ奴がのさばるな>>350

352:デフォルトの名無しさん
07/08/20 00:05:01
いつもいつものパターンとして、
唐突な単発質問に真面目に答えてやると、
どっかのバカ匿名掲示板の運用者が
それをネタにまたぞろバカビジネスを企画する
って展開もう飽き飽きだからなぁ。
真面目に答えて欲しいなら、金を出せ。以上だ

353:デフォルトの名無しさん
07/08/20 01:08:53
糞過疎スレの癖に一丁前に荒れててワロタ

354:デフォルトの名無しさん
07/08/20 11:45:10
>>349
つ URLﾘﾝｸ(acl.ldc.upenn.edu)

355:デフォルトの名無しさん
07/08/21 14:33:53
suffix array作って、lcp求める、までコードを書いたのですが、
そこから単語出現頻度を求めるとなると、SIL,LBLという手法を使うみたいでして、
これがいまいちパッとしない感じがしてしまうのですが、
現在でも使われているのでしょうか？

356:デフォルトの名無しさん
07/08/21 17:43:48
URLﾘﾝｸ(www.sematics.co.jp)

357:デフォルトの名無しさん
07/08/22 08:58:57
英国辞書出版社が辞書編纂に使用してきたシステムを
一般公開。日本語の検索もできて、便利。
Adam Kilgarriffはこの世界では結構有名。
URLﾘﾝｸ(www.sketchengine.co.uk)

358:デフォルトの名無しさん
07/08/22 10:05:26
>>355
ここは金を払わないとまじめに答えたくないヤツしかいないから、他にあたった方がいいよ。

つーか、このスレ何の為のスレなんだろうな。

359:デフォルトの名無しさん
07/08/22 15:18:42
まあ、誰も答えてくれないのは355の質問が結局何を聞きたいのか分からないからなわけだが。

>>355
Suffix ArrayのはMSRのChurchさんが昔書いたジャーナルを読んだら大体分かる筈。
現在も使われてるかという質問なら
「使う奴も居る。もうちょっと頭の良さげな方法を使ってる奴も居る」
としか答えられない。

360:デフォルトの名無しさん
07/08/22 17:06:45
少なくとも、ここ1・2年の発表で、研究としてSILやLBLを使ったのは見た事は無いな。
業務では使ってるかも知れないし、使ってないかも知れない。

361:デフォルトの名無しさん
07/08/22 20:11:31
SILとかLBLってなに？

362:デフォルトの名無しさん
07/08/23 12:29:48
>>359
「もうちょっと頭のよさげな方法」ってなに？

363:デフォルトの名無しさん
07/08/23 22:06:54
すぐ質問する人工無能が涌いてるな。

364:デフォルトの名無しさん
07/08/23 22:11:29
病院発見

365:デフォルトの名無しさん
07/08/23 23:31:24
>>360
コイツはしったかか？

366:デフォルトの名無しさん
07/08/24 00:13:50
現在でも使われているのでしょうか？っていう質問が悪かったんですかね。

suffix arrayの構築法なんかは進化がむちゃくちゃ速いようだったので、
SILとLBLがそんなん使うなよ！ってレベルのものなのか不安になりまして。(参考にしたのは2005年のものでした)

今は
URLﾘﾝｸ(project.carrot2.org)
を参考にして作ってます。SILとLBLに比べたらずいぶんわかり易いです。

367:デフォルトの名無しさん
07/08/24 09:59:24
NAISTの連中が身内以外に情報あげるわけないじゃんｗ
このスレは、NAISTの連中が、素人の質問を見ながらニタニタするスレだよ！

368:デフォルトの名無しさん
07/08/24 11:52:31
奴らの閉鎖性にはびっくりするよ
質問のメール出しても論文欲しいって言ってもそっけないし

369:デフォルトの名無しさん
07/08/24 12:52:10
どういう流れでNAISTが出て来るのだ？

370:デフォルトの名無しさん
07/08/24 14:04:27
NAISTのあの研究室はそんなに偉いのか？？

371:デフォルトの名無しさん
07/08/24 14:24:36
NAIST（笑）

372:デフォルトの名無しさん
07/08/25 01:20:44
奈良先を批判する書き込みが増えたとたんそれらしい書き込みがなくなったのは>>367が言ってることが正しいってことがわかるね。

373:デフォルトの名無しさん
07/08/25 02:52:30
・・・？

374:デフォルトの名無しさん
07/08/25 04:12:10
NAISTの連中って馬鹿のくせにプライドだけは一丁前だからなぁ

375:デフォルトの名無しさん
07/08/25 04:39:25
NAISTを知らんバカ

376:デフォルトの名無しさん
07/08/25 04:40:52
頭が悪いからすぐ釣れるｗ

377:デフォルトの名無しさん
07/08/25 04:42:19
お、食いつき早いな

378:デフォルトの名無しさん
07/08/25 04:53:55
そもそも、何故suffix arrayの話からNAISTを叩くのか分からぬのだが。

379:デフォルトの名無しさん
07/08/25 04:58:49
誤爆から始まったんだろう

380:デフォルトの名無しさん
07/08/25 09:14:28
JUMANとCHASENなんか死んでもつかわん
あんな糞ライブラリ

やっぱり工藤ちゃんだね

381:デフォルトの名無しさん
07/08/25 10:12:15
誰か>>380につっこまなくて良いの？
特に奈良先や京大の人とか

382:デフォルトの名無しさん
07/08/25 14:23:37
全入NAIST（笑）

383:デフォルトの名無しさん
07/08/25 15:16:36
>>380
わかってて書いてるんだろうか・・・

384:デフォルトの名無しさん
07/08/25 18:44:52
速度も糞
精度も糞
コスト値推定も糞
ライブラリとしても糞

mecab最強

385:デフォルトの名無しさん
07/08/25 18:55:26
本気で分かってなくて書いてるんだな。
工藤氏はNAIST出身
Chasenの開発もやってた人。
そのChasenを改良したのがMeCab
そのMeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen

386:デフォルトの名無しさん
07/08/25 19:12:00
釣れちゃったｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗｗ

387:デフォルトの名無しさん
07/08/25 22:52:48
MecabはWindows版、Perl版が糞
あれなら無いほうがマシ

388:デフォルトの名無しさん
07/08/26 09:20:09
>>385
>MeCabをフルスクラッチで書き直してネイティブJavaにしたものが、Sen
処理速度はMeCabが圧倒的に早い？

389:デフォルトの名無しさん
07/08/26 11:19:46
>>388
こんな事言うとJava信者から猛バッシング食らうかも知れないけど
それは、Javaが圧倒的に遅いからだと思う。
コード的にはSenは随分綺麗になった。

390:デフォルトの名無しさん
07/08/26 11:43:55
Mecabはソース読んだことないからわからないが、Senのコードは結構ヘボいぞ。

391:デフォルトの名無しさん
07/08/26 14:55:14
今時中学生が書く程度のコードだと思った。
正直な感想です。

392:デフォルトの名無しさん
07/08/26 16:06:17
中学生がプログラミングなんてやらんだろ。
やっても、BASICでゲーム製作が関の山
正直な感想って、どんだけ捻くれてるんだよｗ

393:デフォルトの名無しさん
07/08/26 16:49:24
>>392
読めばわかるよ。

394:デフォルトの名無しさん
07/08/26 17:17:24
中学生がプログラミングと言うマイノリティな状況を想定してる時点で察しろ。

つーか、もしプログラミングをunder18世代が出来るとすれば、14～16くらいの方が一般的にハイレベル。
世界的なすげぇPGやハッカーは、みんなこの年代だし。俺らみたいな頭の固いヤツよりはるかに良いコードを書くよ。
そういう意味では、中学生的コードの書き方と言うのは、絶賛と言う意味になるわけだが…

395:デフォルトの名無しさん
07/08/26 17:19:41
>>394
頭は柔らかいかもしれないが、一番分かりやすいのが変数・関数名のつけ方がｒｙ
Senのコードはまさにそれ。ハッカー的コードだが、教養の無さが露見

396:デフォルトの名無しさん
07/08/27 07:49:31
漏れもここで叩かれるぐらい有名になりてー

397:デフォルトの名無しさん
07/08/27 12:41:16
>>392
やりますからｗ

398:デフォルトの名無しさん
07/08/27 13:03:13
中学生じゃなくて
程度の低い高校生じゃなかろうか

399:デフォルトの名無しさん
07/08/28 02:12:27
なんか関係ないことがずっと続いてますのでそれらしい話題を。

自然言語処理を研究している人たちは計算機科学的アプローチ、認知科学的アプローチ、アルゴリズム的アプローチ、言語学的アプローチ、どのアプローチで研究してますか？

400:デフォルトの名無しさん
07/08/28 07:53:47
思いつきアプローチｗ

401:デフォルトの名無しさん
07/08/28 08:28:51
>>394
本人様ですか？
そりゃ失礼ｗ

402:デフォルトの名無しさん
07/08/28 09:54:53
>>399
そういう偏ったアプローチはやりません。

403:デフォルトの名無しさん
07/08/28 11:04:38
統計工学的アプローチ

動けばよかろうなのだァッ！！

404:デフォルトの名無しさん
07/08/28 13:18:18
>>403
流行だね。でもちゃんと結果でるし。

405:デフォルトの名無しさん
07/08/28 14:39:22
今時工学的な応用を考えないでいる人なんて珍しいんじゃね？

406:デフォルトの名無しさん
07/09/01 18:31:45
この業界って、研究用プログラムって基本的に何で動かすの？
UNIX系？それとも、最近はWindows？
いつも、Cygwinでゴリゴリコーディング＆動作させながら
時代錯誤じゃないか？って思うようになってきた。

407:デフォルトの名無しさん
07/09/01 18:33:57
linuxでやってるんだろ

408:デフォルトの名無しさん
07/09/01 21:41:45
ソラリスに決まってんだろ。

最近は、コンパイラ性能は、MSのがかなり強いんだって？
gccで十分とか思ってたが、そんなに差があるものなのだろうか。

409:デフォルトの名無しさん
07/09/01 21:44:59
今時Solarisはねーよｗｗｗ

410:デフォルトの名無しさん
07/09/01 22:28:57
Mac OS Xという可能性も。
というか、この分野のMac率の高さは異常。
でもまあ、大規模な実験はそれなりにリッチなハードに入ったLinuxでやるのが普通かと。

411:デフォルトの名無しさん
07/09/01 23:49:12
Mac OS Xが常識だろ。windowsならcygwin

412:デフォルトの名無しさん
07/09/02 00:25:06
mac　os　xのなにがいいわけ？

413:デフォルトの名無しさん
07/09/02 00:28:17
UNIXだから。

とか？ｗ
ネタでしょ？本当にMacOSXなんて使ってんの？

414:デフォルトの名無しさん
07/09/02 00:31:03
普通は簡単な開発は、WinでCygwin
普通の実験は、Linux
大規模になると、どっかのメインフレーム間借りして24時間数ヶ月回すって感じ。

Macは流石にネタだろう・・・。
聞いた事無いぞ・・・。

Solarisは、数十年前では定番だったが、今はありえない。

415:デフォルトの名無しさん
07/09/02 01:17:09
Macで開発してLinuxで回すって人も結構いる。
でも、単に自然言語の研究者にMacユーザが多いからかもしれん。
個人的にはマルチバイトな言語をやるんならWin使った方が苦労が少ないと思う。

416:デフォルトの名無しさん
07/09/02 04:42:10
なんで Solaris がありえねーんだよ低能が。
並列処理を有効利用できない技術不足君ですか。

417:デフォルトの名無しさん
07/09/02 07:51:21
solarisだと並列処理がすごいの？

418:デフォルトの名無しさん
07/09/02 09:06:04
linuxでもwindowsでも並列処理はできるね

419:デフォルトの名無しさん
07/09/02 09:47:10
Cygwin使うのに何か理由あるのかな。

420:デフォルトの名無しさん
07/09/02 10:08:44
OSXは結構見るけど。

421:デフォルトの名無しさん
07/09/02 21:12:48
>>419
本番環境に合わせるためでしょ。
開発はWinの方がやりやすいし。

>>416
今時Linuxでも並列処理出来るだろ。
なんで、わざわざそんだけの為にソラリスなんだよｗ

422:デフォルトの名無しさん
07/09/02 23:46:24
Linuxのタスクスイッチが(ry
Kernel読むとわかるけど、ふつー読む気にならん位のソースなんだよなあれって

423:デフォルトの名無しさん
07/09/03 00:23:26
Solaris だと凄いんじゃなくて他がダメなだけ。Linux を例に挙げると安定度やスケーラビリティに問題がある。
できるとかいってるアホがいるけど、どうせまともな検証もせずに「俺の作ったのは動いたよ」レベルなんだろ？
小物データを片手で数えられるような CPU で処理してる低能にはわかんないかもね。

424:デフォルトの名無しさん
07/09/03 00:27:24
Solaris厨必死だｗｗｗ

425:デフォルトの名無しさん
07/09/03 00:40:08 BE:281470829-2BP(400)
ぶっちゃけPOSIX互換ならどれでもいい。
それ以上のお話は他所でやってくれ

426:デフォルトの名無しさん
07/09/03 01:05:09
まあ、別に並列に拘らなくても新し目のCPUを幾つか積んだLinux機数台で
適当に書いたコードをきりきり回せば良いんじゃね?
商用Unixにかけるコストをハードウェアにかけた方が後々楽。

427:デフォルトの名無しさん
07/09/03 01:16:15
>>423
化石にも程がある。
今の時代、一体どれだけのLinuxユーザーが居ると思ってるんだ。
そんなもん、とっくに検証されて、改善されてるだろ。

＞Linux を例に挙げると安定度やスケーラビリティに問題がある。
随分昔の知識か、またどうせ受け売りか、先入観だろ。
馬鹿馬鹿しい反論だな。そう言うなら、ソース出せ。
どうせ自分で検証して無いくせに。してたとしても、それは自分の実装が悪いんだろ。

428:デフォルトの名無しさん
07/09/04 09:44:32
今更、犬ってｗｗｗ

429:デフォルトの名無しさん
07/09/04 10:03:32
これからLinuxでしょ。世の中は。

430:デフォルトの名無しさん
07/09/04 10:12:25
最近、新しく用意したマシンは、全部OpenSolaris(SXCE)にしてるよ。
Nexentaは期待してるけど、まだだね。

DTraceはべんりだよ。面倒くさいけど。

431:デフォルトの名無しさん
07/09/05 07:13:05
（　´_ゝ｀）

432:デフォルトの名無しさん
07/09/05 21:02:40
>>427
ほほう。典型的な低能ですな。そんなに Linux をマンセーしたいのかい？
ユーザーが多いって、おま Linux なんて 2 コアとかせいぜい 4-8 コアの趣味人層がメインだろうが。
それ以上もいないとはいわんが、レアである事は間違いない。

> 随分昔の知識か、またどうせ受け売りか、先入観だろ。

なんか必死だな。ただ思い込みの激しいだけかもしれんけど。
こっちは検証した結果だめだったていってんだよ。他にも現行のスケジューラの問題点は指摘されてんだろ。
検証してねーのはおまえだろう。一応 CFS には期待してますよ。

433:デフォルトの名無しさん
07/09/05 21:08:00
うん、だから、ソース。

434:デフォルトの名無しさん
07/09/05 21:53:19
>>432
なんで必死なの?
大体、そんな大層ご立派な計算機環境であなたはどんなご立派な成果を出してるの?

435:デフォルトの名無しさん
07/09/05 23:04:11
>>434
お前痛々しいよ

436:デフォルトの名無しさん
07/09/05 23:10:25
>>434
煽っても無いものは出せんよ

437:デフォルトの名無しさん
07/09/07 07:42:19
URLﾘﾝｸ(jp.sun.com)
URLﾘﾝｸ(jp.sun.com)

438:デフォルトの名無しさん
07/09/07 08:00:24
URLﾘﾝｸ(ja.wikipedia.org)

439:デフォルトの名無しさん
07/09/08 07:31:03
なんだ
馴れ合い大好き奈良先のsun厨が書き込んでいたのか

440:デフォルトの名無しさん
07/09/08 14:41:14
ったく、これだから全入は

441:デフォルトの名無しさん
07/09/08 15:07:37
ま、前聞いたら、かの大学のかの研究室のメイン環境はGentooらしいけどね。
Gentooの中の人がいるらいいんで。

442:デフォルトの名無しさん
07/09/08 15:16:54
どうも人口無能です

440>>
全入ってなに？奈良先が全員入学できるってこと？アホな僕に愛の手を

443:デフォルトの名無しさん
07/09/08 15:58:55
>>441
なるほどそれで最近目立った成果がないのか。
不思議だったんだけど謎が解けた。

444:デフォルトの名無しさん
07/09/08 16:37:46
443>>人口無能にわかるように教えてくれぇ～

445:デフォルトの名無しさん
07/09/08 17:54:18
お前は、人口無能じゃなくて、天然無能だろ。

446:デフォルトの名無しさん
07/09/08 22:35:15
個人的に集めたテキストデータから共起辞書を作って
閲覧するツールって、文書書いたりするときに
すごく役に立ちそうだけど、共起辞書でぐぐっても
あんまりヒットしない。

なんでこんなに知名度低いの？
もしかして検索の仕方間違えてる？

447:デフォルトの名無しさん
07/09/08 22:45:28
EDRを本格的に活用している最近の研究はありますか？
フィリーでないのが利用者が少ない原因ですか？

448:デフォルトの名無しさん
07/09/09 00:57:14
奈良先は定員割れの話を聞くな…
うちも人ごとではないが

449:デフォルトの名無しさん
07/09/09 01:13:49
自然言語処理と画像処理に関しては、奈良先はまだ大丈夫でしょ。
まだまだ、ブランド力はある。

ま、それも時間の問題だろうがな。
今まで他がこの分野に目を付けなかっただけの事。

450:デフォルトの名無しさん
07/09/09 01:16:32
他が真剣にやりだしたら奈良先のアドバンテージなど･･･

451:デフォルトの名無しさん
07/09/09 08:00:47
灯台、鏡台も馴れ合ってるから大丈夫だよ

452:デフォルトの名無しさん
07/09/09 18:20:02
googleも最近は自動でクエリ拡張するじゃない?
あれはシソーラスはどうやって作ってるんかしら。

453:デフォルトの名無しさん
07/09/09 21:35:13
>>447
EDR使って何したいの？

454:デフォルトの名無しさん
07/09/10 01:06:07
統計の構文解析アルゴリズムのなかで、非決定的アルゴリズムある？

455:447
07/09/10 07:40:25
>>453
というか、WordNetは、今でも多くの
研究者が利用しているのに、日本の研究者が
EDRを積極的に利用していないような印象を
受けたので、質問してみました。

456:デフォルトの名無しさん
07/09/10 12:23:59
>>454
統計的なアルゴリズムはもとから非決定的なのでは?

457:デフォルトの名無しさん
07/09/10 12:36:09
>>456

そう？

458:デフォルトの名無しさん
07/09/11 00:14:54
同じデータ食わせれば同じ結果吐くんじゃ？そういうことではなくて？

459:デフォルトの名無しさん
07/09/11 00:20:37
URLﾘﾝｸ(ja.wikipedia.org)

460:デフォルトの名無しさん
07/09/11 08:25:37
wikipediaのデータは信用ならん。
嘘ばっか書かれすぎ。

461:デフォルトの名無しさん
07/09/11 08:39:28
と根拠も示さないお前の言い分よりもはるかに信用できる

462:デフォルトの名無しさん
07/09/11 11:40:45
プログラミングの世界で非決定性というのは
ひとつの問いかけに対して、複数の解がありうる場合を
いう。このWikipediaの非決定的アルゴリズムの説明は
これを完全に欠いており、 >>460 が正しい。

463:デフォルトの名無しさん
07/09/11 11:49:30
ほう、それで嘘はどこ？

464:デフォルトの名無しさん
07/09/11 13:05:34
無い

465:デフォルトの名無しさん
07/09/11 16:52:01
低脳すぎｗｗｗ

466:デフォルトの名無しさん
07/09/12 00:58:32
晒しage

467:デフォルトの名無しさん
07/09/12 02:43:18
>>460
>>462

468:sage
07/09/15 21:10:57
トポロジーを用いた意味解析って？？

469:デフォルトの名無しさん
07/09/15 21:22:13
チョムスキー大復活の悪寒

470:デフォルトの名無しさん
07/09/15 23:27:25
形態素の遷移を表した複雑なグラフ構造を
2Dあるいは3Dしか表示できない現代のディスプレイに
上手く表示するにはどうすれば？？？

グラフ理論とかそういうのが必要ですか？

471:デフォルトの名無しさん
07/09/16 13:20:31
画像処理ｽﾚ池

472:デフォルトの名無しさん
07/09/16 15:09:36
何だ、こたえられないのか

473:デフォルトの名無しさん
07/09/16 15:11:19
はいはい
グラフ理論とかそういうのが必要必要

474:デフォルトの名無しさん
07/09/16 15:21:42
ま、所詮この程度だよなｗ

475:470
07/09/16 16:29:47
助言ありがとうございます。
画像処理スレで質問してみようと思います。

476:デフォルトの名無しさん
07/09/18 21:27:56
Powersetって？

477:デフォルトの名無しさん
07/09/18 21:57:06
POwerSeT GOOGLE

478:デフォルトの名無しさん
07/09/20 11:01:20
力集合？

479:デフォルトの名無しさん
07/09/20 11:14:54
べき集合だろｗ

480:デフォルトの名無しさん
07/09/21 23:15:44
それはshould　setだろ？

481:デフォルトの名無しさん
07/09/21 23:30:47
super set

482:デフォルトの名無しさん
07/09/22 13:52:00
はぁ？

483:デフォルトの名無しさん
07/09/22 14:36:55
ウィキペディアってネタとしてちょうどいいと思うんだけど、
HTML化するようなパーサってないのかな？

484:デフォルトの名無しさん
07/09/22 14:37:33
↑無かったら作ろうと思うんだけど

485:デフォルトの名無しさん
07/09/22 17:30:43
haa?

次ページ