形態素解析と日本語処理

形態素解析と日本語処理at TECH

形態素解析と日本語処理 - 暇つぶし2ch1:デフォルトの名無しさん
05/01/25 07:38:01
日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。

2:デフォルトの名無しさん
05/01/25 07:58:59
Prolog屋なのですが、この分野の知識は全くありません。
勉強させてください。

3:デフォルトの名無しさん
05/01/25 08:01:53
自然言語処理スレッド
ｽﾚﾘﾝｸ(tech板)

4:デフォルトの名無しさん
05/01/25 08:13:52
お、茶筌ネタかい？いいねぇ。

5:デフォルトの名無しさん
05/01/25 08:38:39
まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。
それから?

6:デフォルトの名無しさん
05/01/25 08:52:32
分けるとどうなるんだろう？
試してみますかね。

7:デフォルトの名無しさん
05/01/25 10:35:40
それくらいなら頭ん中で試せば十分だろ。

8:デフォルトの名無しさん
05/01/25 11:16:33
次に品詞でわけてみるる。

今日は良い天気ですね。
↓
今日|は|良い|天気|です|ね|。

(は(今日((天気 (良い ) です)ね)))

「今日は」は２通りの解釈がある。

こんにち|は|良い|天気|です|ね|。

きょう|は|良い|天気|です|ね|。

9:デフォルトの名無しさん
05/01/25 11:29:05
もう1通りあるんじゃない？

こんにちは|良い|天気|です|ね|。

10:デフォルトの名無しさん
05/01/25 11:29:45
漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字）から形態素分析って可能なんでしょうか？
人はどのように判断しているんでしょうかね？

11:デフォルトの名無しさん
05/01/25 11:30:54
何か良い死霊ないの？

12:デフォルトの名無しさん
05/01/25 11:45:23
ここではきものをぬいでください

13:デフォルトの名無しさん
05/01/25 13:04:03
あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも

あれもしかしてあしがらだったか

14:大原ゆき
05/01/25 13:24:00
大原ゆきが華麗に2get

15:デフォルトの名無しさん
05/01/25 14:11:19
?

16:デフォルトの名無しさん
05/01/25 14:17:03
URLﾘﾝｸ(www.unixuser.org)

17:デフォルトの名無しさん
05/01/25 19:06:20
きょうはいしゃにいく

今日歯医者に行く
今日は医者に行く

18:デフォルトの名無しさん
05/01/25 20:06:04
こっちは初心者スレ？

19:デフォルトの名無しさん
05/01/25 20:13:33
>>18
どちらかというと、より特化したスレ。

20:デフォルトの名無しさん
05/01/25 20:20:37
すもももももももものうち

21:デフォルトの名無しさん
05/01/25 21:45:51
最初に区切りとなる文字を探すところから始める?

22:デフォルトの名無しさん
05/01/25 21:52:35
プロが来ないと駄スレの予感…

23:デフォルトの名無しさん
05/01/25 22:01:41
形態素解析システム茶筌
URLﾘﾝｸ(chasen.naist.jp)

24:デフォルトの名無しさん
05/01/25 22:22:19
はんかくかたかなはやめろ

半角カタカナ早めろ
半角カタカナは止めろ

単なる誤変換スレ化？

25:デフォルトの名無しさん
05/01/25 23:28:36
>>22
すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの？

26:デフォルトの名無しさん
05/01/25 23:29:37
>>25
本当にそうかな？
もしそうなら完璧にできるソフトが存在するはずだ。

27:デフォルトの名無しさん
05/01/25 23:34:31
そうとも限らんだろ。
完璧にできるソフトが作れるはずの論文が存在するはずだ、
ならいえるかも知れないが。

28:デフォルトの名無しさん
05/01/25 23:39:03
もしくは完璧に作るのは不可能だ、という論文な。

29:デフォルトの名無しさん
05/01/25 23:44:04
>>28
その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。

30:デフォルトの名無しさん
05/01/26 03:59:06
>>29
> その手の論文は数十年後に破られるのがありがちな話なので、

実例キボン

31:デフォルトの名無しさん
05/01/26 06:28:42
完璧に出来てるだろ
茶筅とか
あとは辞書を増やすだけ

32:デフォルトの名無しさん
05/01/26 07:03:44
統計推論型のはまだ全然

33:デフォルトの名無しさん
05/01/26 15:03:57
なんつーか先が無さそうでかわいそうな分野だよね

34:デフォルトの名無しさん
05/01/27 06:45:35
じゃあこのスレで日本語変換システムを一つ作るってのはどうだ？
かんなやうんぬは丸っきりクソだろ？

35:デフォルトの名無しさん
05/01/27 07:01:31
名前は「ぬるぽ」

36:デフォルトの名無しさん
05/01/27 07:10:51
>>34
Windows用なら参加する。

37:デフォルトの名無しさん
05/01/27 07:50:52
形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。

38:デフォルトの名無しさん
05/01/27 09:12:34
UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。
gchは抽象化された符号なし文字。
typedef unsigned int uint;
inline gch*GchNext(gch*);
inline gch*GchPrev(gch*,gch*);
inline uint GchLen(gch*);

39:デフォルトの名無しさん
05/01/27 09:59:27
まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。

40:デフォルトの名無しさん
05/01/27 10:11:38
>39
をっさん、何を統計するだ？

品詞の数、品詞の並び方のパターン、パターンのパターン…。
文法上の属性か？

41:デフォルトの名無しさん
05/01/27 13:38:18
まあどうがんばってもATOKには勝ち目ないし

42:デフォルトの名無しさん
05/01/27 19:53:40
まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。

43:デフォルトの名無しさん
05/01/27 19:54:42
いや、データさえあれば簡単だ。俺なら１日で組める。

44:デフォルトの名無しさん
05/01/27 20:03:54
>>43
それだったら君個人で作ればいいじゃない。

45:44
05/01/27 20:06:18
ごめん、全言撤回。

46:デフォルトの名無しさん
05/01/27 20:07:13
だからデータがねえっつってんだろ。
日本語わからねえのか？
おまえこそ形態素解析勉強して日本語読めるようになれよ。

47:44
05/01/27 20:07:54
×全
○前

48:デフォルトの名無しさん
05/01/27 20:11:09
>>46
どんなアルゴリズムにするつもりなの？
データが豊富にあったら良い物ができるの？本当に？

49:デフォルトの名無しさん
05/01/27 21:00:31
アルゴリズムなんて問題じゃない。
何度も言うが、必要なのはデータとデータ構造だ。

50:デフォルトの名無しさん
05/01/27 21:10:05
文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。
他のちまちましたデータは辞書.comや省庁回ってこい。

51:デフォルトの名無しさん
05/01/27 21:13:24
ポータルサイトも膨大な情報を分類しているだろ

52:デフォルトの名無しさん
05/01/27 21:19:24
細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。

53:デフォルトの名無しさん
05/01/27 21:20:58
なんでそんなに堅実に作ろうとするんだろう。
新規性はないの？

54:デフォルトの名無しさん
05/01/27 21:25:59
日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。
大学のwebに逝けば変換方法の論文は腐るほど見付かる。ぐぐれ！

55:デフォルトの名無しさん
05/01/27 21:28:46
>>54
うん、知ってる。

56:デフォルトの名無しさん
05/01/27 21:32:22
ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ？違うか？

57:デフォルトの名無しさん
05/01/27 21:35:22
いちいち探すのマンドクサイ。誰か秘密基地作れよ

58:デフォルトの名無しさん
05/01/27 21:50:31
ａを任意の名詞節とする。文「ａを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。
文「ａを食べる」が真の場合、ａは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。
文が偽の場合、その文はどんな文脈にあるか？

59:デフォルトの名無しさん
05/01/27 21:57:24
>58
夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。～と思う、～と言う、考える。
また、物語や体験談などでは以前の勘違いを打ち消すことが多い。

60:デフォルトの名無しさん
05/01/27 22:01:56
このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。

61:デフォルトの名無しさん
05/01/27 22:10:14
>60
要するに、２ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。

62:デフォルトの名無しさん
05/01/27 22:12:10
>>61
2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ

63:デフォルトの名無しさん
05/01/27 22:25:10
そこで「知能とインターフェースの段階的進化法」を唱える！

64:デフォルトの名無しさん
05/01/28 11:10:05
「ん」を「そ」に変えれば２ちゃん語っぽくなる

65:デフォルトの名無しさん
05/01/29 21:59:33
形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を
探したのですが上手く誤りの場所を探すことができませんでした。
何かいい方法はないでしょうか？アドバイスください、よろしくお願いします。

66:デフォルトの名無しさん
05/01/29 23:44:34
>>65
出来の良い売り物を買えばよいです

67:デフォルトの名無しさん
05/01/30 01:34:18
>>65
総当たり

68:デフォルトの名無しさん
05/01/30 05:45:19
>>33
> なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。

批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。

細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。

69:デフォルトの名無しさん
05/01/30 15:12:04
>>65
単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味？

70:デフォルトの名無しさん
05/01/30 15:25:47
つーか、どんなレベルの誤りを検出しようとしている？

71:デフォルトの名無しさん
05/01/30 15:42:05
>>70の文章だと全体に下線がつくレベル。

72:デフォルトの名無しさん
05/01/30 16:14:15
>>65
ベイズ推定使え。

73:デフォルトの名無しさん
05/01/30 16:39:53
>>72
bayesはどう考えても無茶だろ(藁

74:６５です
05/01/31 00:11:16
音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル
にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を
下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り（形態素解析）
で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか？
上手く探すいい方法はないでしょうか？（構文解析とか使うのかなあ？）
詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。

75:デフォルトの名無しさん
05/01/31 01:45:11
閾値を厳しくする

76:デフォルトの名無しさん
05/01/31 03:31:01
誰かがいぜんやってたが、２ｃｈのスレを形態素解析する。そしてマップを作る。
そこまではそいつがやってたが、精度をあげ、リンクなども絡めて
新しい掲示板のトップメニューとして確立したらどう？
まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる
ウェブの中での自分の位置みたいな地図を
掲示板に特化して作るわけ。
そうするとインデックスからスレ同士の関係が把握しやすい。

例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか
検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、
もしくは言及されてる単語が載っているほかのスレも判る。

って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ

77:デフォルトの名無しさん
05/01/31 08:18:43
それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として
既に実現されてるけどな。

78:デフォルトの名無しさん
05/01/31 18:38:30
このスレ全体的に他のスレよりレベル高杉。
もう少しかみ砕いて、わかりやすく説明してください

79:デフォルトの名無しさん
05/01/31 20:12:49
マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。
名前出せるほどのものがあるかどうかはしらんが…。

80:デフォルトの名無しさん
05/01/31 21:36:48
>>78
2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。

81:デフォルトの名無しさん
05/01/31 22:50:45
>>76
スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど

82:デフォルトの名無しさん
05/01/31 23:49:38
>>76
カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。

83:デフォルトの名無しさん
05/02/01 01:44:42
>>76
形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。

84:デフォルトの名無しさん
05/02/01 02:00:57
>>83
自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。

85:デフォルトの名無しさん
05/02/01 02:09:14
形態素解析せずにスレの内容をベクトル化する方法を教えてください

86:デフォルトの名無しさん
05/02/01 04:16:29
>>85
文字種でベクトル化
日本語の場合、結構いけるかもよ

87:デフォルトの名無しさん
05/02/06 02:01:36
例
URLﾘﾝｸ(www.touchgraph.com)

88:デフォルトの名無しさん
05/02/09 01:03:38
形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
用いれば簡単にできます。
ただし、問題は、そのためには、各種辞書とかが必要です。
もちろん、それに伴う、確率値とか、コストとか。

さらに、連語とか、複合語とかをどのようにあつかうかとか、
未知語(辞書にない言葉)とかをどのように扱うとか、
いろいろな問題があります。

そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか
その部類の有名な形態素解析な感じです。

研究的にはやりつくした感はありますが、実用にはほど遠いと思います。
これはもはや情報処理というよりは言語学の力を借りないと難しいな
と、個人的には思います。

89:デフォルトの名無しさん
05/02/09 04:54:41
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。

90:デフォルトの名無しさん
05/02/09 08:37:26
えっと、kakasi のいわゆる「お知らせ問題」は、
もうどうしようもない事実として受け止めるしかないんでしょうか？
URLﾘﾝｸ(ofo.jp)

POPFile とかも kakasi を使ってるんで、
なんとか解決方法 & パッチは無いものかと思っているんですが。

91:デフォルトの名無しさん
05/02/09 08:53:35
>>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。

理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。

92:デフォルトの名無しさん
05/02/09 11:46:08
>>90
「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。

93:デフォルトの名無しさん
05/02/11 21:17:11
おまいら、教えて下さい。
漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに
C:\Program Files\Justsystem\JSLIB32\AddWord2.exe
なんてものがあります。で、バージョン情報を見たら
「Js形態素解析登録ﾌﾟﾛｸﾞﾗﾑ」とかってなってますた。これってなんですか？
どうしてこんなもんが入ってるか調べる方法とかありますか？

94:デフォルトの名無しさん
05/02/11 21:42:32
スレ違い

95:93
05/02/11 23:38:49
　　　　〃〃∩ 　_, ,_
　　　　　⊂⌒（　つД｀）
　　　　　　｀ヽ_ ノ ⊂ノ
　　　　　　　　　　　　　　グスグス・・

　　　　　　　∩
　　　　　⊂⌒(　　_, ,_）　ｸﾞｽﾝ・・・。
　　　　　　｀ヽ_つ ⊂ノ

96:デフォルトの名無しさん
05/02/12 10:01:04
取りあえずそれを立ち上げて
URLﾘﾝｸ(www.sysinternals.com)
こういうのでどのプロセスが他に起動するか見てみればどう？

もしくは他のソフトを一個一個試してみてその形態素解析の奴が一緒に
立ち上がった瞬間を見ておくしかないな。

サービスの一つに関連付けられてるかもしれんし。

わかったら何のためのプログラムか、何に使えるのか報告ヨロ

97:デフォルトの名無しさん
05/02/12 15:00:27
教えてください。
昨年からJuman-4.0を使っています。
これはどのような特徴を持ったソフトなのですか。

98:デフォルトの名無しさん
05/02/12 15:05:38
>>97
URLﾘﾝｸ(chasen.org)

99:デフォルトの名無しさん
05/02/12 17:23:44
文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を
働かさないと理解しがたい。少なくとも私には。
こういうものがメインにはなりえないだろうが、並列処理で
音数律解析が働いている、なんてことはできないものだろうか。

100:デフォルトの名無しさん
05/02/12 21:34:30
日本語の文を形態素解析すると、構文木を作成できると思います。
その構文木から動詞基準で格構造を抽出する方法ってあるでしょうか？？
意味解析が利用できれば可能なのでしょうか・・

101:デフォルトの名無しさん
05/02/12 23:11:10
だからそれがわからんからこうやって議論してるんじゃないか。
どこかにいい本ない？

102:デフォルトの名無しさん
05/02/12 23:56:07
>>100
バイト雇ったらどうか？
コンピュータよりずっとまともな処理が期待できると思うが。

103:デフォルトの名無しさん
05/02/14 14:39:43
奴隷やとったらどうだ？
コンバインよりずっとまともな農作業が期待できると思うが。

104:デフォルトの名無しさん
05/02/15 07:12:54
自然言語処理に向いてるプログラミング言語って、
やっぱりCですか？

半期javaやってたんだけども、Cやり直すかなぁ…
勝手に思いついたアルゴリズムで文章解析して、
データベースみたいなのを吐き出してまた使えるようなのを作りたいんですが（将来的に）

105:デフォルトの名無しさん
05/02/15 07:18:50
>>104
Cはどちらかというと向いてないと思う。
文字列の塊を切った貼ったが楽にできる言語の方がいいんじゃないかな。
なわけでやっぱりLispとかかねえ。

106:104
05/02/15 07:42:56
ありがとうございます。
Lispって、なんか、そっちへ行ったら帰ってこれなそうな印象が…（苦笑）

107:デフォルトの名無しさん
05/02/15 08:38:50
>>106
Lispのテイストを味わったことないのなら、一度味わってみるべし。
それから留まるか帰ってくるか決めなされw

108:デフォルトの名無しさん
05/02/15 09:04:30
>104 単純に向き不向きでいったら、断然Prologです。自然言語を
解析するために作られた言語ですから。ただ、左再帰問題というのが
あって、Prologの探索順序の関係で、
<< 文とは文　がきてその後に助詞と述語がくる >>
というような定義をすると、最初の部分で、文とは文である、となって
再帰的述語の呼び出しが終了できなくなる。これさへなければ、
あっという間に、簡単な句構造解析くらいできてしまうのですが、
実際にはこれを回避するため一段と複雑なコードを書かなくてはならなくなる。
それでPrologなら圧倒的に有利とはいえませんね。

109:デフォルトの名無しさん
05/02/15 09:16:24
大昔に一世を風靡した「電信八号」を作った偉い人のやってる
形態素解析、構文解析
URLﾘﾝｸ(www.web-tscom.co.jp)
たいして金になりそうもないし、ついていけねぇ(;´Д｀)

110:108
05/02/15 09:33:07
>108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、

これは形態素解析が終わってから後の話です。

111:デフォルトの名無しさん
05/02/15 12:15:27
>>108
> 自然言語を
> 解析するために作られた言語ですから。

そんな話は初耳だな。

>>110
> >108これさへなければ、あっという間に、簡単な句構造解析くらいできてしまうのですが、
>
> これは形態素解析が終わってから後の話です。

自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。

112:デフォルトの名無しさん
05/02/15 12:40:03
>111 Prologを作ったのはマルセイユ大学ですが、
これは自然言語を解析するツールとして作られました。
論理式をそのまま言語にしてみたらというアイデアではあったようですが
言語として設計されたわけではありません。
>自然言語のパーシングがそんな単純な再帰下降で済む話なわけねーじゃん。
完全性の問題を問われない程度のものなら、済むんじゃないですか。

113:デフォルトの名無しさん
05/02/15 15:34:34
>>112
自然言語をパースするためではなくて、「自然言語処理」一般だろ。
まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
その論理式を用いて知識推論をしようとした、じゃないのか？
自然言語の文を直接Prologでパースするなんて悪い冗談だ。

114:デフォルトの名無しさん
05/02/15 15:39:30
>>104
> 自然言語処理に向いてるプログラミング言語って、
> やっぱりCですか？

NLP関連でpythonを使う人も多い。
有名なAI: Modern ApproachのPeter Norvigもpythonについて色々書いている。
URLﾘﾝｸ(www.norvig.com)

115:デフォルトの名無しさん
05/02/15 15:48:49
1971-2年の話で、当時の学問的環境も想像し難いし、1973年に書かれた
仏語の論文も読んだことがないので、どういう意図だったかわからない。
ただ、「悪い冗談」であるかどうかも皆目判っていなかったのではないか？

116:デフォルトの名無しさん
05/02/15 16:32:04
>>109 これはちょっとわからないな…

117:デフォルトの名無しさん
05/02/15 16:35:59
>113
>まず専用のパーサで自然言語の文を術語論理に翻訳した上で、
そうそう。専用のパーサは無かったと思う。
マルセイユ版Prologが動いて、append/3が発見されるまで
3ヶ月かかったとのことで、今日のProlog観は全然通用しない。
少なくとも知識推論しようとしたなどということはなさそう。

118:デフォルトの名無しさん
05/02/15 17:58:54
>>117
> 少なくとも知識推論しようとしたなどということはなさそう。

AlainやPhilippeが書いた最初のprologプログラムは人間の質問に答える自動
応答システムです。

119:117
05/02/15 18:52:43
>118 それは知りませんでした。この件について全然知識が無いので
なにか資料等残っているならぜひ教えてください。

120:デフォルトの名無しさん
05/02/15 19:21:39
「小論文、コンピューターで自動採点　入試センターが試作」
URLﾘﾝｸ(www.asahi.com)

これマジか？本当にこんなものがもう実用段階に入ってるのか？
だとしたら俺らがやろうとしてることって一体何なんだ？

121:デフォルトの名無しさん
05/02/15 19:43:18
>>120
型にはまった人間ばかり評価されるのはなんだかなぁと思った

122:デフォルトの名無しさん
05/02/15 19:59:26
>>120
採点が楽になるってだけの理由で採用するのはどうかと思うし、
どの程度の性能か具体的に示されていない所が疑問ではあるな。

同等の評価を受けた物であっても、大きく評価が変わるケースが1%でもあれば、それだけでは使い物にならないわけで･･

123:デフォルトの名無しさん
05/02/16 09:00:57
>>119
URLﾘﾝｸ(www.lim.univ-mrs.fr)

124:デフォルトの名無しさん
05/02/16 11:09:42
自然言語をパースするためなら、Perlがいいねぇ。
正規表現は、最強。ライブラリも豊富で最初から自分で作る必要もない。

125:デフォルトの名無しさん
05/02/16 11:21:16
>>104
Cで書いてあるエンジンって速さを優先してるからじゃない？
String Operationが優れていてそこそこOOPに対応してる言語なら
JavaでもPerlでも。Pythonはどうよ。
RegExpの使いやすさは結構重要かと。

126:デフォルトの名無しさん
05/02/16 11:43:38
>>109 みたいな係り受けを分析するフリーのライブラリってないんですか教えてください。

127:デフォルトの名無しさん
05/02/16 13:04:25
昔、C と Perl の正規表現速度対決のページを見た。
Perl の方が機能豊富なのに速かった気がするんだけど、どうなんだろう。
まぁ、ベンチマークなんてあてにはできないのだけど。

128:デフォルトの名無しさん
05/02/16 13:07:47
>>126
KNPとかmsrlだろ。

129:デフォルトの名無しさん
05/02/16 13:10:35
>>127
あなた、正規表現のエンジンがPerlで書いてあるわけじゃないんだから。
機能の豊富さとそのルールを使わないマッチングの速度も関係ないし。

130:デフォルトの名無しさん
05/02/16 13:13:46
>>128 ありがとうございますぐぐります

131:119
05/02/16 13:28:15
>123 ありがとうございました。

132:デフォルトの名無しさん
05/02/16 18:32:08
ここは良スレですね

133:デフォルトの名無しさん
05/02/16 19:38:16
>>117
> 3ヶ月かかったとのことで、今日のProlog観は全然通用しない。

この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…

134:デフォルトの名無しさん
05/02/16 20:31:56
>>124
>自然言語をパースするためなら、Perlがいいねぇ。
CPANから欧米語のTaggerモジュールが手に入る。
（ただし、あまり精度はよくない。）

URLﾘﾝｸ(search.cpan.org)

他のコンピュータ言語で、Tagger, Parserなどのライブラリー、モジュール
が無料で公開されているのはありますか？

135:デフォルトの名無しさん
05/02/16 21:37:37
>>134
pythonのmonty taggerはちょっと遅いけど速度に厳しい用途でなければ
それほど問題ない。parserもいくつか見かけた。

136:135
05/02/16 21:41:59
NLP Toolkit URLﾘﾝｸ(nltk.sourceforge.net)
Monty Tagger URLﾘﾝｸ(web.media.mit.edu)
MontyLingua URLﾘﾝｸ(web.media.mit.edu)

137:デフォルトの名無しさん
05/02/16 23:29:35
なんかよくわかんないけどリンク針

OpenNLP URLﾘﾝｸ(opennlp.sourceforge.net)
OpenNLP Maxent URLﾘﾝｸ(maxent.sourceforge.net)
Grok URLﾘﾝｸ(grok.sourceforge.net)
OpenNLP Leo URLﾘﾝｸ(leonlp.sourceforge.net)
OpenCCG, the OpenNLP CCG Library URLﾘﾝｸ(openccg.sourceforge.net)
nlpFarm URLﾘﾝｸ(nlpfarm.sourceforge.net)

138:デフォルトの名無しさん
05/02/17 12:25:41
>133
> この一連の流れは今のNLP観で言語選択する話だと思っていたのだが…
117のここの部分は、Prologが最初は何の目的で作られたか。その時点で、
可能な技術はどんなものだったかという話に脱線していますね。

139:デフォルトの名無しさん
05/02/17 20:57:44
>>138
今のNLP観で言語選択すると英語だよな。

140:デフォルトの名無しさん
05/02/18 03:08:43
>>139
おじいちゃん、おむつからウンコがはみ出てますよ。

141:デフォルトの名無しさん
05/02/18 22:41:52
正規表現エンジンってどうやって作るのかな？

142:デフォルトの名無しさん
05/02/19 01:20:34
FAを作る。

143:デフォルトの名無しさん
05/02/20 14:25:59
>>142
FAって単語が分かれば>>141は書き込まないと思われ。

144:デフォルトの名無しさん
05/02/20 22:52:12
Football Assosiation

145:デフォルトの名無しさん
05/02/21 02:49:23
Final Answer

146:デフォルトの名無しさん
05/02/21 04:03:44
fuck anal

147:デフォルトの名無しさん
05/02/21 17:18:49
作る話してるときにFAって単語がどうとか言い出すのはどうかと思う。

148:デフォルトの名無しさん
05/02/23 13:53:29
Futtoboru Awaa

149:デフォルトの名無しさん
05/02/23 14:27:38
FusiAnasan

150:デフォルトの名無しさん
05/02/23 15:06:16
Finite Automaton（有限オートマトン）

151:デフォルトの名無しさん
05/02/23 15:40:48
Flets ADSL

152:デフォルトの名無しさん
05/02/24 10:52:17
Free Agent

153:デフォルトの名無しさん
05/02/24 16:19:06
Fighting　Arts

154:デフォルトの名無しさん
05/02/28 12:44:17
Fujikofujio A

155:M.B.
05/03/03 10:52:04
Java 使って、チャート法ベースの
形態素解析システム組んだのはいいが、
係り受けの処理とどうやって融合したらいいかよくわからん。
チャート法っつーのは本来構文解析によく使われる手法だっつーのだが、
日本語みたいなForth もどきの文法構造を持った言語だと、
BNF みたいな形での抽象的な構文法の記述がうまくいかん。
誰か解決策を知らないか？

156:デフォルトの名無しさん
05/03/03 15:31:37
サーチクロスって，形態素解析してません，なんて書いてあったんだけど,
じゃ，どうやってインデックス作ってるんだろう．
N-gram じゃないだろうしなぁ．インデックスサイズから考えても．

157:M.B.
05/03/03 19:33:04
>>156
解析精度が低くていいなら、手法はそれなりにあると思われ。
英文用のスペルチェッカーなんかはそうした経験則の集大成だし。
漢字以外の文字から漢字に変わる点でぶった切って、
切れたものの末尾から附属語らしき要素を取りつくしてくだけで、
インデックス用のキー文字列は作れるしね。
あとは検索用の文字列に同じ処理を施して、それをキーにして候補を
かき集めて、それからじっくりマッチするかどうかチェックしてけばいい。

158:デフォルトの名無しさん
05/03/03 21:27:46
>>155
係り受けなんて品詞で辿れるもんじゃないの？
自分で文章組み立てる手順とか考えた事ある？
つーか何のためにチャート法にしたの？

159:M.B.
05/03/03 21:53:32
> 係り受けなんて品詞で辿れるもんじゃないの？
日本語だと省略が多いもんだから、
「嬉しいです」の「連体形＋用言（助動詞）」みたいに、
ある程度長いスパンで見ないと係り受けの関係が見えないケースが多いのよ。
だから、体言ごとに格を推定して、動詞のほうから必要な格を割り出して、
余ってる体言が出ないようにするとかいった手続きが、
係り受けの推定には必要なわけ。
> つーか何のためにチャート法にしたの？
かな漢字変換もできる双方向の解析システム作ってたら、
結果的にそうなっちゃった。
「はくさいやだいこんなどのやさいが」は、切り方によって
「白砂　嫌だこんな　どの　野菜が」みたいな
いろんな屑候補が出てくるのだが、これをバックトラックで処理してると
同じ処理を何度もやることになって具合が悪い。
チャート法なら同じ部分の解析は一度しかされないし、
見込みのありそうな候補に絞って探索するとかいった制御も楽。

160:デフォルトの名無しさん
05/03/04 12:20:33
日本語XLEは？

161:M.B.
05/03/04 16:25:06
技法っつーか解析戦術レベルでは有効だろうし、
チャート法に代表される、並列処理にもってきやすい技法とも
併用可能なので、実用化っつー部分では要チェックと思われ。
ただ、「意味に即した解析」をうまく取り込むには、
職人芸的な技巧が要求されるので、「機械翻訳の質を上げる」みたいな
意味に踏み込んだ処理をやろうとすると、使いこなせるのは
ごく一部の特殊な才能を持った人なんじゃないかなぁ、と思う。
本当にできる人は、かな漢字変換に使われる「接続テーブル法」とかの
制約の中でも、意味処理に近いことをやってたしね。

162:デフォルトの名無しさん
05/03/05 13:37:38
>>155
補強項処理を追加したら？
つまり文法記述中にJAVAのプログラムを記述する。
補強項つきの文法をいったんJAVAプログラムに落とすために、コンパイラコンパイラを
作る必要があるが、たいした手間ではないでしょう。
チャートパーサは、ちょっと変更すれば、そのまま使えるはず。

163:デフォルトの名無しさん
05/03/05 13:44:33
KAKASIがやってる処理ってこういうの？

お?[亜-黑ア-ヶー　-◯Α-ωА-я0-9a-zA-Z]+[あ-んー]*[!?！？。、]?
|
[あ-んア-ヶー]+[!?！？。、]?

164:デフォルトの名無しさん
05/03/05 15:56:11
人工無能スレってないの？
昔あったような・・・

165:デフォルトの名無しさん
05/03/05 16:31:33
日本語解析って大変だよね。
わりに合わない気がするし。
文字コードの問題もあるし。
これが必ず正しい！って毎回答えが決まるわけでもないし。

おまえら形態素解析して何に使ってますか？

166:デフォルトの名無しさん
05/03/05 16:41:20
>>165 サイトの全文検索

167:M.B.
05/03/05 20:52:53
>>165
聴覚障害者や外国人向けの、漢字かな交じり文の読解支援。
読みがわからんと国語辞典が引けんので、
漢和辞典を引くしかなく、けっこうツラい。
「冷たい」と「冷える」、「下ろす」と「下がる」、
「生やす」と「生む」等、「漢和辞典引いて
読みを調べて国語辞典引いて活用形調べて
どれがマッチするか確認して……」とかいった手続きが
必要な語はけっこうある。それ以外にも、
「入れない」がイレナイかハイレナイか、「行った」が
イッタかオコナッタかわからないとかいった問題もある。
辞書引きの自動化だけでも、助かる人はけっこういる。

168:デフォルトの名無しさん
05/03/06 00:00:40
マルコフ連鎖で前後関係の統計をとればほとんどいけると思われます

169:デフォルトの名無しさん
05/03/06 06:14:22
マルコフ連鎖厨出現
このスレの運命やいかに？！

170:M.B.
05/03/06 07:40:32
>>162
いまあるシステム自体がコンパイラ・コンパイラに近いので、
C 言語のインライン・アセンブラとかJava のJSP みたいな方法で
実装はできそうだな。
考えてみる。サンクスコ。

171:デフォルトの名無しさん
05/03/06 12:11:17
マールーコーフ！
マールーコーフ！
マールーコーフ！
マールーコーフ！
ハイ！fgg'いつもやるのは緑の積分！

172:デフォルトの名無しさん
05/03/07 04:07:36
URLﾘﾝｸ(www.antlr.org)

173:デフォルトの名無しさん
int 2ch ＝05/04/02(土) 04:36:47
ボクにマルコフ連鎖を丁寧に教えて！

174:デフォルトの名無しさん
int 2ch ＝05/04/02(土) 14:32:01
>>173
これでも嫁。
URLﾘﾝｸ(markun.cs.shinshu-u.ac.jp)

175:デフォルトの名無しさん
05/04/19 20:27:42
だめだこりゃ

176:デフォルトの名無しさん
05/05/16 10:06:00
そんなことなら俺に聞きゃよかったのに

177:Mb
05/07/21 21:09:26
長岡技術科学大学の自然言語処理掲示板が
いつの間にか消えているのだが、
誰か消息を知らないか。

178:デフォルトの名無しさん
05/07/23 13:57:52
う、自然言語処理研究室が出来てたなんてしらんかった…。

179:デフォルトの名無しさん
05/08/18 05:57:51
　　　　　　　　　,:::-､　　　　__
　　　　　　,,r 　　〈:::::::::）　　　ｨ::::::ヽ
　　　　〃　　,::::;r‐'´ 　　　ヽ::ノ
　　　　,'::;' 　　/::/ 　__
　　　l:::l 　　ｌ::::ｌ　/:::::) 　 ,:::::､　ｊi
　　　　|::::ヽ　ｊ::::ｌ、ゝ‐′ 　ﾞ:;;:ﾉ　,j:l
　　　　}:::::::ヽ!::::::::ゝ、 <:::.ｧ＿_ノ::;! 　パンダー！
.　　　{::::::::::::::::::::::::::::`='=‐'´:::::::::/
　　　　';::::::::::::ﾄ､::::::::::::::i＾i::::::::::::/
　　　｀ｰ--'　ヽ:::::::::::ｌ l;;;;::::ノ
　　　　　　　　　　`ｰ-"

【ラッキーレス】
このレスを見た人はコピペでもいいので
10分以内に3つのスレへ貼り付けてください。
そうすれば１４日後好きな人から告白されるわ宝くじは当たるわ
出世しまくるわ体の悪い所全部治るわでえらい事です。

180:デフォルトの名無しさん
05/09/02 22:23:43
JUMANてルールベースやん
なにあの手作り感ｗ

181:デフォルトの名無しさん
05/09/03 01:11:52
統計的アプローチではないでしょうか。

182:デフォルトの名無しさん
05/09/03 01:27:22
HERMANてベーブルースやん

183:デフォルトの名無しさん
05/09/03 03:19:23
Hermesは?

184:デフォルトの名無しさん
05/09/03 03:38:25
HERMESってトリスメギストスやん

185:デフォルトの名無しさん
05/09/03 14:53:15
逆さに読んでもストスギメスリト

186:デフォルトの名無しさん
05/09/04 11:54:07
>>185
頭大丈夫？

187:デフォルトの名無しさん
05/09/04 21:11:32
JUMANが最強なの？

188:デフォルトの名無しさん
05/09/05 14:57:26
URLﾘﾝｸ(www.asahi-net.or.jp)

189:名無しさん＠そうだ選挙に行こう
05/09/11 17:40:25
形態素解析ってもう成熟しきってるでしょ？

190:名無しさん＠そうだ選挙に行こう
05/09/11 18:22:28
よさげなアイデアがない
特に日本語の場合は一般に認知された文法が役立たずな事がわかっただけか

191:名無しさん＠そうだ選挙に行こう
05/09/11 18:47:56
現状より性能を上げるなら意味論と語彙論に踏み込まざるを得ないからね。

192:名無しさん＠そうだ選挙に行こう
05/09/11 20:03:14
大体文法なんて暇な言語学者が適当に思いつきで構築したものだろ？
だったらおおざっぱな品詞だけを定義して
あとはタグ付きの巨大なコーパスで学習させた方がよくね？

193:デフォルトの名無しさん
05/09/12 06:58:13
・おおざっぱな品詞だけを定義して
・あとはタグ付きの巨大なコーパスで学習させた方がよくね

ぷげら

学習アルゴリズムだけで、後は自動で人工知能とかできたら、いいねぇ（ｗ

194:デフォルトの名無しさん
05/09/12 12:14:20
形態素解析は人工知能じゃないけどねー

195:デフォルトの名無しさん
05/09/12 13:31:58
だから「できたら、いいねぇ」で「（ｗ」なんでしょ。

196:デフォルトの名無しさん
05/09/12 16:15:53
Chasenは192の方法

197:デフォルトの名無しさん
05/09/13 01:21:08
ChaSenがcorpusで学習!!?　なんか凄い勘違いしてるんでないかい。

198:デフォルトの名無しさん
05/09/13 07:24:08
文法だけでできてると思ってるの！？
おめでたいな。

199:デフォルトの名無しさん
05/09/13 10:52:26
おめでたいも何も、学習機構なんかどこにも実装されてないじゃないの。
なんでこここんなレベル低いの。

200:デフォルトの名無しさん
05/09/13 11:59:11
>>199
学習機構がないなんて言っちゃうレベル低いのはお前

201:デフォルトの名無しさん
05/09/13 12:05:15
んー、じゃあ手許にソース一式と辞書があるんで
このどこに学習機構があるのか教えてちょ

202:デフォルトの名無しさん
05/09/13 16:14:18
なんでこんなに荒れてんだｗ

コーパスから確率モデルを計算してるのは確かだから
そういう意味では学習しているけど
毎回モデルを計算しているのではなく
毎回計算しているのはコストだろ

203:デフォルトの名無しさん
05/09/13 16:24:18
最近あまりにしょうもないレスが多かったもんで。
正直おとなげなかった。スマソ

204:デフォルトの名無しさん
05/09/14 01:31:54
官能小説のエロさを形態素解析による数値化という研究を考えて
教授のところにいってきたんだけど5時間正座させられてお説教された
ひどい

205:デフォルトの名無しさん
05/09/15 01:53:47
つまらんネタだ

206:デフォルトの名無しさん
05/09/15 03:07:38
>>204
当たり前だ馬鹿。

おまえ自分の論文見せてくれって言われたとき困らないとでも思ったのか？

207:デフォルトの名無しさん
05/09/15 05:53:09
感性情報処理とかそれっぽい言葉を絡めて書けば普通に通りそうなもんだけどな。
形態素解析でエロさが出るかバカという点では教授に同意。

208:デフォルトの名無しさん
05/09/16 23:03:16
文学部なら普通に通りそうなテーマだな、
そつぎょうかだいせいさく　くらいの軽いノリで

209:デフォルトの名無しさん
05/09/16 23:23:41
料理本の単語を○にするとエロくなる事について。

210:デフォルトの名無しさん
05/10/08 00:05:44
MeCab: 形態素解析エンジンをコマンドラインで使う事って可能ですか？
　/bin/mecab -Oyomi "今日は良い天気ですね。"
見たいな感じです。
エロい人お願いします。

211:デフォルトの名無しさん
05/10/08 04:17:19
PHPからMeCabやkakasiを利用可能ですか？
出来るならどの様に使うか教えてください。

212:デフォルトの名無しさん
05/10/10 03:56:52
条件付確率場って何？

213:デフォルトの名無しさん
05/10/17 00:07:07
らふぁてー

214:デフォルトの名無しさん
05/11/11 22:09:52
最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。
"t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、
未知語もそれなりに上手く分けられる予感。超遅いが。

で、これをどうやって日本語の形態素解析に応用すればいいのかが
分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、
結局辞書を人様が作ってるみたいで、なんかヤダ。

教えてエラい人！

215:デフォルトの名無しさん
05/11/11 22:57:37
>>214
たくさんテキスト食わせて比較してみたら～

216:仕様書無しさん
05/11/12 21:20:29
>>214
カナを一旦ローマ字（訓令式がいい）に変換してから処理してみ。
活用の処理が一気に楽になるから。

217:仕様書無しさん
05/11/15 22:07:43
日本語文用の、語彙ベースの検索エンジン（用言は語幹で検索、
体言は異表記も認める）を作ってみたのだが、
・Web上のどのサイトを検索対象にするか
・インデクスはすでに存在するとして、鍵語の集まりから
効率よく対象のページを検索する問合せ（SQLを想定）はどう
生成するか
で詰まっている。小規模な検索（たとえば自分のマシンにある.txt
ファイルだけを対象とするとか）だったら悩まなくて済むのだが、
なんか面白い用途ってないもんだろうか。

218:デフォルトの名無しさん
05/11/15 22:30:44
昔はえろえろあった、おもしろい機能を持ったサーチエンジンも
ほとんど淘汰されて消えちゃったからね。

正規表現で検索できるサーチエンジンとか作らない？
#小規模検索はestraireがありゃいいや

219:仕様書無しさん
05/11/15 23:05:26
> 正規表現で検索できるサーチエンジンとか作らない？
それってgrepって言わないか？(^_^;)
冗談はともかく、その部分は
・インデクスにどんな情報を持たせるか（インデクスDB設計）
・インデクスを抱えてるDBサーバにどんな問合せをするか（DBインタフェース）
・問合せに対して、どれだけレスポンスを上げるか（探索戦略および
チューニングの問題）
なので、形態素解析とか日本語処理とかとは別の話題かと。
DBインタフェースの一部として、自然言語インタフェースとか考えるなら
また別なのだが。

220:デフォルトの名無しさん
05/11/16 11:29:06
正規表現検索で有用なインデックスがつけられるものなら、
とっくにRDBMSについてると思う……。

221:デフォルトの名無しさん
05/11/18 13:21:33
えらくタイミングよくestraierに正規表現サポートが入ったな

222:ハーピィ
05/12/05 02:45:15
E・∇・ﾖﾉｼ　＜222ｹﾞｯﾄ♫

223:Mb
06/03/14 22:37:45
復帰age

224:http://www.vector.co.jp/soft/win95/util/se072729.html
06/03/18 20:27:21
TextSS　のWindowsXP(Professional)64bit化おながいします

もしくは64bitにネイティブ対応したテキスト置換ソフトありますか？

225:デフォルトの名無しさん
06/04/10 21:57:43
あげとくね。

226:デフォルトの名無しさん
06/04/11 15:06:25
漢字の文字コードが読み仮名情報を保持してれば、
形態素解析って楽になると思うんだけど、そんな仕様ないの？

227:デフォルトの名無しさん
06/04/11 16:20:34
これは何の釣りだ？

228:デフォルトの名無しさん
06/04/11 21:42:17
>>226
URLﾘﾝｸ(www.doraneko.org)
これのこと？

実際の現場では、形態素解析ソフトを使って文章にルビふってるけども？

229:デフォルトの名無しさん
06/04/27 09:14:19
茶筌やめかぶが覚えてる学習用コーパスって何万語位何ですか？

めかぶが自力でコーパスの学習出来るので遊んでみたいのですが、
学習コーパスをどの位用意しなきゃならないか、わからないので。

230:デフォルトの名無しさん
06/04/27 17:23:39
IPADICとかなしに、巨大なコーパスから辞書を作る、
そんな方法ってないんかのう。

231:デフォルトの名無しさん
06/04/27 18:42:23
>>230
圧縮ソフトのアルゴリズムが利用できるかも？
辞書式ってのは、よくでてくるビット列に短い符号を割り当てるんだから、
そのあたりを応用すれば、単語としてよくあるものが抽出されると思う。
ただし品詞タグ付は無理だろうけど。

このアイデアはどう？

で、めかぶや茶筌が動くコーパスはどの位の大きさが必要なのかなぁ？
だれか知ってる人いない？

232:デフォルトの名無しさん
06/04/27 19:06:56
ハッシュでインデックス作って放り込めば100万語くらいは軽いんじゃない？
つか、俺はそうやってる。

233:デフォルトの名無しさん
06/04/27 19:18:10
>>232
それは>>230へ対する回答？
それとも>>231へ対する回答？

辞書で100万語は多すぎるし(辞書になってない)
学習コーパスの必要量なら、文章が良くわからない。

234:デフォルトの名無しさん
06/04/27 22:13:57
日本語を書くと意味解析して、それにそったプログラムに変換し
コンパイルして実行してくれる研究プロジェクトはありますか？

235:デフォルトの名無しさん
06/04/27 22:50:44
正直もうn-gramで良いと思いました。

236:デフォルトの名無しさん
06/04/28 07:20:22
>>234
計算機言語が覚えられない程度の馬鹿は、
日本語でも業務をまともに記述できないから、
そんな研究しても無意味だと思うけど、
やってる人はいると思う。

237:デフォルトの名無しさん
06/08/25 22:38:25
こーんな感じにぐわーっとやってくれ。ぐわあああっと。

238:デフォルトの名無しさん
06/08/26 02:05:17
>>235
ｳﾘもｳﾘも

239:デフォルトの名無しさん
06/08/31 21:50:25
不明単語を抽出するってどうやるんですか？

240:デフォルトの名無しさん
06/08/31 21:52:24
わかってるたんごをぜんぶとっぱらって
のこったのがふめいたんごー

241:デフォルトの名無しさん
06/08/31 21:59:26
>>240
分かっている単語が無いです。
どこかにフリーの単語辞書はありますか？
茶筌についてきますか？

242:デフォルトの名無しさん
06/08/31 22:04:22
[XXxXXxx] 12:28 フッ・・・だが！俺のエキゾチックマグナムをもってすればっ！

みたいな文から「エキゾチックマグナム」を不明単語として抽出したいです。
茶筌でできますか？

あとベイズって

P = [馬][鹿] / ( [馬][鹿] + [^馬][^鹿] )

みたいな感じで使うものなんですか？

243:デフォルトの名無しさん
06/09/01 07:43:11
「エキゾチック」と「マグナム」が既知の単語になっている限り
形態素解析器で「エキゾチックマグナム」を形態素として取り出すのは不可能と思われ
解析できてしまうからね

複合語の抽出には形態素解析とは別のアプローチが必要

244:デフォルトの名無しさん
06/09/02 12:33:38
メーカ子会社左遷者の楽園

245:デフォルトの名無しさん
06/09/13 04:24:11
>>243
＞複合語の抽出には形態素解析とは別のアプローチが必要
「従来の形態素解析」とは、なんじゃ・・・・
形態素解析について詳しい訳じゃないけど、複合語抽出を
構文解析とみるか、形態素解析と見るかで言えば、形態素解析の範疇だと思うけど、
「いいや,構文解析だ！！」と叱られてしまうと、嫌な気分になって言い返せないし、
「これこれこういう理由が有って構文解析だ！！」と言われると一つ勉強になるので
ありがたい。

とわいえ、形態素解析、複合語抽出、構文解析、と言う話も有るとも思うし。

246:デフォルトの名無しさん
06/09/15 04:05:27
複合語を形態素として取り出す
だなんて意味不明なレス相手にマジレス乙

247:デフォルトの名無しさん
06/09/15 16:32:39
質問者の要求がそういうことだから不可能だと書いてるんじゃ

248:242
06/09/23 23:37:34
回答ありがとうございます。
つまり形態素解析後、「エキゾチック」と「マグナム」の組み合わせが
未知のものであるか？という判定を何らかの方法で行わないと、
複合語を不明単語として取り出すことはできないということですね。

オタ同士の会話だと、即席の複合語がその場で作られたりすることも
あるので、難しいですね・・・。

249:デフォルトの名無しさん
06/09/24 00:28:24
そもそも一意の解析結果を得ることが不可能だと気づけ。
「エキゾチック＋マグナム」が98%、「エキゾチックマグナム」が1%、その他が1%、
みたいな解析結果のほうが、現象の記述としてより忠実。

250:デフォルトの名無しさん
06/09/24 07:29:35
ネイティブ（つまり日本人）に聞いたとしても
「エキゾチックマグナム」を1語と思うか2語と思うかは意見が分かれるだろうからね

251:デフォルトの名無しさん
06/10/10 19:18:09
mecabと一緒に配布されてる辞書を可変して流用したいけど、著作権的に大丈夫だろうか。

252:デフォルトの名無しさん
06/10/10 19:21:22
>>249
その辺は使用頻度＝単語の区分けという認識で問題ないのでは？

253:デフォルトの名無しさん
06/10/10 19:22:10
まあ辞書自体に頻度表がついてるものはないがｗ

254:デフォルトの名無しさん
06/10/10 19:27:55
>>253
形態素辞書ならたいてい付いているんじゃないの？

255:デフォルトの名無しさん
06/10/10 20:18:15
>>254
そんなのが本屋売ってるかよ

256:デフォルトの名無しさん
06/10/10 23:18:07
>>255
広東語でおｋ

257:デフォルトの名無しさん
06/10/11 03:27:58
形態素的辞書没有

258:デフォルトの名無しさん
06/10/11 12:21:56
中国語の形態素解析

259:デフォルトの名無しさん
06/10/11 14:16:40
漢語的形態素解析

260:デフォルトの名無しさん
06/10/12 12:28:22
例えば「書きながら」をmecabにかけると、

書き：動詞,自立,*,*,五段・カ行イ音便,連用形,書く,カキ,カキ
ながら：助詞,接続助詞,*,*,*,*,ながら,ナガラ,ナガラ

が吐かれるけど、辞書を見ると「書き」自体の文字情報はなく、
あるのは「書く,カキ,カキ」だけ。
活用の解析はどうやってるんだろう。
単純に読みだけを見るとしても、漢字1文字=読みのカナ1文字とは限らないし。

261:デフォルトの名無しさん
06/10/12 19:23:37
書き＋カ行イ音便つう形態素辞書エントリーだけで、
書か(ない)、書き(ます)、書く、書け、書こう
みたいな検索が全部ひっかかる、それだけの話だと思うけど。

262:デフォルトの名無しさん
06/10/12 19:25:39
>>252
使用頻度∝単語区分けの適合確率
だろｗｗｗｗ

263:文学
06/12/18 03:52:31
mecabで読み仮名を取得するには
どうやればいいのでしょうか？

264:デフォルトの名無しさん
06/12/18 12:43:32
まにゅある嫁

265:デフォルトの名無しさん
06/12/25 20:00:37
民明書房刊「マニュアル嫁」
第六章結婚前後の諸心得
　第二節甘美な新婚旅行

　- 入浴をするとき -
夫としては、
「どうです、一緒に入りませんか」
　というのが一応のエチケットとなっている。しかしお互いにまだ清浄な関係
である場合には、新婦としていきなりその言葉に従い、いそいそとして夫につ
いて行くのはどうかと思う。初夜が済むまでは矢張り、ほのかな羞恥の色を漂
わせながら、にこやかに
「ええ、でも、あとでいただきますわ」
　と柔かく辞退して別々に入浴する方が好ましい。夫としてもそれが花嫁のエ
チケットだと思って、しつこくすすめないことである。
　しかし初夜が済んでからは、最早や完全な夫婦となったのであるから、二人
で入る方が却ってよろしい。そうだからといって、矢張り女としてのはにかみ
は忘れてはならない。湯船に入るときでも
「おねがい、向う向いてて」
　などといっておいて、静かに入る。また湯船の中でも、乳のあたりへはタオ
ルを軽く当てて、ともかく露骨になるようなことは避けなければならない。

266:デフォルトの名無しさん
06/12/25 21:01:31
>>265
わっふる、わっふる

267:デフォルトの名無しさん
06/12/26 01:15:36
YOMIのRESTってどうやって使うんすか？

268:デフォルトの名無しさん
07/01/02 03:50:30
URLﾘﾝｸ(e8y.net)

!!!

269:デフォルトの名無しさん
07/01/02 04:44:54
何故かcgiコードが丸見え

270:デフォルトの名無しさん
07/02/02 12:06:30
NTTが作ったすももってどうやれば入手できるの？
なんかデッドリンクで公開ページがないんだけど。
mecabより強力なら是非手に入れたい。
ついでにage

271:デフォルトの名無しさん
07/02/07 15:14:44
MORPHOLOGY

↑なんか異常にかっこいい

272:デフォルトの名無しさん
07/05/03 18:18:07
外国人がローマ字で表記した口語体の日本語を
漢字仮名まじりの通常の表記に効率的に
変換するために役立ちそうなソフトウェアを
探しています。

例：
kekkou kireinagakkou zyanai
結構　奇麗な学校　じゃない

全自動変換では間違いが多そうなので，ソフトウェアが
提示するいくつかの変換候補の中から，正しいものを日
本人のオペレータが選ぶ，という作業を考えています。

少しでも作業効率を上げるためのヒント，ソフトウェア
などはございますでしょうか？

273:デフォルトの名無しさん
07/05/03 23:05:46
例を見る限り形態素に分かれているかいないかは任意か
面倒くさいなり

274:デフォルトの名無しさん
07/05/04 01:18:55
ローマ字のテキストをソフトに音読させて、それを聞きながら
オペレータがワープロ入力するのが一番速そうな気がする。

275:デフォルトの名無しさん
07/05/04 21:57:06
>>272
それは俺らが日本語を入力するとき使うのと同じ仮名漢字変換に、
何らかの方法でテキストを渡せばできそう。

276:デフォルトの名無しさん
07/05/04 21:59:35
>>272
LinuxならAnthyでできたよ。最後の(space)は変換用。
$ echo "kekkou kireinagakkou zyanai(space)" | anthy-agent
(3 ((UL RV) "結構" 0 7) ((UL) "きれいな" 0 4) ((UL) "学校じゃない" 0 3))

277:デフォルトの名無しさん
07/05/04 22:03:33
>>274
速記をなめてね？

278:デフォルトの名無しさん
07/05/05 23:36:56
>>275
はい、そこまでは理解できますが、実際にどのような
方法で可能かが分かりません。

>>276
素晴らしく分かりやすい実例までありがとうございます。
Anthyを試してみます。

279:デフォルトの名無しさん
07/05/06 10:31:03
そういやajaxでIMEってのあったよね
あれ、どういう仕組みなんだろ

280:デフォルトの名無しさん
07/05/06 12:15:07
JavaScriptからIMEを少しだけ弄れたようなきが。
多分JavaScriptよりもっと干渉できるやつでも使ってるんじゃないの？DirectXとか。

281:デフォルトの名無しさん
07/05/06 22:14:27
>>280
URLﾘﾝｸ(chasen.org)

連休中なので、動いていない？

282:デフォルトの名無しさん
07/05/07 09:59:40
こっち。
URLﾘﾝｸ(ajaxime.chasen.org)

283:デフォルトの名無しさん
07/08/31 15:47:46
sage

284:デフォルトの名無しさん
07/09/01 13:46:11
そもそも、公式文章でも方言のような専門用語や表現方法が多様しているのに
地方や皇族、政治、あらゆる専門分野、日本語が１つだと定義すれば扱えない
言葉や用語だらけになる。
会話言葉と目的別文章でも激しく特定できない。
>>1
>まず単語や品詞に分ける必要があります。
機械的な言葉の分類遊びならともかく。。。。。。
これは正しいとはいえない。言葉というのは柔軟性があり生き物である。
別ける時点で意味が変更されることもある。ある程度まとまった文節で
巨大辞書で判断するのが妥当でしょう。
文法で明らかに変でも通常の言葉として扱われているものとかＮＨＫとかで
時々解説放送がある。それらは言葉が生き物であることを証明するもので、
日本語は言葉として扱うのではなく、概念として扱うべきです。
翻訳が正しくても作成者の意味が通じないのでは翻訳としてはできそこないです。
日本語を正しく扱えるには価値観とその雰囲気、心を読み解く抽象認識処理が
必須になるでしょう。

285:デフォルトの名無しさん
07/09/01 20:28:27
と、へんてこ日本語モドキで力説されてもなあ。

286:デフォルトの名無しさん
07/09/02 08:49:46
拓ちゃんがいるのに
最近のグーグルの調子はおかしいよね

287:デフォルトの名無しさん
07/09/05 19:11:28
>>276
anthy-agent にひらがな入力する方法はないのかな。

288:デフォルトの名無しさん
07/12/19 18:41:14
質問です！！
yahoo!の形態素解析使ってるんですがreadingがうまく表示されません。
surface pos readingと表示させようとしたら
美しい　形容詞　形容詞　となぜか、readingにも品詞が入ってるみたいな気がします。
reading単体で使ってもなぜか品詞が返ってきます。

どなたか助けてください。。。

289:デフォルトの名無しさん
07/12/19 18:42:48
ageマス。

290:デフォルトの名無しさん
07/12/19 18:43:54
必死で申し訳ありませんが、ルビーを使ってます。

291:デフォルトの名無しさん
08/02/04 10:20:29
形態素まで行かずに単語分解だけをしようと思います
言語を文書から自動生成したい

こんなのありますよ　参考に

辞書不要の形態素解析エンジン「マリモ」とは　URLﾘﾝｸ(www.atmarkit.co.jp)

292:デフォルトの名無しさん
08/02/04 10:24:54
各文書を特徴づける重要語を計算して、
どの文書でも重要でない単語を無視すれば良い単語帳が作れるはず

TF・IDF法
URLﾘﾝｸ(nlp.nagaokaut.ac.jp)

293:デフォルトの名無しさん
08/02/04 11:16:52
URLﾘﾝｸ(d.hatena.ne.jp)
ここなかなかいいよ

294:デフォルトの名無しさん
08/02/04 12:16:30
類似語とそうでないものを判別するにはどうすればいいですか

類似語　
勝利　大勝利

類似語でない
本人日本人
カウントアカウント
京都東京都

295:デフォルトの名無しさん
08/02/04 12:18:23
お前が今分けた手順でおｋ

296:デフォルトの名無しさん
08/02/04 12:25:33
>>295
自動化したいのですが　こういうやつはどうやればできますか
URLﾘﾝｸ(labs.preferred.jp)

297:デフォルトの名無しさん
08/02/04 12:35:09
類似語が分類できるならば、単語分解もそこに含まれるから
類似語の分類をするルーチン作ろうぜ

298:デフォルトの名無しさん
08/02/04 13:47:37
単語らしさはどうやって判定したらいいですか
あと形態素解析はあまり有効でない気がします
何故ならば日本語研究が必須になってしまう為です　韓国や中国に対応できないし

素解・・・あり得ない
形態素・・・ある
本語・・・あり得ない
日本語・・・ある

というのを数値的に表したいものです

299:デフォルトの名無しさん
08/02/04 22:40:26
日本語の文法の知識が全くない状態から、品詞分解とその接続を求めることは出来るのでしょうか

300:デフォルトの名無しさん
08/02/04 22:46:53
類似単語が判れば、それを同一視することで類似文書が判りますね
１単語のズレのある類似文書から品詞分解が判りますかね
たとえば
僕は釣りをします　→　僕　は　釣り　を　します
私は料理をしますわ　→　私　は　料理　を　しますわ　→　僕　は　料理　を　します

とすると、釣りと料理は同じ分類だと判明します

301:デフォルトの名無しさん
08/02/04 22:51:21
>>298
文法研究をすっ飛ばして考えるなら、
文章のログから部分共通文字列を探せば見つかるような気がする。

302:デフォルトの名無しさん
08/02/05 00:22:01
圧縮接尾辞配列っていいみたいだけどわかる人いますか

303:デフォルトの名無しさん
08/02/05 00:57:54
圧縮接尾辞配列ってブロックソーティング、Burrows-Wheeler変換やるみたいだね

304:デフォルトの名無しさん
08/02/05 06:37:27
バカ過ぎる

305:デフォルトの名無しさん
08/02/05 09:54:40
>>294
京都と東京都は、地名として考えたら類似じゃない？

306:デフォルトの名無しさん
08/02/05 11:15:02
狂都
東狂都

307:デフォルトの名無しさん
08/02/05 11:42:17
圧縮接尾辞配列を調べたけど、大規模なインディックスにはむかないと思う
インディックスサイズが小さくできても
ウェブページのようにメモリに全て載せられないなら検索速くならないし・・・

308:デフォルトの名無しさん
08/02/05 11:44:29
向いているのはCHMの代わりになる位だな　
ファイルサイズ小さくできてサイズの3～5倍のメモリ消費ですむだろうから

309:デフォルトの名無しさん
08/02/05 11:55:19
↓こう書いてあるけど絶対にこの方針ではgoogleの足下にも及ばないと予測する

「Googleの弱点を克服したアルゴリズムによる検索エンジンを世界で初めて実装した」
Sedue：圧縮接尾辞配列を実装した初の商用検索エンジン
URLﾘﾝｸ(itpro.nikkeibp.co.jp)

310:デフォルトの名無しさん
08/02/05 19:13:35
>>309
接尾語処理なんて、google以前から大抵の検索エンジンでやってたことなのに・・・

311:デフォルトの名無しさん
08/02/05 20:19:16
suffix arrayでぐぐっとけ、カスが

312:デフォルトの名無しさん
08/02/05 22:12:20
バカ過ぎる(笑)

313:デフォルトの名無しさん
08/02/06 12:52:48
各単語の出現確率を調べておきもっとも確率の高い分割をもとめればいいと思う

たとえば、日本語はご存じの通り、文章が単語で区切られていません、なら

日　本語　は　ご　存じ　の通　り、　文　章が　単　語で区　切られて　い　ま　せん　の確率は0.01%

日本語　は　ご存じ　の　通り　、　文章　が　単語　で　区切られて　いません　だと10%

とか計算できればよい

314:デフォルトの名無しさん
08/02/06 21:24:05
>>313
ひょっとしてマルコフ連鎖のことを言いたい？

315:デフォルトの名無しさん
08/02/06 22:35:11
文字列をビット単位で連鎖の統計取ればデータ蓄積量の多さによっていつかは統計的な形態素解析器ができるはず！！！！１１１

316:デフォルトの名無しさん
08/02/07 04:54:43
>>314
マルコフ連鎖とは違う
前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの

317:デフォルトの名無しさん
08/02/07 05:05:06
もっとも単語になりやすそうな部分で区切ることで計算量は減らせるはず
たとえば、文書が１単語となる確率が高いなら、次のように分割され残りの文書は短い

たとえば、日本語はご存じの通り、

文章

が単語で区切られていません

318:デフォルトの名無しさん
08/02/07 05:16:59
first loaded.

319:デフォルトの名無しさん
08/02/07 05:30:29
　
日本語￥n+xは￥n+x単語￥n+xに￥n+x拠って￥n+x区切られ￥n+xます￥n+x。　
ですが￥n+x、￥n+x詳細￥n+xの￥n+x作成￥n+xは￥n+x大変￥n+xな￥n+x事￥n+xでしょう￥n+x… 　　

320:デフォルトの名無しさん
08/02/07 07:21:39
>>316
だからマルコフ連鎖をA*探索したのとどう違うんだって？

321:デフォルトの名無しさん
08/02/07 21:14:40
naist-jdic ﾏﾀﾞ－?

322:デフォルトの名無しさん
08/02/07 23:29:31
>>320
前後のつながりだけじゃないって書いてるじゃん。

323:デフォルトの名無しさん
08/02/07 23:36:23
＞前後の繋がりだけではなく、すべての分割に対してもっとも確率が上がるもの
ここをもうちょっと formal な形で言わないと伝わらないと思われ
どういう確率モデルを想定しているのか。つーか俺にも伝わってない
単語分割をマルコフ連鎖でモデル化したのなら >320 の指摘通りだと思うのだが

324:デフォルトの名無しさん
08/02/10 16:31:23
このへんとか
URLﾘﾝｸ(www.amazon.co.jp)

325:デフォルトの名無しさん
08/02/10 16:37:25
>>324
ああ、その本はいい本だよ。B4のゼミとかに丁度いいんじゃないかな。

326:デフォルトの名無しさん
08/02/11 08:21:36
結局313が何を言いたかったのかは謎なまま時は過ぎてゆく…

327:デフォルトの名無しさん
08/02/23 13:44:46
音声の検索システムできた。

328:デフォルトの名無しさん
08/02/23 14:13:43
ソースうp

329:デフォルトの名無しさん
08/03/27 07:31:14
>MySQLおよびPostgreSQLで日本語キーワードインデック
>スを実現しているもの(Sennaおよびtextsearch-ja)は、
>現在バックエンドエンジンとしてMecabを推奨してい
>るようです。

あるフォーラムあらのコピーですが、本道だとすると、
すごいですね？！ AppleのOSXの日本語処理もMecab?

Mecabの一人勝ちか。

330:デフォルトの名無しさん
08/03/29 01:45:22
>>329
>AppleのOSXの日本語処理もMecab?

そうなん?
Mac OS X には Language Analysis Manager というのがあるけど。
ありゃ、リファレンスを見ると Leopard から deprecated だな。

331:デフォルトの名無しさん
08/04/05 11:11:05
>>330
おっと、ちょっと調べたら確かにMeCabが使われてるね。知らんかった。

332:デフォルトの名無しさん
08/04/05 23:48:58
なさけねえな、Apple
スピーチ周りでVocaloid時代を十数年先取りしてた企業のくせに
自社技術捨ててオープン物に蔵換えか
そろそろジョブズ氏ねよ

333:デフォルトの名無しさん
08/04/07 06:31:49
>>332
初音ミクのApple版でも出せってかw
まー形態素解析ってメインは日本語とかでしょ。アジア方面はもともと「二の次」感が。

オープンソースで手に入る共通な技術があったなら使わせてもらう、というのが流れ
なのかなあと。もう何から何まで自家製というんじゃなくて、企業として独自性を
打ち出す部分だけ頑張る、みたいな感じなんじゃないかな。

334:デフォルトの名無しさん
08/04/07 19:37:41
しょうがないよ、マック信者は舶来物信者だから、アジア方面に力を入れないほうが売れるんだよ。

335:デフォルトの名無しさん
08/04/09 21:10:16
ただのりあぽーか。

336:デフォルトの名無しさん
08/04/22 02:47:39
blog界隈で信者のMac IMEを褒めたたえる声が目立つと思ったら、
オープンものに頼った結果ってことか。
奴らの言う最先端とやらは素晴らしい技術力だことで（呆

MS-IMEの糞っぷりも失笑ものだが、
Macの信仰のしどころの間違いっぷりは抱腹絶倒だな

337:デフォルトの名無しさん
08/04/22 07:44:33
Mac に IME なんて無いけどな。

338:デフォルトの名無しさん
08/04/27 00:53:20
今はもうInput Method EditorのEはつけずにIMって呼び方のほうが一般的じゃない？