10/02/12 11:52:51
>>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
176:デフォルトの名無しさん
10/02/12 12:49:29
もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる?
やっぱMPI?
177:デフォルトの名無しさん
10/02/19 11:19:49
>>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの?
178:デフォルトの名無しさん
10/02/19 18:12:21
>>177
???あまりにも疎だから次元減らしたいんじゃね?
179:デフォルトの名無しさん
10/02/21 23:07:06
>>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
180:デフォルトの名無しさん
10/02/22 19:01:31
表現がコンパクトなだけで空間としては全然コンパクトじゃない罠
181:デフォルトの名無しさん
10/03/08 00:36:43
知識なし、形態素分解なしでキーフレーズ抽出できるもの?
まず候補の分解までいければ、統計的手法で重要語を選べそうだけど。
知識なしで、単語分解と連結する語の特定するにはどうすればいい?
182:デフォルトの名無しさん
10/03/08 00:41:05
文書から学習したら連結する単語のいくつかは判明するけど
すべて網羅は無理。漢字・カタカナのみで最長部分を選べばよさげだけど。
ひらがな・数字をどうするか。漢数字でない数字を含むキーワードやひらがなを含むものもある。
1月18日などはスルーしたいところ。
183:デフォルトの名無しさん
10/03/08 01:14:57
辞書もコーパスもなしなら文字種の変わり目で区切るしかないんじゃないの
まあ「できる。」とか「のだった。」が最頻出になるのがオチだとおもうけど
184:デフォルトの名無しさん
10/03/09 18:24:15
>>181
ぱっと思いついた方法。
まず、n-gramをN=1からN=10ぐらいまで取る。
次に、低位の出現率のchainと高位の出現率を比べてみて
大きな差があったらそいつは単語っぽいと思っていいのでは。
185:デフォルトの名無しさん
10/03/10 01:17:31
ちゃんと論文読めw
ノンパラメトリックの形態素解析はもう研究され尽くしてる
今更そんなレベル低い事やっても意味がない
186:デフォルトの名無しさん
10/03/10 07:44:56
>>185
自分は言語処理やってる人間じゃないんだが、とある事情で形態素解析をやる必要が出てきた。
もちろん辞書の類は無しで。
もしよかったら参考になる文献か論文を教えてほしい。
そのまま実装に持っていけるくらいのアルゴリズムまで示されているとさらにありがたい。
187:デフォルトの名無しさん
10/03/10 17:44:44
>>185
機械学習だろ。
文書が1つ~10つくらいの少しでも出来るのか。
188:デフォルトの名無しさん
10/03/11 01:28:52
出来るか出来ないかはともかく
既に先行研究がたくさんあるのに、今更1から原始的な方法を取る意味はない
189:デフォルトの名無しさん
10/03/11 02:32:06
少ない文書で知識なしで分解するソース上げてから言ってもらおう
190:デフォルトの名無しさん
10/03/11 03:40:16
ベイズなんとかを有意に計算できるくらいにはコーパスが必要なんじゃないの
191:デフォルトの名無しさん
10/03/11 08:58:43
何でもいいから一冊くらい本を通読してから質問しろよ。
とある企業のサーバシステムをまかされました。良い本を教えてください。
とか言われて、まともな回答ができると思うのか。
192:デフォルトの名無しさん
10/03/11 09:56:46
技術屋によくいるタイプなんだけど、ちょっと質問すると「うーん」とうなって「それだけじゃなんとも…あれは?これは?それは?」と逆に質問されまくる。
そういう時は「あんたコミュ能力不足だね」と言ってやる。
193:デフォルトの名無しさん
10/03/11 10:28:44
>>192
お客様扱いされたいなら、コンサルに金を払え、池沼。
194:デフォルトの名無しさん
10/03/11 12:27:09
>>192 コミュ能力不足は、一発で回答を期待してるのに、十分な情報を与えてないおまえだ。
195:デフォルトの名無しさん
10/03/11 14:48:22
つーか、「とある事情で形態素解析をやる必要が出てきた」だけなら
「めかぶでも使っとけお前の仕事なんてねーよ」で終わるレベル
196:デフォルトの名無しさん
10/03/11 16:09:05
>>195
> もちろん辞書の類は無しで。
コミュ力不足w
197:デフォルトの名無しさん
10/03/11 17:30:47
辞書不可とか「辞書作るのとかめんどくせーし」ってだけだろ。おまえのコミュ力が心配だわ
198:デフォルトの名無しさん
10/03/11 20:35:09
>>197
そういう決め付けはコミュ不足の典型例だな
199:デフォルトの名無しさん
10/03/11 20:36:16
>>185
といいながら、具体的なアルゴリズム名や文献を例示できるほどには詳しくないのですねw
200:デフォルトの名無しさん
10/03/11 20:42:03
決めつけも何も事実だし
201:デフォルトの名無しさん
10/03/12 04:56:18
事実と推測の区別がつかない人がコミュ力とかwww
202:デフォルトの名無しさん
10/03/13 05:27:16
久々に見たらなんか盛り上がってて嬉しいぞ
203:デフォルトの名無しさん
10/03/24 15:51:15
論理的には同じことを言っている文章を検出する方法はないのでしょうか
日本語を論理式に変換するようなものがあるといいのですが
204:デフォルトの名無しさん
10/03/24 16:06:24
あるといえばあるしないといえなくもない
205:デフォルトの名無しさん
10/03/24 18:10:10
>>204
検索キーワードだけでも教えていただけませんでしょうか
206:デフォルトの名無しさん
10/03/24 18:51:43
専門業者に頼んだほうがいいんじゃないの
自分で同義語辞書作ってたら何年かかることやら
207:デフォルトの名無しさん
10/03/25 13:37:15
>>203
英語ならあるのかな?
208:デフォルトの名無しさん
10/03/25 14:19:35
I'll be back.
と
See you later.
は論理的には同じ?
209:デフォルトの名無しさん
10/03/25 20:32:53
最後は人出で探すから大まかに検出できるだけでいいんだ
210:デフォルトの名無しさん
10/04/16 15:53:54
mecabを日本語のhtmlにかけると、htmlのタグまで処理してしまうんだけど
日本語文字列だけ判別して処理する方法はないの?
kakasiはあったみたいだけど
211:デフォルトの名無しさん
10/04/16 16:39:58
URLリンク(d.hatena.ne.jp)
P2P web検索エンジン yacy URLリンク(www.yacy.net) を日本語でも使えるようにしてみた
212:デフォルトの名無しさん
10/04/16 22:53:02
京都大霊長類研究所(愛知県犬山市)人類進化モデル研究センターで昨年
3月~今月までに、飼育中のニホンザル15頭が急死していたことが28日、
かった。
死因は不明で、感染症の疑いもあるという。
同センターによると、死んだニホンザルは昨年6頭、今年9頭。いずれも血液中の
血小板や赤血球、白血球の数が減少する「再生不良性貧血」を発症していた。ただ、
病気と急死の因果関係がはっきりせず、死因は特定できていないという。
また、一つの飼育室で複数のサルが発症していることなどから、感染症の疑いも
あるという。2001~02年にも再生不良性貧血の症状があった6頭が急死したが、
死因は分かっていない。
同センターでは約1000頭を飼育しているが、ニホンザル以外での発症例はなく、
平井啓久センター長は「今夏以降、死因を本格的に調べている。分かり次第、
公表したい」と話している。
読売新聞 2009年12月28日19時56分
URLリンク(www.yomiuri.co.jp)
213:デフォルトの名無しさん
10/05/19 18:31:38
いまこのスレ見つけて、wktkしながらみてみたのだが、、
質問してるやつらが、痛すぎるなあ。
214:デフォルトの名無しさん
10/05/19 19:15:31
2chはそんな場所。そこが面白いところでもある
215:デフォルトの名無しさん
10/05/31 12:11:20
未知言語に対して、ほぼ必ず区切りになる部分の見つけ方わかりますか?
例えば、英語だと空白やDOT、日本語だと、。が区切りなりますが。
たとえば 「。」 → 「丸」 と置き換えた場合でも、言語の構成・仕組みから
「丸」は特別で区切りと判明できる方法です。
216:デフォルトの名無しさん
10/05/31 12:12:03
あげます。
217:デフォルトの名無しさん
10/05/31 12:26:04
ABCと語が出現したとき。
Aの総数と、ABの総数
Bの総数と、ABの総数
Bの総数と、BCの総数
Cの総数と、BCの総数
などを比較して、
ABとBCはどちらも繋がりにくい事を判定すればいいか。
= AB、BCは単語を構成しない(らしい)としてBが区切りと判定する。
218:デフォルトの名無しさん
10/05/31 16:09:41
上のほうで辞書なしとかノンパラメトリックとかいってるのがそれだ。あとはぐぐれ。
219:デフォルトの名無しさん
10/05/31 17:46:08
サンクス
220:デフォルトの名無しさん
10/06/03 22:15:13
周辺確率でぐぐれ
221:人工痴脳
10/06/26 22:01:07
遅レスですまん。
>>123
> つまらない質問なんですけど、例えば「住んでいて」という言葉を
> 「住んでて」と略したりしますよね?
> これは文法的には間違っているけど、通じますよね?
補助動詞「行く」「置く」「居る」の三つは省略がある。
ex.「ずっと住んでく」「とりあえず住んどく」「いま住んでる」
222:人工痴脳
10/06/26 22:09:35
>>181
> 知識なし、形態素分解なしでキーフレーズ抽出できるもの?
可能ではあるが精度が上がらんから、辞書作ったほうが早い。
頭っから見てって、ひらがなから非ひらがなに変わるところで切り、
ひとつ前を見て「お」「ご」だったら接頭語かどうかチェックする、
という手で相当いける。
まあ、そこまでやらんでも、すでにフリーの辞書があるから
それ使え。
ゲーム製作技術板の『人工知能or人工無脳作ろうぜ』スレ参照。
223:人工痴脳
10/06/26 22:36:34
>>203
> 論理的には同じことを言っている文章を検出する方法はないのでしょうか
> 日本語を論理式に変換するようなものがあるといいのですが
様相論理が役に立つかもしれん。
坂井秀寿『日本語の文法と論理』勁草書房とか。
224:デフォルトの名無しさん
10/07/03 11:20:19
UTF16LE UTF16BEを検出出来るソフトはないようだ。
判定方法判ったので、ソフトで間違えた場合の応急処置として使ってみてくれ。
このyの値が1/2より下回ればUTF16LE、上回ればUTF16BE。
int n; int cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<s.size(); n++) cnt[n%2]+=s[n]<32?1:0;
double y=(double)cnt[0]/cnt[1];
cout<<y<<endl;
225:224
10/07/03 11:22:29
訂正。
このyの値が1/2より
→
このyの値が1より
上位ビット、下位ビットが不均衡になる所に注目する。
226:デフォルトの名無しさん
10/07/03 11:55:48
UTF16LEとUTF16BEが間違えるな。
文字化けがあれば大小関係がかわるし。
227:デフォルトの名無しさん
10/07/03 12:57:55
ボム無しUTF16LEとUTF16BEの判定方法判りますか
228:デフォルトの名無しさん
10/07/03 13:29:00
UTF16の判定は0の個数だけ判定したらうまくいった。ただし英数字が十分にあること。
int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[0] > 0.7*cnt[1] ) return 2; // UTF-16BE
return 0; }
229:デフォルトの名無しさん
10/07/03 13:39:20
ヒューリスティックだねぇ
230:デフォルトの名無しさん
10/07/03 14:32:02
修正
int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if(cnt[0]==0 || cnt[1]==0 ) return 0;
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[1] < 0.7*cnt[0] ) return 2; // UTF-16BE
return 0; }
231:デフォルトの名無しさん
10/07/03 14:32:33
連続した文字が「同じ文字区分に属している確率」を見ればいいんじゃない?
232:デフォルトの名無しさん
10/07/06 04:51:26
>>227
察するにCかなんか使ってるようだが、
Javaかなんかに乗り換えたほうが
たぶん長期的に見れば楽だと思うぞ。
Cの文字列はヌル・ターミネートだから、
文字列の中にヌル文字が入ってると結構ややこしいことになるし、
文字列のような可変長データの動的割当を気にしていると
開発効率があまりよろしくない。
Javaが厄介な点も一つだけあって、
char が signedで あって unsigned じゃない。
高速ですべての部分文字列の辞書引き(直積検索という)を
行なうとき、Google でも使われてる
「ダプル配列法」(本当は、もっと素朴なトリプル配列法のほうが
面倒臭くないし効率もいいのでおれはそっちを使ってる)を
使おうとすると、配列の参照点→配列の参照点+バイアスという
相対移動が出てくるときにマイナスの移動が生じ、
範囲外参照で落ちるということがある。
まあ、そこに配慮してコードを書けばいいだけの話なんだが、
文字コードのせいでプログラムとアルゴリズムの対応が直感的に
取りづらいというのはあまり気分がよろしくない。
233:デフォルトの名無しさん
10/07/06 21:29:23
Javaのcharは符号無しですが何か?
234:デフォルトの名無しさん
10/07/07 09:09:42
>>233
ごめん byte だ。
char はでかすぎてダブル配列法を使うと場所食ってたまらん。
235:デフォルトの名無しさん
10/07/07 17:43:13
文書の類似度計るのに多く出る単語は価値を低くして
滅多に出ない単語も価値を低くしたいのですが。
後者は、前者と対立して価値を高くすべきと思われますが、ここを無視すれば計算時間が短縮出来ます。
価値が一定値以下の単語はカットしたいのですが、上側と下側をカットするにはどうしたらいいですか。
236:デフォルトの名無しさん
10/07/07 19:06:27
w_i = 0
これでバッチリ。
237:デフォルトの名無しさん
10/07/07 19:13:07
普通にヒストグラム取って25パーセンタイルと75パーセンタイルでカットするとかじゃ駄目なのか?
238:デフォルトの名無しさん
10/07/07 21:06:19
サンクスです。
上と下も同一パラメータでカットしたかったのですが。
総量と分散でに分けてカットすることにします。
どの文書にも10個ずつ現れるなら分散0でカットして
合計数が少なすぎ多すぎでカットします。
239:デフォルトの名無しさん
10/07/07 21:10:21
>>237
二十年以上昔から
駄目っぽいことが判ってるらしい。
上側は用言や副詞や動名詞
下側は固有名詞と
だいたい傾向が分かっていて、
類似度を計るときは、通称「百科語」と呼ばれる
単語を使うことになっているのだが、
ここんとこに漢語の合成語が入ってくるのが難物なのだ。
漢語の合成語を自動検出するシステムを作って
ふるいに掛けてみたら、
二十万語を越しても一向に頭打ちになる様子がないので
怖くなってやめたと、たしか高橋秀俊先生が
書いていらっしゃった。
最近ではシソーラスを作るのが基本だが、
手間が半端じゃねぇというので
あまり好かれない。
>>235 もたぶんそういった流れなんだろうと思う。
240:デフォルトの名無しさん
10/07/07 21:14:30
自分の場合は、単語は普通の単語でなくN-gramなんですが。
HTMLをテキストとして読み込むと、文書を特徴付けないタグ関連が上位にきて
ここら辺が精度のためにカットして、下位は精度より計算量削減のため削ります。
241:デフォルトの名無しさん
10/07/07 21:20:29
普通の単語では、長いものは短い物より現れにくく
経験としての単語同士の価値の補正が必要になり不便です。
いまは、UTF16 (上のレスは自分です) で2語または3語で回数数えてやってます。
242:デフォルトの名無しさん
10/07/07 21:25:18
>>239
今時の計算機ならいけるかもしれんな。
IPADICから合成語を除いた上で、2語で1語になるものを、ウェブ上で端から集めるとか
そんな方法ででけるかな。
243:デフォルトの名無しさん
10/07/07 22:29:13
>>242
辞書がこなれてくるまでに
多少人手で編修する必要はあると思うが、
基本いけそうに思う。
「割愛する」が「割+愛する」と
解析されてしまうとかいった類の
不測の事態っつーのがけっこうあったりするので。
244:デフォルトの名無しさん
10/07/07 22:39:45
割礼
245:デフォルトの名無しさん
10/07/08 20:23:38
>>244
むしろ熱愛
246:デフォルトの名無しさん
10/08/08 10:47:10
MeCabってどういう仕組みなんですか?
文字列abcがあり、辞書に[a], [b], [c], [a, b], [b, c], [a, b, c]の形態素情報があった場合、
もっとも繋がりの高い形態素の連鎖状況を見てそれを出力するんですか?
(例えば[a][b][c]よりも[a, b][c]となっている確率の方が高い場合、後者を選択)
品詞情報からp(x|y)を判断する方法もあると思いますが、特定の形態素に対してp(x|y)を算出するのに辞書情報を用いる方法が分かりません。
247:デフォルトの名無しさん
10/08/08 12:08:54
>>246
CRF
248:デフォルトの名無しさん
10/09/09 23:03:51
c++でmecab使ってるんだけど
直接stringを解析ってできないの?
今はいちいちstringからcharに変換してる
249:デフォルトの名無しさん
10/09/10 03:36:30
>>248
なかったはず。
いちいち変換と言っても tagger.parse(str.c_str()) くらいだし、ユーティリティのマクロでも書けば?
250:デフォルトの名無しさん
10/09/10 09:49:32
>>249
ありがと!
そうしてみる
それにしてもmecabをc++で書いてる人ってあんまいないね
みんなperl使ってるわ
251:デフォルトの名無しさん
10/09/13 16:37:00
統計ならR
画像ならOpenCV
みたいな定番があるけど
自然言語処理でこれが定番みたいなものはないの?
252:デフォルトの名無しさん
10/09/13 19:04:34
Python
ツールが揃ってるのが大きい。
Perlはもう時代遅れ気味で
新しいツールはPythonばかり。
253:デフォルトの名無しさん
10/09/13 19:08:03
>>252
質問(>>251)しているのは、プログラミング言語ではなくて
アプリケーションあるいはミドルウェアに属すソフトウェアだと思うんだが?
254:デフォルトの名無しさん
10/09/13 19:36:57
>>251
めかぶ
255:デフォルトの名無しさん
10/09/13 23:01:40
>>252
日本語でも大丈夫なのかな?
もしよかったら日本語OKなライブラリを教えて。
256:デフォルトの名無しさん
10/09/14 00:56:20
でもネットに転がってるソースってまだPerlが全然多ないか?
参考にしたいから勉強しようと思ってたけど
遅れ気味って言われると今からやるのは抵抗あるな
257:デフォルトの名無しさん
10/09/14 01:07:21
今からperlやるのは
今からwin95使うようなもんだろ
258:デフォルトの名無しさん
10/09/14 02:17:32
そりゃあ最近まではPerlが主流だったから既存のソースは多いよ。
ただ、これからはPythonが主流なので最先端の実装はPythonでリリースされるのが多い。
Perlでは新しいツールはあまり作られなくなるだろうね。
259:デフォルトの名無しさん
10/09/14 15:01:04
POPFileを今も使ってる
perlはまだまだ現役
260:デフォルトの名無しさん
10/09/14 22:21:06
別にどっちでもいいよ。目的は、所望の処理ができることだから。
261:デフォルトの名無しさん
10/09/16 08:45:04
とりあえず自然言語処理ではmatlabやRに相当するものはないということでいいんだね
262:デフォルトの名無しさん
10/09/16 09:54:27
>>261
日本語ならNAISTが開発している一連の形態要素解析/言語解析ライブラリ群、
コーパス/辞書管理ツール群がmatlabやRに相当するものになるのではないかと。
ちなみに既出の形態要素解析ライブラリMeCab(そしてChaSen)もNAIST生まれ。
ただ、数学に無知な人がmatlabやRを使いこなせないのと同じ理由で、
統語的意味論とか統計的言語解析みたいな言語理論を理解していないと使えないけどね。
263:デフォルトの名無しさん
10/09/18 09:53:53
NAISTの成果物 (MeCab, ChaSen等) と、京都大学の成果物 (JUMAN, KNP等) は
どちらが優れる?
264:デフォルトの名無しさん
10/09/18 09:56:47
アイちゃん
265:262
10/09/18 11:59:16
>>263
ナゼそこで個別のパッケージを比較せずに開発元組織を比較しようとする?
お前は本物のサルだな
266:デフォルトの名無しさん
10/09/29 13:36:12
mecabをc++で使ってて、解析したnode->surfaceから表層系を取り出したいんだけど
charから指定した文字数を吐くような関数ってある?
char型の文字を指定した文字数だけstring型に移す関数でもいいんだけど
やっぱstrncpy使わないとダメか?
267:デフォルトの名無しさん
10/09/29 21:43:47
質問がよく判らんが、sprintf(destination, "%.*s", length, source)という話なのだろうか
268:デフォルトの名無しさん
10/11/05 19:02:00
Natural Language Processing with Pythonの和訳本がようやく出るね
twitterでは5月ころ出るって言ってたのにw
でも日本語処理の章も追加されてるししょうがないのか
269:デフォルトの名無しさん
10/12/15 02:04:41
緊張浮上
270:デフォルトの名無しさん
10/12/17 11:17:19
日本語処理に関する、ゴミみたいな記事が追加されただけだろ
271:デフォルトの名無しさん
10/12/17 16:02:20
とゴミが言いました。
272:デフォルトの名無しさん
10/12/17 23:15:15
読んだけどいい本だったよ
273:デフォルトの名無しさん
10/12/19 09:00:36
基本的に英語での処理?
英語ってスペースで区切れば簡単に英単語抽出できそうだよね。
274:デフォルトの名無しさん
10/12/19 20:49:42
そう思ってる椰子はステマーの奥深さを知らない初学者。
275:デフォルトの名無しさん
10/12/20 12:22:31
ステマー?
動詞の活用とか副詞のlyとか接頭語接尾語に関する用語か?
276:デフォルトの名無しさん
10/12/21 16:22:53
ってかこの分野って需要ある?
277:デフォルトの名無しさん
10/12/21 16:37:24
URLリンク(www.youtube.com)
過疎りかたがはんぱない
278:デフォルトの名無しさん
10/12/22 13:12:06
機械翻訳の技術について書かれた本とかサイトとかないかな?
今どんなことが問題になっててどんなアプローチされてるのかとか知りたいんだけど
279:デフォルトの名無しさん
10/12/22 13:51:54
ググレ
280:デフォルトの名無しさん
10/12/22 14:42:20
ググれは最強だからな
281:デフォルトの名無しさん
10/12/22 19:22:41
Google Scholar で 1,770,000 件。
URLリンク(scholar.google.co.jp)
282:デフォルトの名無しさん
10/12/27 00:14:25
>>278
誰かまとめてくれ。
自然言語処理の分野で。
283:デフォルトの名無しさん
10/12/27 17:19:32
自然言語処理では、
造語とか、略語とか、若者言葉とか、
特殊な言葉はどうやって処理してるんだ?
特別な辞書(キーワードリスト)でも作っておけばいいのか?
284:デフォルトの名無しさん
10/12/27 18:34:53
文部省的な「文法」(橋本文法とかね)に従ってきっちり処理できるような文は、
現実に通用してる文のごく一部でしかないので、自然言語処理ではもっと適当に
現実に合わせて処理しています。
つまり特殊な言葉とかそういうくくりはなくて、単に処理する必要がある(ありそうな)
単語は片っ端から辞書に登録されているわけ。
285:デフォルトの名無しさん
10/12/27 20:05:52
誤字脱字があっても平気?
286:デフォルトの名無しさん
11/01/03 15:49:33
みんな言語処理でどんなことしようとしてるの?
287:デフォルトの名無しさん
11/01/03 15:53:16
金儲け
288:デフォルトの名無しさん
11/01/03 20:27:33
人工無能
289:デフォルトの名無しさん
11/01/04 10:47:20
英語の勉強に活用。
290:デフォルトの名無しさん
11/01/04 16:34:24
>>289
どーやってんだ?
291:デフォルトの名無しさん
11/01/04 18:57:18
ステマーの奥深さを知らないのか
292:デフォルトの名無しさん
11/01/06 10:35:39
>>290
たとえば、
nltk.chat.chatbots()
を使うとbotと会話できるw
293:デフォルトの名無しさん
11/01/06 17:32:09
どのアルゴリズムもパラメータサーチは結局は手動で勘なのか
全然進歩してないな
294:デフォルトの名無しさん
11/01/08 21:44:34
そんなことないだろ。
295:デフォルトの名無しさん
11/01/21 04:16:22
四ヶ月ぐらい取り組んできた成果が出てきた
日本語限定だが自然言語処理を根本からひっくり返せるかもしれぬ
どこで発表すべき迷うな
296:デフォルトの名無しさん
11/01/21 05:37:28
ここでもいいよ
すごそうだぬ
297:デフォルトの名無しさん
11/01/22 03:10:01
入門書の良い本紹介してくれませんか?
298:デフォルトの名無しさん
11/01/22 16:59:54
入門自然言語処理
299:デフォルトの名無しさん
11/02/16 16:06:35
CRFって離散変数しか扱えないの?
300:デフォルトの名無しさん
11/02/28 16:58:57.74
本屋にpythonでテキストマイニングする本が積まれてた
ここみるとみんなrubyのような気もするんだけど
pythonの方が実は使われてたりするの?
301:デフォルトの名無しさん
11/02/28 17:01:17.55
URLリンク(www.oreilly.co.jp)
これこれ
302:デフォルトの名無しさん
11/02/28 17:38:29.76
>>300
少なくとも国際的には圧倒的にpythonが主流。
303:デフォルトの名無しさん
11/02/28 19:44:46.83
Pythonは機械学習・データマイニングなどのライブラリが充実してる
304:デフォルトの名無しさん
11/04/14 10:42:58.45
そういえばRってあんまりみないね
pythonなんだ
305:デフォルトの名無しさん
11/04/15 12:29:50.40
入門自然言語処理って面白い?
306:デフォルトの名無しさん
11/04/15 22:02:21.49
おいしいよ
307:デフォルトの名無しさん
11/04/16 00:51:56.42
どういうこっちゃねん
308:デフォルトの名無しさん
11/09/06 04:22:16.58
人工無能botを作りたいんですがおすすめの本とかありますか?
309:デフォルトの名無しさん
11/09/06 19:04:56.93
誰でもできるtwitterbotの作り方。
310:デフォルトの名無しさん
11/09/08 23:46:18.94
tf,idfのidfの式に+1する理由って何ですか?
0にしないため?
311:デフォルトの名無しさん
11/09/09 11:07:33.37
ラプラスさんに訊け
312:デフォルトの名無しさん
11/09/09 20:37:53.87
表記は tf*idf じゃないのかな?
313:デフォルトの名無しさん
11/09/12 12:15:22.92
tf☆idf
314:デフォルトの名無しさん
11/10/08 11:38:27.96
しょうもないことをいってすまんかった。話を続けてくれ。
315:デフォルトの名無しさん
11/12/13 23:33:05.83
皆さんは使っているのは
距離:コサイン類似度
クラスタリング:k-means
分類:SVM
って感じなのでしょうか?
どんなもの使用しているのか教えていただけませんでしょうか?
316:デフォルトの名無しさん
11/12/14 22:25:36.63
目的によるんじゃないの? どうしてそう特定できるのだろう?
317:片山博文MZ ◆0lBZNi.Q7evd
11/12/17 14:37:13.95
他のスレでも書いていますが、小学校2年生ぐらいの算数の文章問題を
解析して答えを導きたいとき、どのような処理を行えばよいのでしょうか。
単純な計算は解けます。困っているのは日本語の処理です。
318:デフォルトの名無しさん
11/12/17 14:43:36.71
数学者が扱うようなかっちり定義された問題なら
まだわからなくもない
319:デフォルトの名無しさん
11/12/17 15:15:20.87
>>317
具体例だしてよ
320:片山博文MZ ◆0lBZNi.Q7evd
11/12/17 15:47:24.77
すずめが 5わいます。 そこへ2わとんできました。
すずめは みんなで なんわに なったでしょう。
321:片山博文MZ ◆0lBZNi.Q7evd
11/12/17 15:50:41.62
りんごが 3こ あります。
さとしくんは 1こ たべました。
りんごは のこり なんこに なったでしょう。
322:片山博文MZ ◆0lBZNi.Q7evd
11/12/17 16:18:38.32
おすしを2こたべました。
今、さらに3こをたべました。
ぜんぶでなんこたべたことになりますか?
323:デフォルトの名無しさん
11/12/17 16:23:55.78
しかもひらがなかよ!!
324:デフォルトの名無しさん
11/12/17 21:36:55.37
>>322
それは難しすぎる
高騰プログラミング技術が必要だ
325:デフォルトの名無しさん
11/12/17 22:06:38.73
論理命題に落としこむとか対応付けたり出来ないか
食べる → マイナス
飛ぶ → マイナス
みたいに
326:デフォルトの名無しさん
11/12/18 10:32:38.36
>>321 食べる→マイナス
>>322 食べる→プラス
プログラミングじゃなくて言語学を専門でやらないと無理
ちなみに >>322 の「さらに」は皿のことだからな、間違うなよ!!!
327:デフォルトの名無しさん
11/12/18 10:39:53.34
いったん人の読める形に変換するとか。
おすしを2こたべました。
↓
私は2個のお鮨を食べた。
328:デフォルトの名無しさん
11/12/18 10:55:36.82
小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ
あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329:片山博文MZ ◆0lBZNi.Q7evd
11/12/18 12:18:55.16
少なくとも時系列記憶ができないといけない。
330:デフォルトの名無しさん
11/12/19 22:35:08.20
今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語(英語)と一文字(日本語)で、
日本語の場合と(仕方ないですが)挙動が違ってきますし
・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
を教えて頂けませんでしょうか?
331:デフォルトの名無しさん
11/12/19 23:17:52.27
>>330
・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし(速度は別にして)
332:デフォルトの名無しさん
11/12/19 23:28:43.31
>>330
書籍 『入門 自然言語処理』 O'Reilly Japan, 2010 の第12章「Python による日本語自然言語処理」
の内容が公開されてるよ。ChaSenやMeCabによる形態素解析とNLTKを連携させる話しが載ってる。
個人的にはこの章が追加されてるだけでも本書を買う価値があると思うよ。
URLリンク(nltk.googlecode.com)
333:デフォルトの名無しさん
11/12/19 23:38:01.74
>自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか?」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、(日本とかは世界では独特でしょうから当然ですが)欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが
自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか?
関係ないとは思いますが、この場合(ライブラリを使う場合)も日本語の問題はやはりあるのでしょうか?
334:デフォルトの名無しさん
11/12/19 23:41:01.14
>>332
ありがとうございます
ネットにて検索いたしました
まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか?
335:デフォルトの名無しさん
11/12/19 23:52:35.08
(´・ω・`)シランガナ
336:デフォルトの名無しさん
11/12/19 23:57:06.37
>>333
python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う(自分はあまりつかわないけど)
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337:デフォルトの名無しさん
11/12/20 00:26:51.64
でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
338:デフォルトの名無しさん
11/12/20 19:25:09.19
質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか?
N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います
欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません
N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか?
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
339:デフォルトの名無しさん
11/12/20 19:28:01.58
文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
340:デフォルトの名無しさん
11/12/20 19:54:24.24
>>339
一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
341:デフォルトの名無しさん
11/12/20 20:40:57.74
で、文字ngramを使ったPOS taggerを作りたいの?
それとも文字ngramを使ったchunkerを作りたいの?
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
342:デフォルトの名無しさん
11/12/20 20:59:05.66
>>341
まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください(すみません)
皆さんはN-gramの後に単語に作り直さないのでしょうか?
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし
例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか?
自分は、ある文章をクラス(ジャンル)分けしようと考えているのですが、
その為には品詞、特に名詞(後は動詞)を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで
とにかく、N-gram -> 相関性やクラスタリングなどの式に送る ということをしたいと思っております
343:デフォルトの名無しさん
11/12/20 21:14:49.61
品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ?
344:デフォルトの名無しさん
11/12/20 21:24:19.12
mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが
まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
345:デフォルトの名無しさん
11/12/20 21:35:07.71
N-gramは漏れなしで全て登録が基本。
346:デフォルトの名無しさん
11/12/20 21:36:46.37
知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
347:デフォルトの名無しさん
11/12/20 21:43:24.10
教師なし単語分割の最前線。ベイズ meets 言語モデル
URLリンク(d.hatena.ne.jp)
教師なし 統計 言語 - Google 検索
URLリンク(www.google.com)
348:デフォルトの名無しさん
11/12/20 21:48:11.51
翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
349:デフォルトの名無しさん
11/12/20 21:48:49.66
そもそもやりたいのは文章分類なんだよね?
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば?
形態素で分類したほうが精度いいと思うけどね
350:デフォルトの名無しさん
11/12/20 21:50:41.18
長くなってすみません m(_ _)m
教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか?
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを(単語として戻さずに)検索などの処理に当てるのでしょうか?
その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります(苦笑)
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351:350
11/12/20 21:52:48.13
おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います
今からレスを一つ一つ確認いたします
352:デフォルトの名無しさん
11/12/20 21:58:39.34
人間が理解可能な言語構造のない検索対象。
"n-gram" dna配列 - Google 検索
URLリンク(www.google.com)
353:350
11/12/20 22:07:13.91
なるほどッ!
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
(自分は検索エンジンを作るつもりではありませんでしたが)
形態素よりもN-gramの方がいいと書かれていた(メリットが強調されていた)為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので
日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います
"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
354:デフォルトの名無しさん
11/12/21 04:33:48.34
1~N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
355:デフォルトの名無しさん
11/12/21 04:51:48.14
日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram
ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。
この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。
がんばれ。
356:デフォルトの名無しさん
11/12/21 22:17:52.87
今、KNPにて
URLリンク(reed.kuee.kyoto-u.ac.jp)
文章打って試してみたのですが、Cabochaとか、こういう係り受け解析ってのは何に使うものなのですか?
何かグラフのように出力されましたが、これが何なのかな、と思います
基本的に何の目的で使うものなのでしょうか?
Juman
URLリンク(reed.kuee.kyoto-u.ac.jp)
とかは分かるのですが
357:デフォルトの名無しさん
11/12/22 00:01:55.70
特徴
KyTeaには以下の機能が揃っています:
単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。
<a href="URLリンク(www.phontron.com)">KyTea (京都テキスト解析ツールキット)</a>
358:デフォルトの名無しさん
11/12/22 08:30:14.66
>>356
ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。
まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。
私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
359:デフォルトの名無しさん
11/12/22 08:39:07.33
そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
360:デフォルトの名無しさん
11/12/22 23:16:55.44
>>358
なるほど
レスありがとうございます
私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか?
>>359
なるほど
関連性、親密性のようなものも判断できるということですね
361:デフォルトの名無しさん
11/12/27 17:28:18.65
かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。
できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
362:デフォルトの名無しさん
11/12/27 17:47:58.30
>>361
A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが?
363:デフォルトの名無しさん
11/12/27 17:54:34.37
>>362
A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
364:デフォルトの名無しさん
11/12/28 01:13:32.79
>>362
「A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まる」ってのは本当なんかね・・・
ここにもA*でおkって書いてあるけどいまいち信用出来ない・・・
URLリンク(d.hatena.ne.jp)
これって「k shortest simple paths 問題(コスト付きグラフにおけるk番目に短い経路(ループする経路は除く)を求める問題)」だよね。
365:デフォルトの名無しさん
11/12/28 12:33:21.23
URLリンク(d.hatena.ne.jp)
URLリンク(d.hatena.ne.jp)
URLリンク(d.hatena.ne.jp)
URLリンク(www.sousakuba.com)
URLリンク(efcl.info)
URLリンク(www.deqnotes.net)
URLリンク(www.me.sophia.ac.jp)
URLリンク(d.hatena.ne.jp)
URLリンク(ja.wikipedia.org)
URLリンク(www.infor.kanazawa-it.ac.jp)
366:デフォルトの名無しさん
11/12/28 19:15:58.02
自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という2文があった場合、(簡単な為名詞、動詞だけにします)
x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります
文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います
こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
367:デフォルトの名無しさん
11/12/28 20:18:02.05
>>364
n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね?
368:デフォルトの名無しさん
11/12/29 07:11:16.75
テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である(またはその領域上の解析関数であるという)。
大方収束したと考えてよろしいのでは。
369:デフォルトの名無しさん
11/12/29 09:26:16.23
A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
370:デフォルトの名無しさん
11/12/29 09:34:58.74
A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371:デフォルトの名無しさん
11/12/31 00:23:59.89
361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない&実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372:デフォルトの名無しさん
11/12/31 04:01:16.07
>>365
ありがと。
373:片山博文MZ ◆0lBZNi.Q7evd
11/12/31 15:55:06.49
自然言語処理を1から勉強したいです。
いい本とかサイトとかあったら教えてください。
374:デフォルトの名無しさん
11/12/31 15:59:45.49
>>373
大学に行きなよ。
375:デフォルトの名無しさん
11/12/31 17:18:13.41
>>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
376:デフォルトの名無しさん
11/12/31 18:38:43.43
>>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
377:デフォルトの名無しさん
11/12/31 20:04:49.39
>>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
378:デフォルトの名無しさん
11/12/31 23:02:14.64
赤ちゃんプレイでしたら申し訳ございません。
379:デフォルトの名無しさん
12/01/01 02:03:48.30
勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
380:片山博文MZ ◆0lBZNi.Q7evd
12/01/01 13:26:45.84
>>374-379 皆さんありがとうございます。
381:デフォルトの名無しさん
12/01/02 12:24:14.38
>>376
大学がじゃないと厳しいと思えるのは何ですか?
何か一つでもあげてもらえば参考になります
382:デフォルトの名無しさん
12/01/02 18:20:05.70
>>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。
あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
383:片山博文MZ!omikuji ◆0lBZNi.Q7evd
12/01/03 14:14:10.89
何でみんなUnicodeを使わないの? Lispで使えなかったから?
384:デフォルトの名無しさん
12/01/03 14:31:34.94
どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
385:デフォルトの名無しさん
12/01/04 05:50:25.78
社会人厨は巣に帰れよ。
だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
386:デフォルトの名無しさん
12/01/04 15:09:13.18
ジャストシステムとか
富士通とか
NTT系のどっか
387:デフォルトの名無しさん
12/01/04 15:12:49.33
日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
388:デフォルトの名無しさん
12/01/04 23:21:15.36
今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか?
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが
今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか?
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
389:デフォルトの名無しさん
12/01/05 01:25:30.73
>>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
390:デフォルトの名無しさん
12/01/05 09:23:03.37
>>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
391:デフォルトの名無しさん
12/01/05 09:26:27.86
たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
392:デフォルトの名無しさん
12/01/05 10:18:01.09
自然言語処理を1から勉強したいです。
393:デフォルトの名無しさん
12/01/05 18:31:41.25
とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
394:デフォルトの名無しさん
12/01/05 18:48:04.25
潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較(データ・クラスタリング、文書分類、など)
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す(言語間検索)。
用語間の関係を探す(類義性や多義性)。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す(情報検索)。
潜在意味解析 - Wikipedia
TF-IDFで遊んでみた - uncertain world
URLリンク(d.hatena.ne.jp)
395:デフォルトの名無しさん
12/01/05 18:56:15.79
文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
396:デフォルトの名無しさん
12/01/05 19:01:24.42
>>369>>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
397:デフォルトの名無しさん
12/01/05 19:08:37.45
と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
398:デフォルトの名無しさん
12/01/05 19:13:49.12
>>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
399:デフォルトの名無しさん
12/01/05 19:14:29.85
ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
400:デフォルトの名無しさん
12/01/05 19:18:02.14
ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
401:デフォルトの名無しさん
12/01/06 10:28:24.91
Blunder のアルゴリズム
Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
URLリンク(www.computer-shogi.org)
402:デフォルトの名無しさん
12/01/06 23:51:53.36
で?
403:デフォルトの名無しさん
12/01/07 10:56:57.00
特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
404:デフォルトの名無しさん
12/01/07 11:23:26.39
重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
405:デフォルトの名無しさん
12/01/07 11:26:56.69
あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406:デフォルトの名無しさん
12/01/18 10:04:55.40
寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。
モノの応用
407:デフォルトの名無しさん
12/01/22 01:47:33.04
ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
408:デフォルトの名無しさん
12/01/22 02:44:23.16
Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
URLリンク(www-tsujii.is.s.u-tokyo.ac.jp)
目次
URLリンク(www.gifu-nct.ac.jp)
潜在意味解析 - Wikipedia
URLリンク(ja.wikipedia.org)
pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
URLリンク(d.hatena.ne.jp)
うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA (Rで実装)
URLリンク(wg-stein.blogspot.com)
409:デフォルトの名無しさん
12/01/22 04:02:56.10
連続音声認識システムに使用するアルゴリズム
URLリンク(unicorn.ike.tottori-u.ac.jp)
ビタビアルゴリズム
URLリンク(www.yobology.info)
簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
URLリンク(d.hatena.ne.jp)
Khafra - A Phrase-based DP Beam Search Decoder -
URLリンク(www.nlp.mibel.cs.tsukuba.ac.jp)
ソフトウェア特論 講義資料 グラフ探索,問題解決
URLリンク(www.jsk.t.u-tokyo.ac.jp)
410:デフォルトの名無しさん
12/01/22 04:33:56.81
【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
URLリンク(blog.livedoor.jp)
Python による日本語自然言語処理
URLリンク(nltk.googlecode.com)
文節をどう区切るか
URLリンク(www4.airnet.ne.jp)
411:デフォルトの名無しさん
12/01/22 05:09:46.05
かな漢字変換システムのしくみ
URLリンク(web.archive.org)
第3章 コンピュータで文章から単語を取り出す方法 - 長岡技科大 自然言語処理研究室
URLリンク(sites.google.com)
ビタビアルゴリズム - Wikipedia
URLリンク(ja.wikipedia.org)
412:デフォルトの名無しさん
12/01/26 03:38:46.40
特異値分解 - Wikipedia
URLリンク(ja.wikipedia.org)
潜在意味解析 - Wikipedia
URLリンク(ja.wikipedia.org)
413:デフォルトの名無しさん
12/01/26 08:34:04.08
このスレはおまえのお勉強ノートじゃねぇんだ
414:デフォルトの名無しさん
12/01/28 14:13:32.43
平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。
蜂は花の蜜を吸う
はちははなのみつをすう
415:デフォルトの名無しさん
12/01/28 19:06:44.47
文書の1~4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416:片山博文MZ ◆0lBZNi.Q7evd
12/02/05 13:50:34.97
「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする?
417:片山博文MZ ◆0lBZNi.Q7evd
12/02/05 13:55:41.07
JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418:デフォルトの名無しさん
12/02/06 10:53:32.79
IDEの間違いじゃないの
419:デフォルトの名無しさん
12/02/06 10:58:18.63
「かな漢」って言えばいいやん
420:デフォルトの名無しさん
12/02/06 18:13:38.32
ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
URLリンク(www.nri.co.jp)
>ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。
動詞は語尾変化も含めて、助詞や助動詞(「~である」「~から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。
『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
URLリンク(it.impressbm.co.jp)
それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。
『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
URLリンク(homepage3.nifty.com)
421:デフォルトの名無しさん
12/02/06 19:41:08.38
なにがしたいん
422:デフォルトの名無しさん
12/02/06 20:17:02.73
ステマだろ
423:デフォルトの名無しさん
12/02/07 19:39:45.45
動態保存
424:デフォルトの名無しさん
12/02/08 14:28:18.04
FYI:
日本語入力を支える技術という本を書きました - 射撃しつつ前転
URLリンク(d.hatena.ne.jp)
日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界
URLリンク(www.amazon.co.jp)
425:デフォルトの名無しさん
12/02/09 08:34:43.52
ただのステマ
426:デフォルトの名無しさん
12/02/09 09:21:46.96
嫌儲にカエレ(・A・)
427:デフォルトの名無しさん
12/02/10 16:15:24.87
単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。
428:デフォルトの名無しさん
12/02/11 22:16:12.81
20周くらい周回遅れの人が来たよ
429:デフォルトの名無しさん
12/02/13 14:05:23.88
URLリンク(www.ntts.co.jp)
>文章を単語(一般的に)に分割して、品詞情報や読みなどの情報を取得する処理のことです。
それでは格助詞「に」についての、以下のような詳細な分析は可能ですか?
また『大統領に選ばれる』の意味としては,「大統領として(誰かが)選ばれる」,
大統領によって(誰かが)選ばれる」,「大統領が選ぶことができる」の少なくとも3通りの解釈
URLリンク(www.adm.fukuoka-u.ac.jp)
>Knowledgeoceanでは、単語間の距離(単語の数)を指定して、共起度をカウントしています。
以下のような「主客関係」も考慮した共起度算定も可能ですか?
たとえば、以下の(8)においては「豚」と「人」との階層の違いによって
「豚が人を殺す」のではなく「人が豚を殺す」ことが明らかであるので能格構文を用い
ないが、(9)においてはそのような「有生性原理」が働かないので能格構文によって
主客関係を明示しなければならない。
URLリンク(www.lang.nagoya-u.ac.jp)
また類義語にしても微妙に大きく違っていたりする場合もあるようですが、統計化できますか?
「起きる」と「生じる」
問題が起きるは84件、問題が生じるは63件。
事件が起きるは301件、事件が生じるは1件。
(毎日新聞記事 2003年)
URLリンク(www.ninjal.ac.jp)
430:デフォルトの名無しさん
12/02/13 14:15:22.82
NTTソフトウェア 猪尾(いお)です。
お世話になっております。
このたびはお問い合わせいただきまして、ありがとうございました。
下記質問について確認いたしましたが、
弊社テキストマイニング製品(Knowledgeocean:ナレッジオーシャン)では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。
申し訳ございませんが、
よろしくお願いいたします。
431:片山博文MZ ◆0lBZNi.Q7evd
12/02/13 15:54:59.12
IME作れって言われても。専門外だもんなぁ。。。
432:デフォルトの名無しさん
12/02/17 18:07:56.86
スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。
シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万~ 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
URLリンク(www.nii.ac.jp)
また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
433:デフォルトの名無しさん
12/02/17 18:42:44.10
>例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。
434:デフォルトの名無しさん
12/02/17 19:18:59.30
>>432
「ウサギはライオンに襲い掛かった」もありえることを>>432自体が証明している。
435:デフォルトの名無しさん
12/02/18 08:33:22.85
>>434
>>433
千に一つ万に一つの稀有な例は除外ということで良いと思う。
とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。
436:デフォルトの名無しさん
12/02/18 08:44:53.11
自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。
437:デフォルトの名無しさん
12/02/18 09:32:26.35
ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。
438:デフォルトの名無しさん
12/02/18 10:23:20.84
「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。
共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。
439:デフォルトの名無しさん
12/02/18 10:34:07.39
>>438
あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。
440:デフォルトの名無しさん
12/02/18 10:35:11.41
>>438
形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ
441:デフォルトの名無しさん
12/02/18 10:39:48.36
>>438
頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば 「意図的に作られた情報」 として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。
442:デフォルトの名無しさん
12/02/18 11:00:21.35
お、情報処理学会誌の特集が「不自然言語処理」だ
443:デフォルトの名無しさん
12/02/18 12:43:10.17
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
下剤入りの正露丸
お昼のモーニングショー
イルカのわき毛
しっぽの無いヘビ
カバのかば焼き
夜中になると 台所を這い回る タワシ
ミミズの骨折
カエルのクロール
アジの開き直り
七三にわけた オシリ
脱毛に悩む毛虫
毛の生えたミートボール
つぶつぶ入りマムシドリンク
あったら怖い あったら怖い
三三七拍子を打つ心臓
この世にそんな恐ろしいものが あったら怖いよ
あったら怖い あったら怖い あったら怖いセレナーデ
あったらコワイセレナーデ 嘉門達夫:作
URLリンク(www.geocities.co.jp)
444:デフォルトの名無しさん
12/02/18 12:53:32.51
>>438
>「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
例えば「食べた」という動詞に関する文がたくさんあります。
「せんべいとケーキを食べた」は「両方食べた」という意味なので、「ケーキ」にかかります。
「先生とケーキを食べた」は、「一緒に食べた」ことになります。
「クッキーとケーキを食べた」なら両方食べたという意味になります。
URLリンク(www.nii.ac.jp)
「形式概念分析」は、今後ますます進化すると思う。
445:デフォルトの名無しさん
12/02/18 13:42:00.00
白い恋人とケーキを食べた
446:デフォルトの名無しさん
12/02/18 14:51:51.64
>>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ?
447:デフォルトの名無しさん
12/02/18 15:03:13.40
鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる
448:デフォルトの名無しさん
12/02/18 15:30:44.54
>>446
そりは「先生を食べちゃった」という解釈っすか?w
それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる
これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね
449:デフォルトの名無しさん
12/02/18 18:25:21.80
>>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。
450:デフォルトの名無しさん
12/02/18 22:23:35.22
最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか?
【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
スレリンク(bizplus板)
運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「!」が付き、「つぶやき」の内容も確認できる
URLリンク(www.asahi.com)
URLリンク(www.asahi.com)
451:デフォルトの名無しさん
12/02/19 01:34:10.52
人間が一番安価なセンサー
問題はノイズ除去
2ちゃんねるやツイッターからノイズが除去出来れば
452:デフォルトの名無しさん
12/02/19 03:28:38.20
>>451
なにも残らなかったり
453:デフォルトの名無しさん
12/02/19 09:18:51.64
ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。
古くからある手法としては、そもそも参加者を限定する(サロン、アカデミア、ギルド等)とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法(金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある)、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc
454:デフォルトの名無しさん
12/02/19 09:34:35.70
>>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」 という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。
> URLリンク(www.amazon.co.jp)
> Amazon Vine 先取りプログラム?(以下、「本プログラム」)とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。
455:デフォルトの名無しさん
12/02/20 09:58:41.32
とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。
456:デフォルトの名無しさん
12/02/21 02:17:39.73
>>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。
457:デフォルトの名無しさん
12/02/21 04:54:13.97
そして2ちゃんには元々信号なんてなかったことが実証される。
458:片山博文MZ ◆0lBZNi.Q7evd
12/02/23 11:29:08.96
social-ime.imeのソースはどこにあるんだ?
459:デフォルトの名無しさん
12/02/23 11:38:31.75
問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ
天気予報を100%うのみにする馬鹿は冷たい雨に打たれるがよい
460:デフォルトの名無しさん
12/02/26 03:07:09.03
ベイジアンフィルタでスレをフィルタできる2chブラウザはある。
461:デフォルトの名無しさん
12/03/09 00:26:44.91
語彙概念構造の仕様ってどっかに無い?
462:デフォルトの名無しさん
12/03/12 12:47:39.86
>>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎
463:デフォルトの名無しさん
12/04/13 14:33:34.33
■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。
■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。
URLリンク(www.kecl.ntt.co.jp)
464:デフォルトの名無しさん
12/04/14 08:46:19.73
「する」の例で考えると,「トランプをする」「調査をする」のヲ格の意味は,「す
る」の具体的な内容であり,「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で,フィルモア(1975)に「判断,想像のような心理事象の内容」が
対象格にあることを考えると,このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが,「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも,動作の対象でもなく,このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば,「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格,ニ格は事柄の認定の目標,変化の結果を表すので,目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし,こ
こで断っておきたいのは,これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり,特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
URLリンク(libir.soka.ac.jp)
465:デフォルトの名無しさん
12/04/14 09:41:01.59
2009年7月現在、収容語数は42万語で最多と考えている。
ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
1次元ではなく、例えば、「料理」は、材料・地域・調理法の3次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
URLリンク(www.issj.net)
ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
URLリンク(sigswo.org)
この候補数は,かな漢字変換の候補選択に比較すれば少ない値であるが,理想的な自動訂正を
目指すならば,提示候補数は1に近いほどよい.したがって,この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう.
今回の実験に用いた格フレーム辞書は,自動抽出した直後では,「が格」が欠落しているものが
ほとんどであった.これは,実際の文章では主語の省略が頻繁に起こるためであると考えられる.ま
た,「が格」に前置される名詞の意味素性は,「人間」,「団体・組織」,「システム」,「プログラム」
がほとんどであった.このことから,「が格」の欠落を自動補正することが可能だと思われる.
URLリンク(dspace.wul.waseda.ac.jp)
466:デフォルトの名無しさん
12/04/14 09:49:45.57
あらまし 本稿では,タグの共起と類似画像を利用して,画像に対して有効なタグをユーザに提示するシステムを提
案する.十分にタグ付けされた Web 画像のデータベースから,タグの共起に加えて類似画像の関連語も抽出すること
で,多様で精度の高い関連語をユーザに提示する.また,ユーザが新たに付与したタグを入力のタグに含め,関連語
の再検索を行うことで,さらに新しい関連語を抽出することができる.16002 枚の画像を対象にして,タグの共起の
みを用いる手法,また類似画像のみを用いる手法と比較実験を行った結果,提案手法はより多くの有効な関連語を抽
出できることがわかった.また,これらの有効なタグを入力タグに追加し,関連語の再検索を行うことにより,新た
に有効な関連語を抽出できることも明らかになった.
URLリンク(www.ieice.org)
?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
URLリンク(s-web.sfc.keio.ac.jp)
467:デフォルトの名無しさん
12/04/17 19:11:42.06
少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度(8,612 個)であるが,その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である.二つの Infobox
間に共通属性があれば,Infobox 間につながりがあるとみなす.つながりの重みは Jaccard
係数で求め,図では上位 10,000 本のエッジを示している.ネットワーク図は Cytoscapeを
用いて,ばねモデルで描画している.図から,類似した Infobox がクラスターを形成して
いることがわかる.つまり概念的に類似した Infobox は共通属性を多く持つことを示している.
URLリンク(www-kasm.nii.ac.jp)
468:デフォルトの名無しさん
12/04/25 23:38:10.55
CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大?の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。
469:デフォルトの名無しさん
12/04/28 19:50:45.94
ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。
470:デフォルトの名無しさん
12/04/28 20:00:04.16
「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。
471:デフォルトの名無しさん
12/04/28 20:32:42.49
あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど
472:デフォルトの名無しさん
12/05/02 17:33:06.58
4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる.この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる.
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される.
狭義語 「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
ノイズ 「竹トンボ」「尻切れトンボ」「極楽トンボ」
漏れ 「オニヤンマ」「ギンヤンマ」
「トンボ」という言葉を比ゆ的に用いている場合にノイズになる.
URLリンク(www.gengokk.co.jp)
473:デフォルトの名無しさん
12/05/02 17:37:24.14
自然言語処理教科書 コンピュータサイエンスの注目分野を概観!
I/O BOOKS
赤間世紀/著 第二I O編集部/編集
出版社名 : 工学社
出版年月 : 2012年1月
ISBNコード : 978-4-7775-1658-2
(4-7775-1658-X)
税込価格 : 2,415円
頁数・縦 : 159P 21cm
出荷の目安 : 通常1~2日で出荷します
(GW期間の出荷/配送について)
URLリンク(www.e-hon.ne.jp)
474:デフォルトの名無しさん
12/05/03 20:01:32.44
<Sale>中国語版の書籍<文系・理系・ITの諸分野>(格安)
URLリンク(lang-8.com)
475:デフォルトの名無しさん
12/05/06 13:08:10.70
結局自然に処理するにはどうすればいいの?
476:デフォルトの名無しさん
12/05/06 15:50:03.94
自然を処理するんだよ
477:デフォルトの名無しさん
12/05/18 18:08:51.24
URLリンク(www.ibm.com)
>スーパーコンピュータで百万冊の書籍を統計分析
2チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。
小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。
478:デフォルトの名無しさん
12/05/19 02:09:33.10
それが正しいかどうかの判定はどうするの?
479:デフォルトの名無しさん
12/05/19 02:58:58.51
2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...
480:デフォルトの名無しさん
12/05/19 07:53:25.24
>>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で70点くらいは取れるはず。
481:デフォルトの名無しさん
12/05/19 08:00:06.16
デジタルヘルス 1 (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/3/25)
新品: ¥ 31,500
4 中古品 ¥ 30,173より
デジタルヘルス 2―いざ新産業創出へ医療・健康・介護が変わる (デジタルヘルス シリーズ) 日経エレクトロニクス編集、デジタルヘルスOnline編集協力 (単行本 - 2011/11/22)
新品: ¥ 31,500
URLリンク(www.tsutaya.co.jp)
482:デフォルトの名無しさん
12/05/19 08:11:50.98
2チャンネラーって本当は何人?
483:デフォルトの名無しさん
12/05/19 09:35:46.94
そんなどうでもいいことで2ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ
484:デフォルトの名無しさん
12/05/19 20:33:48.82
文を形態素解析器にかけ、品詞によりノード作成
例:水は水素と酸素の化合物である。
↓
水は/水素と/酸素の/化合物である
↓
文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
URLリンク(133.41.33.194)
RDF:意味記述ができる
? データの意味を記述する方法は提供している.
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること,各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる.
URLリンク(www.jaist.ac.jp)
意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
URLリンク(www.nm.cs.uec.ac.jp)
485:デフォルトの名無しさん
12/05/20 00:09:15.81
セマンティックウェブ(笑)
もう残念でしたとか言いようがないだろ
486:デフォルトの名無しさん
12/05/20 08:48:14.02
なんでもかんでも残念って決めつける人って、残念だよねw
487:デフォルトの名無しさん
12/05/20 17:42:49.42
RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。
488:デフォルトの名無しさん
12/05/20 21:11:18.03
>>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか
489:デフォルトの名無しさん
12/05/21 15:57:53.43
>>487
>少なくとも自然言語を相手にするには決定的にダメ。
2ちゃんねらー百万人では、まだ足りないのか?
ツイッターとフェイスブックを合わせて500万ではどうだ?
490:デフォルトの名無しさん
12/05/21 16:20:30.83
突然コーパスの話にすり替える>>489の負け犬っぷりw
491:デフォルトの名無しさん
12/05/21 16:50:19.57
そして>>489の冗談を真に受ける馬鹿っぷりww
492:デフォルトの名無しさん
12/05/21 18:32:02.11
冗談?>>489のどこが面白いの?
493:デフォルトの名無しさん
12/05/21 19:11:28.79
話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか?
独学でヒッソリみたいな人はいないのだろうか
494:デフォルトの名無しさん
12/05/21 20:37:00.75
>>492
怒りでチンコが勃起してるのか?
495:デフォルトの名無しさん
12/05/21 20:50:36.09
>>494
消えろこの知能障害!
496:デフォルトの名無しさん
12/05/22 11:00:02.74
まぁ、>489は面白くないんだけどね。
497:デフォルトの名無しさん
12/05/22 14:42:03.65
あれ、もしかして、地球人全員動員すれば可能じゃね?
498:デフォルトの名無しさん
12/05/22 22:14:07.87
>>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。
499:デフォルトの名無しさん
12/05/23 23:15:29.50
最近は機械学習とn-gramだけ分かればいいからな
500:デフォルトの名無しさん
12/05/24 08:23:36.97
>>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。
501:デフォルトの名無しさん
12/05/24 15:04:22.30
>例:水は水素と酸素の化合物である。
例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。
「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
URLリンク(www.nii.ac.jp)
これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
502:デフォルトの名無しさん
12/05/24 20:10:56.93
言語観がナイーブすぎ
503:デフォルトの名無しさん
12/05/25 07:33:54.44
>2チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる
504:デフォルトの名無しさん
12/05/25 20:26:58.58
>>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。
505:デフォルトの名無しさん
12/05/26 22:08:43.24
>>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ
専門の奴でも難しく感じるくらいの
n-gramが他にあるのか?
506:デフォルトの名無しさん
12/05/27 10:47:17.10
むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか
507:デフォルトの名無しさん
12/05/27 16:37:26.17
自然言語処理でN-gram以上に役立つものなんて存在しないだろ
508:デフォルトの名無しさん
12/05/28 20:50:41.16
最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた
509:デフォルトの名無しさん
12/05/29 15:29:23.97
折角だからその役に立った本をステマしてってよ。
510:デフォルトの名無しさん
12/05/29 16:14:22.27
確率的言語モデルでググってみたら?
511:デフォルトの名無しさん
12/05/29 17:10:35.24
テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい
512:デフォルトの名無しさん
12/06/02 05:48:26.55
>>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。
とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。
513:デフォルトの名無しさん
12/06/06 18:20:56.54
1ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。
今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。
<いただいたお問い合わせ>
URLリンク(wacom.jp)
>双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、
数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。
数式入力パネルを使用して数式を入力および訂正する
URLリンク(windows.microsoft.com)
数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。
(2003年の東大)円周率は3.05より大きいことを証明せよ。
URLリンク(d.hatena.ne.jp)
例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。
514:デフォルトの名無しさん
12/06/06 18:22:08.87
【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。
実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
URLリンク(www.phontron.com)
図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず(あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか)。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。
========================
<回答>
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能(対応アプリが必要)です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7(またはVista)の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。
大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか?
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。
何卒よろしくお願い申し上げます。
515:デフォルトの名無しさん
12/06/07 12:14:48.07
NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
URLリンク(streamhacker.com)
NLTK 2.0.1、別名NLTK 2は 、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。