自然言語処理スレッド その3at TECH自然言語処理スレッド その3 - 暇つぶし2ch■コピペモード□スレを通常表示□オプションモード□このスレッドのURL■項目テキスト50:デフォルトの名無しさん 09/09/12 11:41:37 >>49 64bitOSで32GBくらいRAMを積めばOK。 51:48 09/09/12 17:38:28 再読み込み、巨大メモリを使って 試行錯誤せず (計算多くせず) 済む方法が知りたいです。 辞書無しの方法がいいです。 52:デフォルトの名無しさん 09/09/12 20:43:09 5Gを全て使わずとも適当にさっぴいてやればいい 53:48 09/09/12 20:54:34 具体的には、500Mを利用して単語辞書を作成するとかですか? 5Gは複数ファイルの合計値です。 各ファイル毎に特徴語を求めたいです。 辞書に漏れた単語のランク付けがうまくいかないと思うのですが? 54:デフォルトの名無しさん 09/09/12 20:58:45 単語辞書だと、「単語」「辞書」に分かれますが、「語辞」と間違えて抜き出したら 「単語」や「辞書」が一つも出現せず、「語辞」が多く出る文書の特徴語と同じになってしまいます。 これをどのように回避するのかが重要と思うのですが? 55:デフォルトの名無しさん 09/09/12 21:35:43 クラスタリングで、文書のドメイン特定してから そのドメインにおいて、単語辞書 を 単語 辞書 とすべきか 単 語辞 書 にすべきかを HMMなり使って最大になる分割を決めればいい。 と、素人ながらに思ったが。 特徴語が同じになるって話だから、そもそもクラスタリングがうまく行かない可能性が高いかw 次ページ最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch