自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch420:デフォルトの名無しさん
12/02/06 18:13:38.32
ウェブサイト向け「NRI連想検索(銘柄)」サービスを開始
URLリンク(www.nri.co.jp)

>ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
>上場企業との関連度及びキーワード間の関連度を定義したデータベース(連想辞書)を作成します。

動詞は語尾変化も含めて、助詞や助動詞(「~である」「~から」)も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。

『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する(図5)。』
URLリンク(it.impressbm.co.jp)

それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。

『レンマ化とは,基本形(base form)あるいは辞書に載っている語形に,語尾変化している
語をまとめることである.レンマとは,つまり,語尾変化をする部分を除いて,変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず,本研究では,共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った.これはすべての語の組み合わせを対象とするため,レンジを広げると計
算が複雑すぎるからである.』
URLリンク(homepage3.nifty.com)


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch