自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch394:デフォルトの名無しさん
12/01/05 18:48:04.25
潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較(データ・クラスタリング、文書分類、など)
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す(言語間検索)。
用語間の関係を探す(類義性や多義性)。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す(情報検索)。
潜在意味解析 - Wikipedia


TF-IDFで遊んでみた - uncertain world
URLリンク(d.hatena.ne.jp)


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch