自然言語処理スレッド その3at TECH
自然言語処理スレッド その3 - 暇つぶし2ch76:71
09/09/28 14:14:58
>>75
ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch