自然言語処理スレッド その3at TECH自然言語処理スレッド その3 - 暇つぶし2ch76:71 09/09/28 14:14:58 >>75 ABCDEFG・・・は2バイト文字とする。 ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。 すると、2の48乗次元ベクトル空間が得られる。 似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。 これでは、計算量の点から、クラスタリングが困難なので 直行している基底をいくつか選んで射影をとってクラスタする。 すると、20次元くらいなどにおさえられる。 次ページ続きを表示1を表示最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch