全文検索エンジン Hyper Estraier 2at UNIX全文検索エンジン Hyper Estraier 2 - 暇つぶし2ch231:名無しさん@お腹いっぱい。 10/03/25 07:29:47 .netN-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 次ページ続きを表示1を表示最新レス表示レスジャンプ類似スレ一覧スレッドの検索話題のニュースおまかせリストオプションしおりを挟むスレッドに書込スレッドの一覧暇つぶし2ch