14/05/18 22:25:53.73 TiDAjbj6.net
データ量についてもう一回説明してみます。
【仕様】
・人工無脳
・BDに質問と返事を一対で登録
・質問に対して手作業で返事を登録(つまり教育している)
【データの使用頻度と数量の関係】
URLリンク(www.chat-game.net)
質問の特徴を3つにわけて、語群A、B、Cとします。
【質問の数量】
・語群Aー10万?
・語群Bー90万?
・語群Cー取り合えず100億以上
【各語群の質問の出現率】
・語群Aー30%?
・語群Bー50%?
・語群Cー20%?
【人工無脳に登録してある数量と各登録率】
総登録数約90万(これだけでも手作業で登録するのは大変でした。)
・語群Aー90%カバーできたかな?
・語群Bー50%カバーできたかな?
・語群Cー1%カバーできたくらいかな?
【自己分析】
・仮に語群A、Bを100%登録しても、語群Cが残っているので、会話のマッチ率は80%ぐらい?
・語群Cを100%登録するのは無理かな?