【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ　LINE [すらいむ★]

【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ　LINE [すらいむ★]at SCIENCEPLUS

【ＡＩ】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ　LINE [すらいむ★] - 暇つぶし2ch77:名無しのひみつ
21/07/18 02:34:18.52 CJHrzHsk.net
まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。

次ページ

続きを表示

1を表示