【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]at SCIENCEPLUS
【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★] - 暇つぶし2ch77:名無しのひみつ
21/07/18 02:34:18.52 CJHrzHsk.net
まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。

78:名無しのひみつ
21/07/18 02:54:18.25 9DpRww2P.net
>>44
>>77の言う通り。
ヒッキーがどうしたって?
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら(笑)

79:名無しのひみつ
21/07/18 02:57:49.64 v0IQ+PVN.net
仕様書見ていないからわからないが、多分うまくいかない。
実績値で見て、グーグル(グーグルは外資で応札できないので、グーグルと組む日本企業)とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。

80:名無しのひみつ
21/07/18 03:00:03.20 9DpRww2P.net
>>51
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか

81:名無しのひみつ
21/07/18 03:15:54.52 U6ucntq8.net
いつまで詐欺企業使ってるんだよ
取引停止しろよ

82:名無しのひみつ
21/07/18 03:27:17.97 tDsCGf+h.net
都合の良いように改竄できてしまうのに、本当に任せて大丈夫なの?
わざわざLINEを選ぶ理由が分からない・・

83:名無しのひみつ
21/07/18 03:46:25.09 Rv7Dwb4j.net
竹島が書いてある古地図を尽く紛失するんだろ?

84:名無しのひみつ
21/07/18 03:56:21.86 +nEkDrXS.net
1次データーも公開しないと改ざんチェックはできないよね。

85:名無しのひみつ
21/07/18 04:16:34.11 ys6auoGF.net
こういうのはNTTにやらせろよ

86:名無しのひみつ
21/07/18 04:33:46.01 R0UrQaNA.net
>>85
日本には技術がないんだよ 
しかし、異常に速いな
>>77
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる

87:名無しのひみつ
21/07/18 04:48:26.70 +nEkDrXS.net
立法府にまで浸潤されてる。

88:名無しのひみつ
21/07/18 05:16:31.80 +nEkDrXS.net
資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円
NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業 1式
西日本電信電話株式会社
一般競争(総合評価)
月額:26,503,400円(税込)
NDLデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業 1式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円
NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守 1式
令和3年4月1日 富士通Japan株式会社
一般競争(総合評価)
248,820,000円
デジタル化資料のOCRテキスト化
LINE株式会社
一般競争(総合評価)
145,308,680円

89:名無しのひみつ
21/07/18 05:41:57.03 rYgoo8o6.net
某国の修正液から守れるね

90:名無しのひみつ
21/07/18 05:58:50.58 dLcuRkjq.net
>>1
馬鹿チョン半島に国立国会図書館の情報をリリース!
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか

91:名無しのひみつ
21/07/18 06:16:45.24 eeEglEit.net
お札を数える機械があるだろ、その技術をこの古本の読み取り機械に応用すれば、バンバン読み取れる。いいアイデアだろ。

92:名無しのひみつ
21/07/18 06:26:36.34 llAkW+1o.net
これ焚書じゃね?

93:名無しのひみつ
21/07/18 06:58:04.52 eEtFT3KA.net
>>1
ラインに改ざんされそうなこと
竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致

ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな

94:名無しのひみつ
21/07/18 07:50:34.31 +zzW33FR.net
なぜこういうのを外国に任せるかな

95:名無しのひみつ
21/07/18 08:23:07.14 2yhdHjvt.net
>デジタルで全ての国内出版物が読める未来
いや、絶対に無理でしょ、清岡純子の写真集とかあるし。

96:名無しのひみつ
21/07/18 08:37:45.81 NGOrGSOr.net
>>3
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの?
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円(税込み)をいただきます。

97:名無しのひみつ
21/07/18 08:39:02.53 p2LvpSyu.net
はぁ?????なんでLINEなわけ?

98:名無しのひみつ
21/07/18 08:51:02.15 X2sXJd41.net
いや、コロナワクチン接種券のOCRでいいだろ。
なぜLINE?

99:名無しのひみつ
21/07/18 08:58:10.69 BZobCNIz.net
韓国、五輪憲章違反の選手村横断幕撤去…「旭日旗も適用」求める 
URLリンク(www.yomiuri.co.jp)
大韓体育会、「李舜臣応援」横断幕を撤去…日本の旭日旗も禁止
URLリンク(news.yahoo.co.jp)
 

100:名無しのひみつ
21/07/18 08:59:20.45 Z298CTmj.net
日本が世界最先端最高文明国家だからね(笑)
バチカンの秘密図書館の電子データ化もNTTがやってるからね(笑)

101:名無しのひみつ
21/07/18 09:08:04.01 Sm/r1MIX.net
校正は誰がやるの?
OCRでの変換に失敗して画像データや紙を処分し終わってたら
日本の知的資産が一度に大量に死ぬわけだが

102:名無しのひみつ
21/07/18 09:17:22.47 hREHs/OA.net
Googleがスキャンしたミシガン大の図書館の本は自由にダウンロード出来るけどどうなるのかな?(^_^;)


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch