【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]at SCIENCEPLUS
【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★] - 暇つぶし2ch2:名無しのひみつ
21/07/17 21:03:29.59 IkAQr3TS.net
LINE
懲りないね~

3:名無しのひみつ
21/07/17 21:03:59.52 YzXSMRkM.net
無料で?

4:名無しのひみつ
21/07/17 21:08:30.47 T+EipjzT.net
テキストデータ化するための予算はいくら計上されてるのか教えて

5:名無しのひみつ
21/07/17 21:11:12.91 dEynzNol.net
テキスト化したついでに、日本語の文書のデータを全て吸い上げるか
そして日本人で文章寄りの人の思想に近い文書を次々に作り上げるような
AIを完成させてしまうと

6:名無しのひみつ
21/07/17 21:11:54.07 xc4pR3Kw.net
  
   _ノ乙(、ン、)_歴史を書き換えるニダw

7:名無しのひみつ
21/07/17 21:12:42.24 Wm9+LGJN.net
全国800万人の引きこもりに作業させよう

8:名無しのひみつ
21/07/17 21:16:32.10 bY3A0uuT.net
は?LINE?

9:名無しのひみつ
21/07/17 21:19:42.63 0S/mEh8A.net
図書館はデジタル化するのはいいが、著作権者などにきちんと還元する仕組みにしてくれよ。
悪の組織だわ。

10:名無しのひみつ
21/07/17 21:20:47.18 zgyRhY7P.net
はあああああああああああああああああああああああああああああああああ
これ韓国が全部自由に日本にアクセスせずに閲覧できるってことじゃねえか

11:名無しのひみつ
21/07/17 21:22:46.95 PxLi6FCS.net
癒着としか思えない

12:名無しのひみつ
21/07/17 21:23:45.06 nTN92Nyy.net
>>10
戦前の良質な日本の「知」に触れて教化されると良い

13:名無しのひみつ
21/07/17 21:26:29.05 zgyRhY7P.net
>>1
>画像データは、すべてオンメモリで処理され、サーバには保存されません。テキストデータへ変換後、すぐにすべて削除されます。データが流出したり、分析されたりする心配はありません。
信じてるアホおるんか?
LINEに1円の特にもならんサービス信じてるアホおるんか?

14:名無しのひみつ
21/07/17 21:27:52.76 zgyRhY7P.net
なんとかして日本が悪いという話をひねり出すためのデータベース構築を日本の税金でやるとかさあ
朝鮮人の悪事に触れた記者や作家とか、子々孫々まで殺しに来るぞ

15:名無しのひみつ
21/07/17 21:28:50.41 FIrQ9Auw.net
>>9
国立国会図書館のオンラインで読めるものは全て問題をクリアしてる
ときどき公文書を出版する出版社があって、そうなると読めなくなる
権切れを出版してチョサクケンガーをやられるとスゲー不満

16:名無しのひみつ
21/07/17 21:30:26.04 FIrQ9Auw.net
>>10
もし読めるなら火病を起こすこと請け合い

17:名無しのひみつ
21/07/17 21:30:36.00 w43m+0JP.net
なんだ日本の情報全部持ってかれるだけか
さすが平井w

18:名無しのひみつ
21/07/17 21:36:56.90 HrYnZgud.net
またまたLINEとか...
これってやっぱ平井が暗躍してるのかな
いずれにせよゼロであった防諜意識が即座に高まるはずもなく...

19:名無しのひみつ
21/07/17 21:38:40.89 vrjDpsKw.net
>>1
LINEにやらせるとか頭おかしい

20:名無しのひみつ
21/07/17 21:38:48.66 tTugE0YB.net
仕事が無くなった職員が作業に当たるみたいだな。

21:名無しのひみつ
21/07/17 21:41:10.21 ZzQ5WLur.net
LINEが支配する国

22:名無しのひみつ
21/07/17 21:49:45.22 quE+cKwx.net
ネットで見られるようになるの?

23:名無しのひみつ
21/07/17 21:51:59.55 Nad1LK4+.net
オッボの論文はどうなんの

24:名無しのひみつ
21/07/17 21:54:50.15 GLcMHc0r.net
>>1
なんで LINE なんて敵国のスパイツール使うの?

25:名無しのひみつ
21/07/17 21:59:53.18 oX206jhB.net


26:名無しのひみつ
21/07/17 22:03:31.92 dZQAl7L6.net
テキスト化って数学の本とかはどうすんの

27:名無しのひみつ
21/07/17 22:05:46.20 dEynzNol.net
>>26
LATEXに置き換えるのかね

28:名無しのひみつ
21/07/17 22:07:19.80 znnX5/EX.net
画像データとか(^_^;)

29:名無しのひみつ
21/07/17 22:13:40.15 6vh52boq.net
やめてほしい
ほんとーにやめてほしい

30:名無しのひみつ
21/07/17 22:16:47.25 hOQUumJb.net
なぜLINE?技術が理由でないことはわかる
どうしても日韓一体化を推進したいのか…

31:名無しのひみつ
21/07/17 22:25:42.51 nK6oGZ1r.net
そのまんま他国に持ってかれそうだな

32:名無しのひみつ
21/07/17 22:29:02.90 y4cQ8x/w.net
>>2
全文献吸い上げ

33:名無しのひみつ
21/07/17 22:37:01.93 Xc34ICXy.net
変換ミス考慮したら画像データのほうがいいよ
それとも人力で一字一字を修正するのかね

34:名無しのひみつ
21/07/17 22:46:33.38 09O4WzWn.net
できたら早く公開しろ。2年ほど一般書籍の公開がストップしている。

35:名無しのひみつ
21/07/17 22:47:59.59 MMnoMLNH.net
LINEにやらせるってのは韓国にやらせると同義なんだけど

36:名無しのひみつ
21/07/17 22:50:31.88 Xc34ICXy.net
創作文字や略字などが含まれてたらテキストデータは不可能だろう

37:名無しのひみつ
21/07/17 22:53:52.29 Xc34ICXy.net
無理やりテキスト化する意味が解らない、担当の趣味じゃないのか。
原書の画像でなければ閲覧者には改変や誤字があっても判らんじゃないか。

38:名無しのひみつ
21/07/17 22:57:50.33 M0WsuONB.net
異体字とかの超めんどくさい問題はどうするんだろう

39:名無しのひみつ
21/07/17 23:01:55.83 NbIWCWtv.net
デジタルデータにする時に改変されたらどうするんだろう。
原本は保存してくれるのかな?

40:名無しのひみつ
21/07/17 23:05:07.33 znnX5/EX.net
博士論文の氷雪とか調べられちゃうな(^_^;)

41:名無しのひみつ
21/07/17 23:05:11.63 YzXSMRkM.net
超漢字で行けるかな?

42:名無しのひみつ
21/07/17 23:23:52.98 10K7gMEz.net
>>1
官報の全文検索を無料でお願いします。

43:名無しのひみつ
21/07/17 23:28:42.80 j/T6xCGp.net
コロナや五輪やコレといい
日本は上級乞食フレンズに繋がりコネがある奴でないと
仕事取れない感じになってんなぁ
そら衰退国言われるのも当然だわな

44:名無しのひみつ
21/07/17 23:32:12.73 sXBjKvoC.net
>>37
どんだけ役だっているか
どうでもいい人は、だまってヒッキーしていて下さい

45:名無しのひみつ
21/07/17 23:36:19.92 wlfbQnbF.net
韓国のサーバーに保管されるのですね!
馬鹿官僚?

46:名無しのひみつ
21/07/17 23:36:48.65 6vh52boq.net
ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが

47:名無しのひみつ
21/07/17 23:36:48.73 6vh52boq.net
ソンさんまだまだ儲けたいみたいな事いってるから
日本そのものが欲しいんだろうか
もう手中してるに近いが

48:名無しのひみつ
21/07/17 23:37:44.66 sXBjKvoC.net
日本のITは、ろくに仕事しないで金ばっかとるから話にならない
しかも作業内容もてんで考える気もないので、
仕様書も書けないし、見積りすらできてない
ホントに、ホントにバイトよりできない
で中抜きしかできない。どころか中抜きすらできてない。

49:名無しのひみつ
21/07/17 23:39:10.25 C7xs9EuZ.net
LINEは日本の動向を監視しているからね
日本の誰が何を読むかのデータを集めたいんだろ

50:名無しのひみつ
21/07/17 23:49:07.13 sXBjKvoC.net
>>49
君が信頼してる日本はもう存在しない
あっと思ったら、会社が変わって
その前に担当者は一人もいなくなってる
ちょっと直そうにも、どうにもならない

51:名無しのひみつ
21/07/17 23:51:44.74 dEynzNol.net
>>44
こういう単語を多く含む文章や文献ってあったかなあ
というのが一瞬にして出て来るんだな

52:名無しのひみつ
21/07/18 00:05:45.10 Clbdkwe7.net
いの一番にやっと寛解

53:名無しのひみつ
21/07/18 00:16:44.60 myBsc4Ob.net
デジタルデータになるときに改鼠されたらどうすんの?
サーバーってどこに置くの?
デジタル庁なんてズブズブ庁やん

54:名無しのひみつ
21/07/18 00:25:26.63 fvrAbUnQ.net
>>53
それが主目的でしょう
普通の日本人が知らない教科書の内容やアニメにまで文句いうぐらいだから
バレないような仕掛けを深く静かに進行中
消えた年金問題みたいに消失するかも

55:名無しのひみつ
21/07/18 00:27:11.64 Uxkz1YxU.net
AI「まあ文字の本から文字データだけ抽出されてもちょっと困るんだけどね

56:名無しのひみつ
21/07/18 00:29:36.36 +nEkDrXS.net
竹島は全部独島に書き換えるとかやりそう。
国立国会図書館がソースとして拡散される。

57:名無しのひみつ
21/07/18 00:29:46.90 QQD4kamE.net
>>30
技術が理由だよ
縦横斜めが混在する昔の文献は日本の技術では歯が立たないようだ
政権おともだち企業ではなく正確な情報保全を優先した国立国会図書館を評価したい
製紙法も韓国に教わったんだ、今さら恥じることでもあるまい

58:名無しのひみつ
21/07/18 00:36:54.01 gcB9SgAZ.net
日本はやり出すのが遅すぎる
フランス政府が1996年くらいにはまずイメージで公開やり出したのにはびっくりしたよ

四半世紀すぎたいま確認したよ
(元がこのサイトかどうか記憶はないが)
URLリンク(www.culture.gouv.fr)
商用利用もどんどんやってよだよ
オープン&リユース
例外はレアですとまでいってるよ

59:名無しのひみつ
21/07/18 00:40:40.71 gcB9SgAZ.net
>>48
フランスの美術館はコピー取り寄せオーケー
ただしコピー代送料はもらいます
実費以上の料金取立ては禁止です
料金は事前に提示する必要があります
と宣言されてる
日本の国家図書館は多額のコピー代を請求するぞ

60:名無しのひみつ
21/07/18 00:41:54.19 +nEkDrXS.net
規模から見てパソナなど人材派遣が関わるのは容易に推測できる。

61:名無しのひみつ
21/07/18 00:43:48.58 +nEkDrXS.net
こういうのって刑務所の囚人にやらせられないんだろうか。

62:名無しのひみつ
21/07/18 00:49:58.58 CJHrzHsk.net
古書店が倒産するな。

63:名無しのひみつ
21/07/18 00:53:03.58 fvrAbUnQ.net
日本産のFEPとか買い占められたし
MSのIME開発から日本人無くされて久しい
美人局を恥じて自殺した自衛官は犬死だったのだろうか

64:名無しのひみつ
21/07/18 01:00:43.28 RQQULE+t.net
改竄が後に判明して全部やり直しになりそう

65:名無しのひみつ
21/07/18 01:00:56.26 /sTZwzF3.net
改ざんしまくって文化乗っ取るやつや

66:名無しのひみつ
21/07/18 01:13:01.20 NEttJr1H.net
>>58
パリの美術館いったら 写真撮り放題
日本は写真禁止w もしくは1枚だけ許可とか

67:名無しのひみつ
21/07/18 01:14:26.49 RKazbAmX.net
>>1
検索に韓国と天安門が引っ掛からなくなり
実物処分、データも処分

68:名無しのひみつ
21/07/18 01:16:31.76 RKazbAmX.net
>>56
アクセスできなくなるだろ

69:名無しのひみつ
21/07/18 01:19:37.14 fvrAbUnQ.net
別に実行しなくても「いつでも出来るぞ」で政治的圧力になるよね
船舶が外国人だらけで日本人じゃないから「おれ知らね」されたら日本終わると
軍事評論家が十数年前に心配してたけど現実になりましたな

70:名無しのひみつ
21/07/18 01:24:02.43 AYvhBu3Q.net
デジタル化するけど、都合の悪いページは永遠に失われるよw

71:名無しのひみつ
21/07/18 01:25:04.79 6ryM3+7I.net
国会図書館には同人誌も献本されてるけどそれもデジタル化するんか?

72:名無しのひみつ
21/07/18 01:49:09.71 QQD4kamE.net
>>60
まあそれだろうな
この事業で一番金が掛かるのは作業費だろうし

73:名無しのひみつ
21/07/18 02:09:40.59 BONLjSjV.net
危機管理ゼロ

74:名無しのひみつ
21/07/18 02:10:39.91 BONLjSjV.net
ウイルスだらけ

75:名無しのひみつ
21/07/18 02:20:46.90 +nEkDrXS.net
ほぼほぼ敵性国資本企業に大金払うより懲役作業でやらせた方が安上がりでは。

76:名無しのひみつ
21/07/18 02:28:59.97 yQ2v6bce.net
どれだけ癒着してんだよ
平井は脱税して大臣規範違反のくせに逮捕もされない
日本のデジタル行政は全て間違っている

77:名無しのひみつ
21/07/18 02:34:18.52 CJHrzHsk.net
まず、考え得る限りの最高の精度でアナログ画像としてデジタルで記録をとり、
それを1次データーとしてから、文字認識や画像認識によってテキストに変えたり
したものを2次データーとすべき。手描きで自動判読が今はできなくても、将来は
認識精度が上がるかもしれないし、人間が介在してこの文献のこの字はこの文字
なんだと教え込んだり手動で補正、訂正を加えることで直せる。
もしも1次データーの段階で既に文字認識などをいれてしまうと、疑問に思ったり
したらまたもや原典である紙の資料をあたらなければならなくなってしまう。
活字の薄れ、印刷のかすれ、紙の汚れ、虫食い、裏写り、読者の書き込み、
などなどいろいろな困難が待ち構えている。

78:名無しのひみつ
21/07/18 02:54:18.25 9DpRww2P.net
>>44
>>77の言う通り。
ヒッキーがどうしたって?
現役引退しても老人の面倒見てるマトモな一般人なんか
この世の中にごまんといるんだよ無知な人だな
そんなことも知らない無知が
テキスト化した検索で何の役にやってるのやら(笑)

79:名無しのひみつ
21/07/18 02:57:49.64 v0IQ+PVN.net
仕様書見ていないからわからないが、多分うまくいかない。
実績値で見て、グーグル(グーグルは外資で応札できないので、グーグルと組む日本企業)とかの方が圧倒的に上なのに、
入れていないか取れなかったということは、それだけ難易度の高いプロジェクトということ。
つまり数年後になってもテキストは出てきません。

80:名無しのひみつ
21/07/18 03:00:03.20 9DpRww2P.net
>>51
こんな膨大な横断検索なんか
一瞬で出てこねえよあほじゃないのか

81:名無しのひみつ
21/07/18 03:15:54.52 U6ucntq8.net
いつまで詐欺企業使ってるんだよ
取引停止しろよ

82:名無しのひみつ
21/07/18 03:27:17.97 tDsCGf+h.net
都合の良いように改竄できてしまうのに、本当に任せて大丈夫なの?
わざわざLINEを選ぶ理由が分からない・・

83:名無しのひみつ
21/07/18 03:46:25.09 Rv7Dwb4j.net
竹島が書いてある古地図を尽く紛失するんだろ?

84:名無しのひみつ
21/07/18 03:56:21.86 +nEkDrXS.net
1次データーも公開しないと改ざんチェックはできないよね。

85:名無しのひみつ
21/07/18 04:16:34.11 ys6auoGF.net
こういうのはNTTにやらせろよ

86:名無しのひみつ
21/07/18 04:33:46.01 R0UrQaNA.net
>>85
日本には技術がないんだよ 
しかし、異常に速いな
>>77
すでにスキャンとして奇麗な画像はあるんじゃね
それをどう解析するかはいつでもやり直せる

87:名無しのひみつ
21/07/18 04:48:26.70 +nEkDrXS.net
立法府にまで浸潤されてる。

88:名無しのひみつ
21/07/18 05:16:31.80 +nEkDrXS.net
資料デジタル化のための機材1式の購入
株式会社ムサシ
一般競争
100,678,600円
NDLデジタルアーカイブシステム機器等の賃貸借・導入及び運用保守作業 1式
西日本電信電話株式会社
一般競争(総合評価)
月額:26,503,400円(税込)
NDLデジタルアーカイブシステムデジタルデポジットシステムの保守及び機能改修作業 1式
株式会社エヌ・ティ・ティ・データ
一般競争
78,698,400円
NDLデジタルアーカイブシステムウェブアーカイブシステムの移行、改修及び保守 1式
令和3年4月1日 富士通Japan株式会社
一般競争(総合評価)
248,820,000円
デジタル化資料のOCRテキスト化
LINE株式会社
一般競争(総合評価)
145,308,680円

89:名無しのひみつ
21/07/18 05:41:57.03 rYgoo8o6.net
某国の修正液から守れるね

90:名無しのひみつ
21/07/18 05:58:50.58 dLcuRkjq.net
>>1
馬鹿チョン半島に国立国会図書館の情報をリリース!
そんな馬鹿なこと言うやつは殴り倒せよ
何許可してるんですか

91:名無しのひみつ
21/07/18 06:16:45.24 eeEglEit.net
お札を数える機械があるだろ、その技術をこの古本の読み取り機械に応用すれば、バンバン読み取れる。いいアイデアだろ。

92:名無しのひみつ
21/07/18 06:26:36.34 llAkW+1o.net
これ焚書じゃね?

93:名無しのひみつ
21/07/18 06:58:04.52 eEtFT3KA.net
>>1
ラインに改ざんされそうなこと
竹島は独島
日本海は東海
韓国人を強制連行、強制徴用、慰安婦拉致

ていうか、韓国人の事だからわからないようにこっそりとやるんだろうな

94:名無しのひみつ
21/07/18 07:50:34.31 +zzW33FR.net
なぜこういうのを外国に任せるかな

95:名無しのひみつ
21/07/18 08:23:07.14 2yhdHjvt.net
>デジタルで全ての国内出版物が読める未来
いや、絶対に無理でしょ、清岡純子の写真集とかあるし。

96:名無しのひみつ
21/07/18 08:37:45.81 NGOrGSOr.net
>>3
冗談でしょ。テキスト化ぷろぐらむにどれだけ金がかかってると思ってるの?
全文テキストデータ化したら文献の著作権はLINE社に移行し、以後一件閲覧ごとに550円(税込み)をいただきます。

97:名無しのひみつ
21/07/18 08:39:02.53 p2LvpSyu.net
はぁ?????なんでLINEなわけ?

98:名無しのひみつ
21/07/18 08:51:02.15 X2sXJd41.net
いや、コロナワクチン接種券のOCRでいいだろ。
なぜLINE?

99:名無しのひみつ
21/07/18 08:58:10.69 BZobCNIz.net
韓国、五輪憲章違反の選手村横断幕撤去…「旭日旗も適用」求める 
URLリンク(www.yomiuri.co.jp)
大韓体育会、「李舜臣応援」横断幕を撤去…日本の旭日旗も禁止
URLリンク(news.yahoo.co.jp)
 

100:名無しのひみつ
21/07/18 08:59:20.45 Z298CTmj.net
日本が世界最先端最高文明国家だからね(笑)
バチカンの秘密図書館の電子データ化もNTTがやってるからね(笑)

101:名無しのひみつ
21/07/18 09:08:04.01 Sm/r1MIX.net
校正は誰がやるの?
OCRでの変換に失敗して画像データや紙を処分し終わってたら
日本の知的資産が一度に大量に死ぬわけだが

102:名無しのひみつ
21/07/18 09:17:22.47 hREHs/OA.net
Googleがスキャンしたミシガン大の図書館の本は自由にダウンロード出来るけどどうなるのかな?(^_^;)


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch