【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]at SCIENCEPLUS
【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12] - 暇つぶし2ch1:一般国民 ★
19/07/12 04:35:09.76 CAP_USER.net
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
URLリンク(pc.watch.impress.co.jp)
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝
【科学(学問)ニュース+】
URLリンク(pc.watch.impress.co.jp)
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏
 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。
 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。
【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。
・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実
URLリンク(pc.watch.impress.co.jp)
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない
 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。
URLリンク(pc.watch.impress.co.jp)
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた
 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。
URLリンク(pc.watch.impress.co.jp)
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実
 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。
■■以下、略

94:ニュースソース検討中@自治議論スレ
19/07/12 18:03:37.77 y4wefbNr.net
>>3
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる
タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い

95:ニュースソース検討中@自治議論スレ
19/07/12 18:38:04.48 gdM6P/3Z.net
昔の知識層は達筆すぎてなぁ
全く歯が立たん

96:ニュースソース検討中@自治議論スレ
19/07/12 19:10:34.07 t8u5o442.net
>>61
たぶんお前が思ってる意味で>>31は発言していないぞ
ps://news.yahoo.co.jp/byline/enokieisuke/20190418-00122843/
時間があったら読んでみてくれ
日本の文系研究に対する姿勢について>>31は語ったんだと思う


2から表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch