青空文庫 11棚目at BOOKS
青空文庫 11棚目 - 暇つぶし2ch400:無名草子さん
22/10/10 14:49:14.54 .net
日記を外部に見せる予定のない個人的な備忘録と考えても、本人すら忘れてる時に中身を確認することになるんだから、何も知らない赤の他人でも読めるような書き方になっててもおかしくないわな

401:無名草子さん
22/10/10 14:55:50.50 .net
去年田辺聖子の女学生時代の日記が出版されたけど、自分の友人に日記を読ませて感想を聞いたりしてるんだよね
まあ読ませても大丈夫なところだけと書いてるけど
作家を生業にしようというくらいの人って、いつも読者を意識してるんだなと思った
アンネの日記のアンネも後年出版するつもりで書いてた日記があった

402:無名草子さん
22/10/10 15:07:31.04 .net
石川啄木は、遊郭等での女遊びの詳細を妻に読まれたくなくてローマ字でこっそり日記に書いてたなぁ
(すさまじい内容だから、青空文庫に入れる猛者は現れるのか……?)

403:無名草子さん
[ここ壊れてます] .net
ローマ字日記が全集とかに普通の漢字かな混じり文で収録されてて、編集後記とかに「誰々が(または編集部が)日本語表記に改めました」とあったら編集者や翻訳者としての著作権が発生するんだろうか

404:無名草子さん
[ここ壊れてます] .net
>>403
耕作員のサガで草

405:403
22/10/10 16:49:35.59 .net
近所の図書館に確認しに行ったけど『啄木全集 第六巻 日記(二)』(筑摩書房、1967年12月25日初版第1刷)にはローマ字の原文と漢字かな混じり文の両方が載ってた
解題に「本巻の校訂は石川政雄氏と筑摩書房編集部が主としてこれにあたり、……」と書いてあるが誰が漢字かな混じり文を担当したかは分からぬ
まぁ編集部名義だけなら公開後50年で通せたけど大人しくローマ字の原文だけ入力すりゃいい話か
まぁ今入力申請したらここ見てると思われちゃうな

406:無名草子さん
22/10/10 18:31:48.23 .net
ここみてると思われても問題なくない?
ここは紳士淑女のスレだし

407:無名草子さん
22/10/11 09:59:36.75 .net
左付きルビってXHTML非対応?

408:無名草子さん
22/10/11 13:01:22.77 .net
>>407
こんな感じらしい
>[#「開‐柘」の左に「ヒラキ」のルビ]
坂本龍馬 海援隊約規
URLリンク(www.aozora.gr.jp)
>[#「天皇」の左に「オホキミ(?)」のルビ]
折口信夫 橘曙覧評伝
URLリンク(www.aozora.gr.jp)

409:無名草子さん
22/10/11 18:17:25.02 .net
( ・∀・)へぇー
>スメラギ[#「天皇」の左に「オホキミ(?)」のルビ]
こういう注記(ハテナ注記)もはじめて見た。
古い(といっても8年前)テキストファイルのようだから注記も古いのかもしれないが
今だったら「判読不可」になるんじゃないかと思われるが

410:無名草子さん
[ここ壊れてます] .net
昔のように漢字にカタカナの原型の漢字ルビ付けてるのを青空文庫で見たいな
既にあるなら良いんだけど

411:無名草子さん
22/10/11 19:24:32.71 .net
>>409
国立国会図書館デジタルコレクションで公開されてるやつでも「天皇」の右に「スメラギ」、左に「オホキミ(?)」とあるから
引用文が書かれた当時の読み方が正確には分からないから2種類ルビ振りました的な話じゃないかな
橘曙覧評伝 - 国立国会図書館デジタルコレクション
URLリンク(dl.ndl.go.jp)

412:無名草子さん
22/10/11 19:56:15.47 .net
なるほど、
元々のルビが「(?)」と表記されてるケースなんだね
そういうのもあるのか
自分だったらどうするだろう、
小心者だからファイル末に「(?)は底本通り」と書いてしまうかもしれん

413:無名草子さん
22/10/11 19:56:37.81 .net
>>411
ありがとう

414:無名草子さん
22/10/11 20:01:19.21 .net
>>412
そもそも仮に入力者、校正者、点検者が本文内に本文以外の文字を書き込む(打ち込む)なら
[#「○○」はママ]
みたいな注記スタイルになるはずだしな

415:無名草子さん
22/10/11 20:46:39.11 .net
>>410
多分だけどFAQの「Q:変体仮名(万葉仮名)が底本で使われていました。どうしたらよいでしょうか?」に引っかかってそのままでは載ってなさそう
青空文庫編 青空文庫FAQ
URLリンク(www.aozora.gr.jp)

416:無名草子さん
22/10/11 21:07:51.92 .net
>>415
もう一声!
へんたいする以前の漢字に漢字ルビのやつがデジタル画面で綺麗に見たいなという素朴なネタでした

417:無名草子さん
22/10/11 21:32:27.95 .net
大正時代に出た『変態性欲』って雑誌が青空文庫入りせんかな

418:無名草子さん
22/10/11 21:55:02.98 .net
稲垣足穂ネタ引きずってすまん
文庫本読むの面倒になって楽天koboで500円割引あったのでこっちで買って読んでる
スマホで読みやすい文字サイズで読むのほんま楽

419:無名草子さん
22/10/11 22:00:38.75 .net
スレ違い

420:無名草子さん
22/10/11 22:21:41.66 .net
ちなみに石川啄木「詩」に載ってる「一年ばかりの間、いや一と月でも」から始まる無題の詩は、『ローマ字日記』の明治42年4月10日の記述が初出らしく、初音ミクの楽曲にもなってるっぽい

421:無名草子さん
22/10/12 00:00:28.87 .net
>>417
復刻版を買って入力しよう!!
不二出版 : 変態性慾  〔大正11年~14年〕  全6巻・別冊1 〔復刻版〕
URLリンク(www.fujishuppan.co.jp)

422:無名草子さん
22/10/12 11:33:29.99 .net
今月の「100分de名著」がちょうど折口信夫だけど
先月の知里幸恵よりちょっとかたい感じがする
アクセス増率的にはどうだろう

423:無名草子さん
22/10/14 17:25:03.65 .net
>>431
是非やってくれ

424:無名草子さん
22/10/14 18:44:36.63 .net
>>423
入力申請と底本画像送って、メール待ち
校正は8月辺りに全部送ったけど、まだ受け取りのメールが届いてない(いちおう届いてはいて確認中との事)

425:無名草子さん
22/10/14 18:56:24.04 .net
俺も送って1ヶ月以上経ってるな
まぁそれでなくても分量がそこそこあるので気長に待ってる

426:無名草子さん
22/10/14 19:35:08.51 .net
入力作品だけ送って校正作品は入力のが返事来てからでいいかと思ったけど公開のことも考えたら逆が良かったかな
今追加で送るのは流石に迷惑だろうけど

427:無名草子さん
22/10/14 20:17:38.23 .net
お忙しいのね……

428:無名草子さん
22/10/16 13:49:04.51 .net
OCR使っても校訂は苦行に近い
まるで写経しているかのようなご利益がありそう

429:無名草子さん
22/10/16 18:04:39.51 .net
それゆえに間違い見つけたとき、お宝見つけたような醍醐味を得られるんやで

430:無名草子さん
22/10/16 18:08:51.62 .net
最終的には目視が重要とはいえ、OCR校正がより効くのはやはり手入力ファイルなんだろうな。
OCR入力 VS OCR校正だと、校正用比較ファイル作る手間のほうが大きそうに思える。
特に近年のはOCR入力増えてるだろうし。

431:無名草子さん
22/10/16 18:37:13.04 .net
元の文章が手入力かOCRかに関わらず簡単な誤字は「校正ツール2.0化ひとりプロジェクト」で解決しそう

432:無名草子さん
22/10/17 23:17:47.80 .net
お前ら今日も校正してるか~?

433:無名草子さん
22/10/18 01:14:04.83 .net
新着に岡本綺堂が来てる
うれしー

434:無名草子さん
22/10/18 07:30:45.92 .net
今日公開の尾崎士郎の小説『風蕭々』、1889(明治22)年10月18日に来島恒喜が当時外務大臣だった大隈重信に爆弾を投げた事件が元ネタなのか
大隈重信は右足を切断することにはなったけど生き残って来島恒喜は殺害に成功したと思って自殺したんだよな

435:437
22/10/18 08:04:32.13 .net
校正と校訂を間違えた
青空文庫の工作員に求められるのは校正ですね
【校正】
1. 文字、文章をくらべあわせ、誤りを正すこと。きょうせい。校合(きょうごう)。
2. 印刷物を印刷する前の過程で、校正刷りを原稿に照らし合わせて、誤りを正すこと。また、校正刷り。「校正が出る」
【校訂】
書物の文字、語句などの誤りをなおすこと。特に、古書の本文をいろいろの伝本と比べ合わせて誤りを訂正すること。校。

436:無名草子さん
22/10/18 08:17:40.44 .net
その辺は>>277あたりでも話してる

437:無名草子さん
22/10/18 18:40:17.05 .net
ネタバレか?

438:無名草子さん
22/10/18 18:50:55.50 .net
>>435
とはいってもやはりある程度、「この漢字遣いは今まで見たことないけど、正しいのだろうか?」っていうのは念のため確認しちゃわない?
(これは本来校閲、校訂にあたる作業)

439:無名草子さん
22/10/18 18:52:15.99 .net
必要によってはママ注記することになるし

440:無名草子さん
22/10/18 19:17:04.51 .net
ここでいう「校訂」って、記念館にあるような直筆原稿と見比べて初出誌以降の刊行物の誤植を指摘したり、品詞分解して文法的な誤りを訂正したりするような研究然とした話であって、
「底本通りだけど青空文庫の作業過程で誤植が発生したと思われるかもしれないから」とママ注記するのは青空文庫の校正作業の延長でしょ

441:無名草子さん
22/10/18 19:49:24.30 .net
うん、言わんとすることはわかる
ただ、前に出たコメントの流れで言うと
ママ注記は校正の範囲だけど
底本では○○注記になると校訂校閲に近くなるわけよね
そこの境目の見極めが難しいというか
ウィキソースがやってるようなむやみやたらなママ注記乱発は青空文庫ではやってないし
明らかな誤植を除いて、本当にママ注記の対象とするかっていうのは耕作員の匙加減みたいなところない?

442:無名草子さん
22/10/18 19:51:49.67 .net
入力も校正も、自分はわりとその点にに力と時間を割いてる感がある。

443:無名草子さん
22/10/18 19:59:15.65 .net
「これは誤字だ!」と思うか「これは誤字か?」と思うか「珍しい表記方使うねぇ」と思うか何も思わないかは各工作員の知識や教養や感受性次第だからなぁ

444:無名草子さん
22/10/18 20:10:58.92 .net
ママ注記って点検ではどれくらい修正されるんだろう

445:無名草子さん
22/10/18 21:07:31.40 .net
今日公開のやつにママ注記あるかなと思って検索したら
>貴様にはまた[#「また」は底本では「まだ」]別に命を捨てるに適当な時期がある、
>※誤植を疑った箇所を、底本の親本の表記にそって、あらためました。
とだけあった
入力者は底本の親本(旧字旧仮名のもの)も入力しているようだから気付けたのだろう

今月公開の他の作品だと『現代語訳 平家物語』には(どっちも尾崎士郎だな)
>与三左衛門|影康《かげやす》[#「与三左衛門影康」はママ]、
という注記もあった(※ググった限りだと一般的には「与三左衛門景康」か「与三左衛門景安」らしい)

446:無名草子さん
22/10/18 21:22:54.16 .net
なにそれかっこいい/////

447:無名草子さん
22/10/18 21:57:50.95 .net
僕とフリオと校訂で

448:449
22/10/19 00:12:56.40 .net
>>441
確かにそれはそう

レアケースになるけど、例えば>>445の前者みたいに旧字旧仮名の本が新字新仮名で再刊されているような場合については
{新/旧}字{新/旧}仮名の別があれば同じ作品を収録できるというルールを使って、旧字旧仮名と新字新仮名を両方収録して
その中で差異があれば青空文庫内の整合性のために、間違ってそうな方に(これもあやふやだな)「○○は底本では××」注記を入れるということもできなくはないかな
対象となる作品(あるいは作家)は限られるだろうし、それでなくても本文が旧字旧仮名のままで再刊されるという可能性だって十分あるけど
結局は入力者(場合によっては校正者)次第なのかな

449:449
22/10/19 00:31:21.41 .net
色々考えたけど色々考えた故に思考が取っ散らかって訳の分からない返事になってしまった気がする
すまぬ

450:無名草子さん
22/10/19 06:24:51.03 .net
今日も山周・・・

451:無名草子さん
22/10/19 08:58:49.76 .net
死ねよヤマシュウ

452:無名草子さん
22/10/19 09:52:30.85 .net
とっくに

453:無名草子さん
22/10/19 12:46:57.02 .net
何度も書き込んでるけど普通に入力校正作業した工作員に対する侮辱だよな

454:無名草子さん
22/10/19 13:02:41.27 .net
>>453
わかる
字面通りに読めばその通りだ
わかるが、
山周を敬愛していた富田さん、山周、それぞれへの一種の愛着や親しみを込めた、ここならではの山周ジョークとも言える
山周大杉→山周○ね→既に○んでますが
までがセットの

455:無名草子さん
22/10/19 13:08:55.88 .net
いわばイジリだな。
いじめじゃないよイジリだよ~が当事者に通用しないのとおなじで
言われて快く思わない耕作員がいるかもしれんのは否定しないよ

456:無名草子さん
22/10/19 17:54:36.06 .net
全く面白くない

457:無名草子さん
22/10/19 18:10:13.76 .net
へぇ

458:無名草子さん
22/10/19 18:25:10.03 .net
山本周五郎が公開されるまでは生きたいと言って闘病生活を送っていた富田氏に絡ませた上で死ねだの死んでるだのと言うのが愛着故の発言とは到底思えない

459:無名草子さん
22/10/19 18:33:07.67 .net
おーぷんのほうじゃフリーOCRに旧仮名学習させる話してるぜ
不毛な会話やめて有意義な話しよう

460:無名草子さん
22/10/19 18:39:37.13 .net
俺が最近思ってるのは、注記の実例集みたいなのできたらいいなって
もちろん点検グループさんにこれ以上負担はかけたくないから
公式に伺いをたてながら有志を募ったり何らかの形で
FAQや入力校正作業手引きで
「この場合こうする」っていう大まかなことはわかるけど
実際作業してみると、手引きで見たことないケースに遭遇することもある
前例をあたるのを楽にする実例集ね

461:無名草子さん
22/10/19 18:45:46.37 .net
人の作業に文句言ってる訳だから感心しないよな
何もせずに文句たれるくらいなら山周ラッシュは俺が終わらせてやるくらいの気概を見せてくれたほうがかっこいい
山周だって公開が続けばいつかは新着がなくなるわけだし、次期山周の座を狙うくらいにがんばってくれ

462:無名草子さん
22/10/19 18:46:03.52 .net
もちろん個人が外部サイトでやってもいいのだろうけど
「こういうケースで、こう注記した、こう注記するよう指導もらった」等の情報は個人だけで持っててももったいないな、
共有できたら良いなと思ったんだよね
そういう意味で有志で力と知恵、経験を合わせられればと思ったんだ

463:無名草子さん
22/10/19 19:03:05.54 .net
青空文庫入力校正攻略wiki

464:無名草子さん
22/10/19 19:20:05.76 .net
>>463
良いね

465:無名草子さん
22/10/19 19:48:09.66 .net
wiki記法も覚えなきゃだ

466:無名草子さん
22/10/19 20:09:16.65 .net
スレ違いだったらすまないのだが
くの字点と言いながら、横書きのテキストデータでは「く」の字と山が逆向きの/\が使われることにいつも違和感を覚えるんだ
なぜ\/が採用されなかったのかな
(これもこれで見慣れないぶん違和感あるが)
基本的に横書きでは用いられない文字なのだよね
それとも横書きで使われている底本ってあるのだろうか

467:無名草子さん
22/10/19 20:34:46.57 .net
文字コードでは、「/」(に似た形状の記号)を「くの字点上」、「\」(に似た形状の記号)を「くの字点下」としているからそれに順番を合わせているんだと思う
Wikipediaの「踊り字」のページ参照

468:無名草子さん
22/10/19 21:16:09.86 .net
そうかそういうことなのか
Unicode文字のくの字上と下は見たことあったがセットで並べる固定観念から横組みになるところしか想像してなかった
長いくの字を上下に分けたものを、順番どおり前後(左右?)に並べた結果、山が逆に見えるというわけだね
長いくの字が横になることしか考えてなかった
これからは、/\に対する見方がかわるなあ
どうもありがとう

469:無名草子さん
22/10/19 21:17:19.19 .net
横組みというか、横
説明へたでごめんなさい

470:無名草子さん
22/10/19 21:19:19.85 .net
表を底本のスキャン画像ですますか、ちゃんとエクセル等で入力し直すか迷う
せっかくだから綺麗にしたいけど、もし画像に力ミスがあったら校正の人の作業が大変になるよな

471:無名草子さん
22/10/19 21:27:32.81 .net
両方送ろう(無責任)
それはそれとしてページを跨いでる図表って扱いに困るよね

472:無名草子さん
22/10/19 21:30:28.83 .net
むしろ表の作り直しっていうのも有りなんですか。
表つきの作品を作業したことも読んだこともまだないので知りませんでした。
どんなふうか見てみたいです。

473:無名草子さん
22/10/19 21:33:54.50 .net
校正待ちの作品が3000件以上あって、古いもので2003年から待ち状態になってるみたいだけど、どういう作品が放置されがちなのかな?
2003年からほったらかしとか少し可哀そうなんだが、同情したらダメな感じ?

474:無名草子さん
22/10/19 21:55:14.04 .net
2005年以前から校正待ちの作品一覧
佐藤紅緑『あゝ玉杯に花うけて』…133,444バイト(※旧字旧仮名)
范曄『後漢書 皇后記』…11,782バイト(※なぜか底本情報がない)
范曄『後漢書 光武伝』…60,748バイト(※なぜか底本情報がない)
宮本百合子『書簡・書簡補遺』…350,117バイト
宮本百合子『婦人と文学(初出稿)』…113,002バイト
宮本百合子『湯浅芳子宛書簡』…341,209バイト
森本六爾『日本農耕文化の起原』…117,150バイト(※旧字旧仮名)
山路愛山『勝海舟』…152,519バイト(※唯一の点検済み)
※サイズは、zip圧縮をかけたテキスト版のもので、単位はバイト(byte)です。
 この値を1000で割ると、キロバイト(KB)に換算できます。
 解凍後はおよそ、倍の大きさになります。
みんなで校正待ちを解消しよう!!

475:無名草子さん
22/10/19 22:13:33.17 .net
点検前のものは申し込めなくない?
できちゃうの?

476:無名草子さん
22/10/19 22:15:00.07 .net
圧縮して半分になってるっぽいけど全角1文字で2バイトになるから書かれてるバイト数≒文字数になるのかな
書誌情報も込みのバイト数だろうけどまぁ誤差だろうし、となると後漢書以外は全部10万字以上の作品になるのか
文庫本は1ページあたり600字だから本文が10万字だとしても文庫本167ページ分くらいか

477:無名草子さん
22/10/19 22:16:23.60 .net
山路愛山のは点検済んでることだしずっと気になってた
しかしこれはスキル的にはもちろんボリューム的にも自分にはなかなかにハードルが高いと感じて手が出せないでいる

478:無名草子さん
22/10/19 22:19:52.21 .net
それに点検が昔すぎて注記形式とか変わってるはずだから、もしかして再点検されるのかな

479:無名草子さん
22/10/19 22:24:04.46 .net
>>475
点検前のものは点検作業が完了してから校正申請を受理する(「校正待ち」から「校正予約」の状態になる)というだけで校正申請が不可というわけではないはず

480:無名草子さん
22/10/19 22:25:37.46 .net
「ご注文内容によってお出しする順番が前後する場合がございます。」みたいなものか?

481:無名草子さん
22/10/19 22:27:13.69 .net
いつかは誰かが点検しなければならないとはいえ点検さん大変だな

482:無名草子さん
22/10/19 22:32:59.21 .net
校正の予約はないけどすぐ点検済みになるのと
校正申請されるまで点検前状態で待機になるのがあんのね。

483:無名草子さん
22/10/19 22:35:05.65 .net
>>480
これだね

484:無名草子さん
22/10/19 22:46:47.21 .net
インターネッツ時代になってかれこれ20数年余
著者だけではなく工作員が人知れず鬼籍に入っていてもおかしくない年月

485:無名草子さん
22/10/19 23:11:50.99 .net
自分はもし死んだときのために
うちの家族にその後の手続きを頼んである
死んだ旨を伝えること
未完成であっても作業ファイルの最新版を青空文庫に送ってもらうこと
どこまで作業したかがわかるメモ(たとえば何回目校正までやった、とか)も作品ごとに書いているのでその内容も伝えること
幸いまだそのときは来てない

486:無名草子さん
22/10/19 23:13:17.05 .net
じゃないと、誰かから引き継ぎ交替申請が来るまで
作業中作品が死蔵状態になっちゃうから

487:無名草子さん
22/10/19 23:35:26.45 .net
>>482
最近耕作員になっていくつか入力したけど、自分の入力作品は受領メールが来た翌日には校正待ちの点検済み扱いになってるから、恐らくある時期を境に(自分が耕作員を始める前に)原則として入力ファイルを受け取った時点で点検まで終わらせるように方向転換したんだと思う
それで次々に届く新しい入力ファイル(つまり点検前の作品)を点検してて、昔の点検前の作品は校正申請が来るまでは手を着ける余裕がないのかなと思う

488:496
22/10/20 00:04:43.29 .net
作業状態を年別で見ると最近の点検前は何人かに絞られてるし、恐らく点検グループのメンバーとかが入力してる作品が中心なんだと思う
他のボランティアを優先しようぜ的な感じで
他の理由があるかもしれないけど
青空文庫の作業状況
URLリンク(yozora.main.jp)
※下の方に載ってる

489:無名草子さん
22/10/20 10:38:04.27 .net
>>460、471
自分も欲しいし、実例出しに協力したい
前例探すために青空文庫の全文検索をよくやるんだけど
底本がどうなっているかわからないから確信が持てないんだよね

490:無名草子さん
22/10/20 22:15:49.81 .net
いまいち使い方知らないから的外れなこと言ってるかもしれないけどGitHubにある青空文庫のデータ一式から注記の箇所だけ抜き取ったりできるんじゃないの?

491:無名草子さん
22/10/20 22:52:33.41 .net
500

492:無名草子さん
22/10/21 06:40:35.36 .net
問題は、その注記が為されたとき底本がどうなってるかなんだよね。
底本画像の部分切り取り画像とセットになってはじめて役に立つ感じかな。

493:無名草子さん
22/10/21 06:41:26.80 .net
>>489
うん、まさにそれ。

494:無名草子さん
22/10/21 12:28:51.85 .net
今日公開された作品の注記はこんな感じだな(※別にここでシリーズ化するつもりではない)

江戸川乱歩『暗黒星』
>できなかったが。[#「できなかったが。」はママ]
(句点ではなく読点が正しいのだと思う)

尾崎士郎『早稲田大学』
>高田早苗《たかださなえ》[#ルビの「たかださなえ」はママ]
(正しくは「たかたさなえ」らしい)
>民間に[#「民間に」は底本では「民間の」]
>自刃した[#「自刃した」は底本では「白刃した」]
(底本の親本に合わせたものらしい)

495:無名草子さん
22/10/21 12:43:06.67 .net
複製権や編集著作権で概ねカバーできるとはいえ出版物原版権(印刷物のレイアウトなどに関する著作権、いわゆる版面権)って法整備されてないんだよな

496:無名草子さん
22/10/21 12:47:54.96 .net
そうなのか
うーん、そうなると攻略wiki立ち上げは、たとえ青空文庫本体とは別運営するとしても難しいかな?
青空文庫のスタンスは、グレーは黒とみなす厳密さだからなぁ

497:無名草子さん
22/10/21 15:40:11.38 .net
底本画像そのものじゃなく底本を模して自分で作ったものだったり
NDLにある場合はそのリンクだったりでも駄目かなあ

498:無名草子さん
22/10/21 17:23:03.47 .net
国立国会図書館デジタルコレクションに所蔵された作品は青空文庫化の需要はないの?
底本の写真画像だけだと文字列検索できないから少しは需要あると思ったんだけどなあ

499:無名草子さん
22/10/21 17:41:51.64 .net
需要があるかは知らないけど、自分はデジコレで読める作品を中心に入力作業してるよ。
デジコレを底本にしてるのは古い本でも校正しやすそうだからだけど
現状デジコレは快適に読書できるUIではなく、
デジコレ本を高精度のocrでテキスト化した次世代デジタルライブラリーも、今のところ全文検索には役立っても読書のためのものではない
デジコレは無料で貴重な本を読めてたいへんありがたいサービスけど、実際あそこで読書するのは厳しい。デジコレでは読まなくても青空文庫化したら読む人はいるだろうね。
気軽に読むには青空文庫のようにもっとテキストを整形しないと難しい。だからどんどんやろう。

500:507
22/10/21 19:13:20.56 .net
>>499
情報ありがとう
次世代デジタルライブラリーの存在、知らなかった

501:無名草子さん
22/10/21 19:27:21.88 .net
>>497
むしろ底本を模すのが駄目だからこそ著作権者が明確な文章の部分のみを電子テキスト化して公開してるんだが……
(逆に著者の死没も著書の刊行も1967年12月31日以前で著作権保護期間満了のものはうわづら文庫が画像で公開してる)

502:無名草子さん
22/10/22 16:02:31.67 .net
むしろデジコレ公開作品のテキスト化(単純なOCR化ではない)こそ積極的にやるべきだよな

503:無名草子さん
22/10/22 16:04:54.11 .net
>>502
正確にはテキスト化じゃなくて電子テキスト化だった

504:無名草子さん
22/10/22 22:16:57.36 .net
次世代デジタルライブラリーの文字起こしデータ、市販の読取革命よりはOCR精度が高いのかな、とは思うけど、
それでもやはり人間が読むためのデータじゃなくて計算機に検索されることに特化してる感じはする

505:無名草子さん
22/10/22 22:24:39.53 .net
Google booksとかも割と滅茶苦茶だからな
そりゃ調べものがあるのに検索しても手掛かりがゼロだった時代よりは十分ありがたいけど参考にしていい水準かというと……

506:無名草子さん
22/10/22 22:36:19.22 .net
google booksの本文検索は著作権保護期間内の作品も大量に扱ってるから意図的に文章をバラしてるはず
昨今のAIの進化見てると識字率も組版の再現もいい感じにしてくれる技術がそろそろ出てきていいんじゃないかと思っちゃう
入力校正まで完璧にやってくれる青空文庫ロボ来てくれ

507:無名草子さん
22/10/23 08:50:40.81 .net
日本語文献じゃないんだが『元朝秘史』という中世モンゴル語を明代初期の漢字音で転写した歴史書があるんだけど、読取革命にかけたらかなりの精度で文字起こしできていたので驚いたわ
読取革命の開発者がOCRのテスト用データに『元朝秘史』を使ったのではと思えるほどだった

508:無名草子さん
22/10/23 08:59:22.87 .net
出版物に牽引が添えられている作品は、積極的に青空文庫化してほしいよ
著作権者らが牽引の需要が高いと考えたからこそ牽引が出版物に含まれているわけで、
電子化されれば牽引を使うよりはるかに楽に検索できるようになるね
昔の人は、パソコンもないのに牽引を自力で作ったのはすごいと思う。ま、そんなこというと活版印刷した職人はもっとすごいけど。

509:無名草子さん
22/10/23 17:36:21.99 .net
アプリで読むと便利すぎる。種類もいっぱいあるから自分好みのが見つかるし

510:無名草子さん
22/10/23 18:21:26.04 .net
電子テキストの検索の弊害というほどでもないけど、昔の一般的表記と今の一般的表記が違うと検索しても引っ掛かるかどうか分からないという問題があるんだよね

511:無名草子さん
22/10/23 18:49:21.24 .net
通読ではなく拾い読みする使い方が多い歴史文書は人名や地名がどこに登場してくるかすぐに検索できるってのがかなり恩恵が大きい

512:無名草子さん
22/10/23 18:50:27.26 .net
そこは自分で検索を試行錯誤するしかないね。

513:無名草子さん
22/10/23 22:43:36.36 .net
TeX使えるようにならないかなぁ

514:無名草子さん
22/10/23 23:33:21.51 .net
>>508
牽引ってなんだろう……ってわからなくったけど
もしかして索引(さくいん)のこと?

515:517
22/10/24 07:28:51.45 .net
>>514
素で間違えてたわ、指摘ありがとう
がっつりと索引を牽引と思い込んでたし読みもケンインと思い込んでた

516:無名草子さん
22/10/24 07:34:23.45 .net
例えだけど、徳川家康のルビのふり方を徳川と家康でわけると、ブラウザなどで文字列検索した時に徳川家康でヒットしないので困るね
多少ルビの原本再現性が悪くなっても徳川と家康をわけずに徳川家康でルビ振ったほうがよさそう

517:無名草子さん
22/10/24 07:58:52.56 .net
>姓と名のルビは「夏目漱石《なつめそうせき》」のように、分割しない。
>名前と肩書、敬称なども、「千田実画伯《せんだみのるがはく》」、「内海紀伊様《うつみきいさま》」のように原則としてまとめる。
入力ファイルを「テキスト版」に仕上げるために
URLリンク(www.aozora.gr.jp)

518:無名草子さん
22/10/24 12:19:38.29 .net
「徳川《とくがわ》家康」だと「徳川家康」で検索しても引っ掛からないから「徳川家康《とくがわ》」にしようという話では?

519:無名草子さん
22/10/24 12:29:40.98 .net
>>518
イエス、イエヤス。
工作員には、検索する人の需要を意識してルビを振るセンスが求められると思ふ

520:無名草子さん
22/10/24 12:45:24.84 .net
そもそも青空文庫は著作権の切れた作品を電子書籍として金銭や会員登録などの制約なく自由に読めるようにするのが主目的であって
検索機能を使って過去の言葉の用法の変遷を調べるとか、朗読や漫画などの原作にするとか、作品の舞台となる地域や主役となる人物の宣伝の1つにするとか、読書以外のそれ以外の利用は想定内ではあるけどあくまで副次的なんだよな
副次的な利用のために本来の目的に支障が出たら本末転倒
青空文庫のルビや注記の表記法が視覚障碍者読書支援協会の表記法を踏襲したことも踏まえて考えてみると良い

521:無名草子さん
22/10/24 12:59:56.17 .net
古い辞書データ使って形態素解析すると井伊直虎の読みがイイチョクトラになってしまうのよ

522:無名草子さん
22/10/24 16:45:00.78 .net
Firefoxはルビを文字列検索できない

523:無名草子さん
22/10/24 17:22:19.84 .net
あんこ臭えが来てた

524:無名草子さん
22/10/24 23:28:49.77 .net
ブラウザ版って試読版の延長みたいなもんだしルビや注記を無視したデータベースにしたいなら青空文庫のデータを元に自分で作らなきゃ

525:無名草子さん
22/10/25 08:17:41.16 .net
堅苦しい挨拶も何なので平易な文にて失礼しますね
青空文庫の発展に尽力されているみなさんお疲れ様です
益々のご活躍を

526:無名草子さん
22/10/25 19:59:11.10 .net
ルビ問題なら青空文庫対応のアプリを色々使ってみるのもあり
中には文章から文字を範囲選択してそのまま検索できるものもあったりする

527:無名草子さん
22/10/25 20:57:58.82 .net
山本有三(1887-1974)よろしく「近頃私はルビを見ると、黒い虫の行列のやうな気がしてたまりません。」的なノリで
青空文庫のデータからルビや注記を取っ払ったミラー風サイトを作れば良いんじゃなかろうか

528:無名草子さん
22/10/25 21:11:17.75 .net
そもそも徳川家康について調べたい人が「徳川家康」のワードだけで調べて見つからないからと諦めるかっていうとそうはならない気がするのよね
「徳川 家康」「徳川」「とくがわ」「とくかは」などなど表記の違いの可能性をあれこれあたるだろう
検索利用を想定して体裁を整えてあげたものを作るまでする必要あるのかなあ?って思った

529:無名草子さん
22/10/25 21:12:45.80 .net
スレチだったらごめん。

530:無名草子さん
22/10/25 21:58:05.94 .net
1つの単語のルビを集めてデータベースにしてるふりがな文庫みたいに
表記が違うけど同じ固有名詞を指してる単語のデータベースみたいなのは面白そうだな
ただこれはそれなりに知識のある人が全て目を通さないと作れないか……

531:無名草子さん
22/10/26 22:15:07.35 .net
これしか知らないから具体名出すけど「Wiki版『早稲田大学百年史』」みたいなのが理想的なのかもな
図表以外が全部テキスト化されており図表も画像で公開されているという青空文庫と同様のテキスト公開に加えて
原本の画像も公開されている(写真は著作権の都合で非公開)
あと上で出ていた要望に答えるという意味で(正直これは青空文庫にはそぐわないかもしれないが)
本文中の大学関係者の名前(本名・筆名不問)が大学の人名データベースとリンクしている機能もある
【参考】
早稲田大学百年史
URLリンク(chronicle100.waseda.jp)

532:無名草子さん
22/10/26 22:31:16.11 .net
理想的とはどの意味において?
普通のhtmlサイトと何ら変わりないと思うが……
むしろ青空文庫みたいに表示を変えたりできないから読みづらいくらいに感じるのだが

533:無名草子さん
22/10/26 22:40:14.32 .net
話の流れとしては、電子テキストと底本画像の両方が公開されてる点と、表記の異なる固有名詞を一元管理してる点じゃない?
ここ最近ずっと読書的な視点の話とデータベース的な視点の話が混同してる気がする

534:無名草子さん
22/10/26 22:42:03.78 .net
なるほどその意味か

535:無名草子さん
22/10/27 02:31:39.17 .net
いいトコどりは難し
二兎を追う者は一兎をも得ず、とかいうやらん

536:無名草子さん
22/10/27 02:39:04.05 .net
まあでもどっちもあれば助かるから両方やればいいんだよほんとは
リソースさえあればね……

537:無名草子さん
22/10/27 12:28:50.61 .net
画像データは容量がね……

538:無名草子さん
22/10/27 21:51:31.12 .net
いつも気になっているけれど
わざわざ手を取ってまで訊くことでもない気がして訊けないでいるのは点検グループさんたちは底本画像をどう保管してるのだろうかということ

539:無名草子さん
22/10/27 21:53:14.23 .net
データベースよりテキストより、サーバのほとんどが画像保存に使われてしまいそうだが
どう捻出してるのかなと

540:無名草子さん
22/10/27 22:03:39.37 .net
>>538
手を取るなんて そっそんな恥ずかしい

541:無名草子さん
22/10/27 22:30:14.34 .net
画像データのサイズなんて大したことないと思うけど

542:無名草子さん
22/10/27 23:06:57.75 .net
Twitterで大長編を共同作業しよう的な動きが出てるな

543:無名草子さん
22/10/27 23:39:13.24 .net
テキストデータなら数十キロバイトで済むものでも画像データならPDFにせよPNGにせよ数メガバイト~数十メガバイトになるけど……
最低でもルビの濁点半濁点(つまり「ば」か「ぱ」か)が判別できる程度の解像度でな

544:無名草子さん
22/10/28 00:09:58.94 .net
じゃけんみんなはよ校了させましょうね~
校了したら底本画像は削除してるのかな

545:無名草子さん
22/10/28 07:53:38.87 .net
>>544
削除してないと思う
誤植指摘の問い合わせに備えて
だから心配なんだよ

546:無名草子さん
22/10/28 12:11:37.18 .net
青空文庫FAQの誤植の指摘に関する回答では
>「やはり入力時のミスである」と確認できたものだけを、底本の該当箇所のキャプチャ画像とともにご報告いただけると、助かります。
とあるから公開した後は消してるんじゃないかな
流石に全部をクラウドストレージで残してたら無料分では賄えなさそうだしコストがヤバそう
残してたとしてもデジタルコレクションになくて点検スタッフの家の近くの公立図書館にもない本とかだけじゃないかな

547:無名草子さん
22/10/28 13:11:41.61 .net
>>543
一冊につき画像データが50MBあったとして1TBで2万冊
実際には短編も多いから平均は50MBよりはるかに少ないだろうし
その程度ならなんとかなるんじゃね
ローカルで保存して必要な時だけクラウドにあげてもいいだろうし

548:無名草子さん
22/10/28 13:15:17.42 .net
>>546
まあそのへんが妥当だと思う
特に初期は入力も校正も紙の本からというケースがほとんどだったんじゃないかな

549:無名草子さん
22/10/28 19:35:58.88 .net
誰か訊いてみて……(オドオド

550:無名草子さん
22/10/28 20:18:39.87 .net
青空文庫の「最新」の外字フォント一覧を見たいんだけどどうすればいい
txt2xhtml(t2hs.rb)に付属された2012年当時から更新ありそうなもんだけど

551:無名草子さん
22/10/28 21:32:11.63 .net
GitHubに全データあるからそこからあれそれして抽出したらできそう(やり方は知らない)
十年くらい前にやってる人がいて記事にしてくれたりもしてたみたいだけど、最近はどうかな
URLリンク(github.com)
URLリンク(wakufactory.jp)

552:無名草子さん
22/10/29 12:05:29.89 .net
なるほど、試しにやってみたけど、間違ってたらごめん
URLリンク(pansy.s1010.xrea.com)

553:無名草子さん
22/10/29 17:33:39.66 .net
>>552
さっそくallkanji.txtを拝見させてもらいました。
どうも青空文庫はいまもtxt2xhtmlに付属の外字ファイル群しか使ってないようですね。
唯一見つけたかと思った「鹵,U+9E75,1-83-35,1,1」は外字を使わなくても表示できる文字でした。

554:無名草子さん
22/10/29 19:13:02.34 .net
鹵獲の鹵(しお)は普通にJIS2だけど、それとは違う?
>>552
なるほど元がtsvになってるわけか。さらっとRuby書けるの凄いな

555:無名草子さん
22/10/30 00:24:26.77 .net
青空文庫見れるAppStoreアプリ10種ほどインストールしてみた
こういうのでパッと気軽に見れたり、連携辞書で熟語を調べられたりするのは隔世の感を感じる
・ソラリ (無料、課金で広告消。有料版も有)
・Yom!青空文庫 (有料プラン月額100円)
・読書尚友 (無料。課金で広告消)
・i読書   (無料。課金で広告消)
・青空本棚1・2 (2は広告枠だけ有)
・neo文庫  (有料。豊平文庫の後継版)
・bReader  (有料)
・名作小説  (無料だが広告有)
・巣ごもり青空文庫 (無料だが広告有)
・巻丸    (無料。基本は小説サイトビューアだが青空文庫対応)
性能に興味があるなら感想レスする

556:無名草子さん
22/10/30 00:43:39.88 .net
アプリに関しては、工作員的に関心があるのは「自作のファイルが読めるか否か」ぐらいかな
読めるなら自分の作業で使えるけど、できなかったら用は無い
で、表示できるアプリは基本的に少ない……

557:無名草子さん
22/10/30 12:39:34.59 .net
校正の際には読書尚友に読み込ませてるわ
[#縦中横]とか一部の注記が機能してないけどそこまで不便ではない
ちなみに、底本を再現して脱字や衍字を確認するのに、今は表示設定で1行あたりの文字数を調整してるのだけど、
フォントサイズや余白の広さによる間接的な設定じゃなくて、1行の文字数を直接設定できるアプリとかあったりする?
まぁ仮にこの設定機能を実装したアプリがあったとしても、
本によっては句読点や括弧が半角状態だったり、行頭に句読点が来ないように調整されてたりするから、
完璧に再現しようとするならテキストデータを改行して読み込むのが確実にはなるんだけど、流石に二度手間で面倒臭い

558:無名草子さん
22/10/30 12:58:27.50 .net
moon+ reader pro だと加工したテキストファイルも読み込めるし
読み上げさせることもできて便利なのでこれを推したい。
OCRソフトで読み込んで漢数字の〇と記号の○とが間違ってる場合でも
読み上げさせるとすぐに気がつけて音読お勧め。

559:無名草子さん
22/10/30 13:02:21.32 .net
行文字設定可能なアプリ↓
i読書 14文字~38文字 (課金でも160円、課金なしでも気になる広告は出ない)
青空本棚2 9文字~42文字(青空本棚ではなくて2の方です)
ソラリ 8文字~62文字(ただしフリー版は不定期に動画広告出るので、校正不向きかも)
こんなところ

560:無名草子さん
22/10/30 13:20:22.96 .net
>>555
APPだけか
win11ユーザーならPC上でandroid動かせるで

561:無名草子さん
22/10/30 13:31:01.71 .net
Android専用も試したいけどWin10ユーザーなんでまだ無理す
青空文庫Ad、青空読書、読書家あたりは興味ある

562:566
22/10/30 15:41:37.24 .net
>>559
Android勢だけど「読書尚友があるなら他のもあるのかな~」くらいで聞いたらどれも無かった……
折角教えてくれたのにごめん……

563:無名草子さん
22/10/30 17:56:53.11 .net
androidならファイル管理しやすいMHE novel viewerを長年愛用してるけど一般的には読書尚友が使いやすいと思う

564:無名草子さん
22/10/30 23:36:54.36 .net
iPhone/iPad限定だけど「縦式」ってエディタアプリが青空文庫形式に対応してて
1行当たりの文字数も指定できるから、校正で使ってる

565:2022年11月公開予定作品一覧
22/10/31 13:29:06.02 .net
2022-11-01 萩原 朔太郎『室生犀星君の飛躍』※誕生日
2022-11-01 室生 犀星『純情小曲集 01 珍らしいものをかくしてゐる人への序文』※『純情小曲集』作者(萩原朔太郎)誕生日
2022-11-02 ホワイト フレッド・M『ドレントン・デン特派員の冒険 05 第五回 巨大純白蛾』
2022-11-03 山本 周五郎『霜柱』
2022-11-04 泉 鏡花『三人の盲の話』※誕生日
2022-11-04 大石 誠之助『太平洋食堂』※誕生日(旧暦)、作品初公開
2022-11-04 楠山 正雄『しっぺい太郎』※誕生日
2022-11-05 片山 敏彦『或る時の詩』『泉』※誕生日
2022-11-06 山本 周五郎『饒舌りすぎる』
2022-11-07 作者不詳『現代語訳 平家物語 11 第十一巻』
2022-11-08 山本 周五郎『十八条乙』
2022-11-09 岡本 かの子『食魔に贈る』※登場人物(エドワール・ニニョン)誕生日
2022-11-10 畑中 武夫『太陽を呑む赤い老星の秘密』※命日、作品初公開
2022-11-11 佐佐木 茂索『散歩』※誕生日
2022-11-12 山本 周五郎『醜聞』
2022-11-13 中谷 宇吉郎『日食記』
2022-11-14 山本 周五郎『滝口』
2022-11-15 大下 宇陀児『偽悪病患者』※誕生日
2022-11-15 原 民喜『もぐらとコスモス』※誕生日

566:2022年11月公開予定作品一覧
22/10/31 13:29:27.27 .net
2022-11-16 大町 桂月『酒に死せる押川春浪』※押川春浪命日
2022-11-17 中野 鈴子『許南麒の詩のように』※許南麒命日
2022-11-18 徳田 秋声『背負揚』『復讐』※命日(秋声忌)
2022-11-19 吉井 勇『ゴンドラの唄』※命日
2022-11-20 大田 洋子『「屍の街」序』※誕生日、作品初公開
2022-11-21 山本 周五郎『超過勤務』
2022-11-22 ラヴクラフト ハワード・フィリップス『錬金術師』
2022-11-23 菊池 寛『神の如く弱し』※モデル(久米正雄)誕生日
2022-11-23 佐藤 春夫『若き日の久米正雄』※久米正雄誕生日
2022-11-24 山本 周五郎『燕(つばくろ)』
2022-11-25 柳田 国男『私生児を意味する方言』
2022-11-26 楠山 正雄『鉢かつぎ』※命日
2022-11-27 山本 周五郎『ばちあたり』
2022-11-28 寺田 寅彦『猫六題』※誕生日
2022-11-28 中谷 宇吉郎『実験室の思い出』
2022-11-29 大石 誠之助『文明の強売 (断じて不正なり)』※誕生日
2022-11-30 嘉村 礒多『故郷に帰りゆくこころ』※命日

567:無名草子さん
22/10/31 14:17:10.35 .net
大下宇陀児とラヴクラフトがあるな
たのしみ
あと朔太郎って言うとおぎやはぎ矢作の子供が一番に浮かぶようになってしまった俺

568:無名草子さん
22/10/31 14:43:50.30 .net
ちょうど最近読んだ「名前の話」(萩原朔太郎)からの引用
中には「朔太郎」といふのが本名か雅号かなどと問ふ人もあるが、紛れもなく、親のつけてくれた本名である。僕は十一月一日に生れた。長男で朔日ついたち生れの太郎であるから、簡単に朔太郎と命名されたので、まことに単純明白、二二ヶ四的に合理的で平凡の名前である。

569:無名草子さん
22/10/31 23:14:55.45 .net
青空文庫に触れてないしスレ違いな気もするけど面白かった
本を読んだことがない32歳が初めて「走れメロス」を読む日 | オモコロブロス!
URLリンク(omocoro.jp)
図書カード:走れメロス (太宰 治)
URLリンク(www.aozora.gr.jp)

570:無名草子さん
22/11/01 13:34:40.63 .net
>>569
記事内に
>普通に「走れメロス」を読みたい方は、青空文庫で全文読めますので、そちらをどうぞ。
とあるから多分ギリギリセーフ

571:無名草子さん
22/11/01 20:30:09.57 .net
>>531
少し前の話を掘り起こして悪いが
渋沢栄一記念財団も「デジタル版『渋沢栄一伝記資料』」で電子テキストと画像の両方を公開してる
もっとも渋沢栄一や他の保護期間満了となった著作権者以外に著作権が及ぶ箇所については一部非公開となっているが……
TOP|デジタル版『渋沢栄一伝記資料』|渋沢栄一|公益財団法人渋沢栄一記念財団
URLリンク(eiichi.shibusawa.or.jp)
ついでにいうと国立国会図書館の著作者情報公開調査みたいなこともしてる
著作権者に関する情報を捜しています|デジタル版『渋沢栄一伝記資料』|渋沢栄一|公益財団法人渋沢栄一記念財団
URLリンク(eiichi.shibusawa.or.jp)

572:無名草子さん
22/11/01 21:00:52.48 .net
渋沢栄一のゲシュタルト崩壊起こした

573:無名草子さん
22/11/01 21:22:44.98 .net
渋沢栄一は入力中2、校正中1、公開中0か……

574:無名草子さん
22/11/02 20:52:02.12 .net
OCR校正の話は何度も出てるけど
みんなはそれを「校正一回」に数えてる?
(うまく言えないけど)
比較用OCRテキストを作るにももちろん手間と時間がかかるけど
それにしたって目視で全文チェックする校正と比べると
あまりにあっけなくて
入力者のテキストが完璧であればあるほど
OCRを以て一回に数えるのが不安になっちゃうというパラドックスがあるんだ
そんなわけで結局は目視で最低限三回
それに加えてOCR
って感じだ、自分は

575:無名草子さん
22/11/02 21:02:31.57 .net
やったことないけどOCR校正って良いの?

576:無名草子さん
22/11/02 21:06:40.19 .net
二段組底本の例だと思って読んでくれ
自分の手順だが
見開きスキャン画像に黒い余白がある場合、フリーソフトで一括トリミングして純粋なページ部分だけの画像にする→
自分の使ってるOCRが段組を認識しないので、段ごとの画像にするため、画像を一括で四分割するフリーソフトにかける→
出力連番が望む順番と違うのでこれもフリーソフトで一括リネーム→
OCR→
コピーペーストして一つのテキストに→
比較作業
自分は全てフリーソフトで賄っているのでこんな感じ
段組を認識できるOCRを使えばもっと早いだろうね
二段組見開き18ページ程度の作品で全工程が40分満たないくらいだ
早すぎて不安なんだ

577:無名草子さん
22/11/02 21:08:08.20 .net
ちなみに
>>576=>>574です

578:無名草子さん
22/11/03 00:20:34.90 .net
>>574,576
ルビはどうしてるの?

579:無名草子さん
22/11/03 08:31:41.76 .net
今日も元気だ山周だ

580:無名草子さん
22/11/03 11:37:23.36 .net
人の目を通さない作業は事前準備で校正とは見做さないキリッ

581:無名草子さん
22/11/03 12:24:24.74 .net
>>578
比較ツールにかけるとき
OCRではつかないルビや注記は
どうしてるの?という話かな?
あくまでも自分の感覚ではだけど、
OCR校正では主に、入力者の変換ミスや助詞や助動詞の間違いを検出するのに秀でてる手法と思う
だからルビ、傍点、入力者注記はやはり底本画像を見て追うことになるね
それでもOCRが生んだテキストをツールに通すと、その追うべき部分がマークアップされて(もしくはマークアップされるはずなのにされなくて)明示的になるので分かりやすい

582:無名草子さん
22/11/03 12:27:46.02 .net
>>580
うん、
全く人の目を通さないわけではないのだけど
あくまでも補助的なものと思った方がいいのかなあって気がして
みんなどうしてるか訊いてみた。

583:無名草子さん
22/11/03 12:30:00.91 .net
>>581
自己レス
> それでもOCRが生んだテキストをツールに通すと、その追うべき部分がマークアップされて
OCRが生んだテキスト「と入力者テキストと」をツールに通すと

スマヌ

584:無名草子さん
22/11/03 16:02:34.70 .net
OCRを比較に使う人よりもOCRを文字起こしの始点として利用する人がむしろ多いんじゃないの?

585:無名草子さん
22/11/03 18:15:36.20 .net
いろいろなやり方試してて、もっと効率的な方法ないかなーって質問してるだけじゃないのかな?
俺のやり方はこうだ、お前らのは違うって言いに来たのではないと思うが

586:583
22/11/03 18:34:57.15 .net
あー
もしなにか、書き方の感じ悪かったのならごめんね

昔だけど公式ブログ「そらもよう」でも
OCR校正の圧倒的な時間効率の良さについて記事になっていたこともあったから
参考にして校正に取り入れてる人たちいるだろうと思ってたけど
やっぱりOCRといえば入力補助であって、校正での利用はまだまだそうでもないのかな?


>>585
うん、ありがとう、そういう意味です

587:無名草子さん
22/11/03 19:25:17.44 .net
OCR校正補助に使ってるけど、マニアックな異体字は拾ってくれない
あと促音を大書きにしているような底本誤植が勝手に小書きに修正されちゃう場合とかもある
(底本の誤植を見落とす可能性がある)
目視が重要であることに変わりはない と思う

588:無名草子さん
22/11/03 19:27:55.08 .net
最近30年ほどのワープロソフトで書かれた印刷物ならOCRの信頼性は高いだろうけど、
青空文庫は活版印刷全盛の印刷物が対象だからOCRの信頼性低いので校正に使うという発想は到底出てこないと思うんだが

589:無名草子さん
22/11/03 19:31:05.29 .net
新字新仮名に改めて改版されたものが底本のパターンも少なくないけどね

590:583
22/11/03 19:34:45.01 .net
>>588
そうでもないよ
これ見てみて
>校正を担う人が少ないために、青空文庫は公開に至れない入力済みファイルをたくさん抱えています。
こうした現状に風穴をあけたいと、点検グループの門田裕志さんは、OCRを校正に利用する実験を重ね、精度の向上と作業時間の短縮を同時に達成できるとの感触をつかまれたと言います。
「校正をやりやすくするために」
URLリンク(www.aozora.gr.jp)
2012年の記事だよ

591:無名草子さん
22/11/03 19:45:13.86 .net
>>590
10年前から進捗がないってことは、うまくいかなかったってことだよ
OCRを校正じゃなくて入力原点として使うのが最適解ってこと
何もないところから手入力で文字起こしするんじゃなくて、OCRの出力テキストに手を加えていく方式ね

592:無名草子さん
22/11/03 19:48:18.97 .net
OCRで校訂なんて主客顛倒もいいところだよ

593:無名草子さん
22/11/03 20:30:08.04 .net
OCRで出した文章と入力ファイルを比較して違いがあったら底本を確認するってこと?
そもそも入力者がOCR使ってたら入力者が一回通った道をまた歩いてるだけでしょ?
自分の使ってるOCRが特別高性能とか入力者が手入力したと分かってる状態じゃなきゃ二度手間過ぎない?

594:無名草子さん
22/11/03 20:35:29.57 .net
筆算の結果とエクセル計算の結果を照合します的な二度手間感を楽しみたい人もいるんだと思う
数独みたいな

595:無名草子さん
22/11/03 20:39:07.61 .net
ちなみにOCR校正の話が出てたのはおーぷんのほうだ。

596:無名草子さん
22/11/03 20:50:13.15 .net
おーぷんの1棚目で出ている。
入力テキストを作るほどのことまではせず
ただOCR通して比較にかけるだけで軽く下チェックができるわけね。
徹底突き合わせの前にひとつでもあらかじめ潰しておくくらいの気楽さでやるぶんにはいいと思う。
入力テキスト作るほどの手間ではないし。
「一回には数えない」ほうがいいね。

597:無名草子さん
22/11/03 20:53:39.74 .net
心血を注いでゼロから手入力文字起こししたこと無駄だったと受け入れたくない人にとっては、OCR校訂は意味があると思う
それ以外の人にとってはただの二度手間な宗教儀式

598:無名草子さん
22/11/03 20:55:31.19 .net
本人の手入力の正確性、速度もあるだろうね、そこは個人差あるかも

599:無名草子さん
22/11/03 21:00:17.83 .net
なんだろう、大根の皮を包丁でむいた後、ピーラーでむいた大根と、皮の厚さを比較する自己満足の世界

600:無名草子さん
22/11/03 21:03:24.85 .net
>>599
へんな喩え

601:無名草子さん
22/11/03 21:10:21.64 .net
戦いはこれからだ

602:無名草子さん
22/11/03 21:29:18.07 .net
>>599
喩えはよくわからないが、つまりやらなくていい自己満足だという意味だよね。
最終的には目視が絶対重要というところさえ揺るがなければ、
やってる人がメリット(誤字脱字検出)を得ている以上、
やらない人が全否定することでもないと思うよ。
みんなでやりやすいように、やろう!

603:無名草子さん
22/11/03 21:47:26.84 .net
皮をむいただけでは織田氏の浸みた美味しい大根になる道のりはまだまだ遠い田楽狭間よ

604:583
22/11/03 21:52:42.81 .net
さいごに
みなさんどうもご意見ありがとう
いろんな意見聞けて良かった!
だけどもし私の書き込みきっかけで
傷ついたり不愉快になったりした人がいたらごめんなさい
入力も校正もがんばります。

605:無名草子さん
22/11/03 21:55:37.73 .net
>>603
織田氏っていうtypoがいかにも工作員ぽくてすき

606:無名草子さん
22/11/03 22:02:41.01 .net
今更だけど、上の流れ、
前提の誤解で話が食い違ってるんじゃない?
質問者は「入力者からもらったテキストを校正者として校正する」作業のことを言ってるが
回答者の何人か(?)は
「自分が入力者として入力したテキストを、入力者校正する」作業のことと考えてない?
そう考えると
「心血注いで~」の意味や大根の例えが解る

607:無名草子さん
22/11/03 22:08:28.59 .net
質問者などいない説

608:無名草子さん
22/11/03 22:39:23.24 .net
第三者から見てると不快に思えるレスする人が何人かいる

609:無名草子さん
22/11/03 22:50:13.63 .net
ごめん不快にさせたのなら
>>600は自分
悪気はなかったんだが
そぐわなく感じてぶっきらぼうになってしまった申し訳ない
でも感じた理由が前提の食い違いだと解ったいまは、喩えの意味もわかるが
なんにしてもすまなかった

610:無名草子さん
22/11/04 01:06:45.73 .net
手入力したファイルとOCRのファイルなら、手入力したファイルのほうがはるかに信頼できる。
OCRをべた褒めするのは初心者のダニングクルーガー効果だから、適当にからかっとけばいい。

611:無名草子さん
22/11/04 03:34:34.57 .net
長編の入力だとocrがあるといざ作業に取り掛かる心理的ハードルが低くなる

612:無名草子さん
22/11/04 08:33:01.27 .net
>>611
なんとなくわかる

OCRの出力テキストがお粗末だと、人間さまの出番なので俄然やる気が出る効果があるし、
OCRの出力テキストが立派だと、苦しい作業から解放されてやる気が出る効果がある

613:無名草子さん
22/11/04 18:07:55.55 .net
>>612
どっちに転んでもやる気が出てて草
えらい

614:無名草子さん
22/11/04 18:49:17.14 .net
OCR出力テキストを起点にすると、クロスワードパズルとか倉庫番とかテトリスやってるようなゲーム感を楽しめるよ

615:無名草子さん
22/11/04 19:05:26.69 .net
OCRの吐き出したひどいテキストを綺麗にせずにいられない心理効果があるので、パズル好きとか掃除好きな人はOCRと相性良いと思う

616:無名草子さん
22/11/04 19:40:19.10 .net
それはちょっと分かるかも

617:無名草子さん
22/11/04 20:16:35.98 .net
ペンシルパズル好き自分、校正好きな理由をここにて知る

618:無名草子さん
22/11/05 11:42:59.20 .net
サイゼリヤの間違い探しvs青空文庫の校正作業

619:青空文庫アクセスランキング
22/11/05 15:26:07.18 .net
2022年10月
XHTML版
URLリンク(www.aozora.gr.jp)
テキスト版
URLリンク(www.aozora.gr.jp)

620:無名草子さん
22/11/06 00:08:17.88 .net
来月は走れメロスが爆上がりだろうな
>>569のおかげで

621:無名草子さん
22/11/06 14:40:27.09 .net
ここ一二週間体調がすぐれなくて
PCの前にあまり座れないでいる
そのために校正が滞ってしまい
なんとかならないのか……
と悩んでる自分にビックリした
本来紙と紙と突き合わせるのが校正の原点なんだから
修正はともかく
チェック作業にはPC要らんやん
スキャン画像を必要に応じて拡大したりしながら作業するのが当然になってて
PCないとできないと思い込んでる自分に草

622:無名草子さん
22/11/06 14:41:07.94 .net
思考が機械に依存してそう、自分

623:無名草子さん
22/11/06 14:55:36.73 .net
それ以前に思考が活字に依存してるから安心しなよ
手書き文書の崩し文字の読みづらさに耐えて文字起こした先人に感謝しないと

624:無名草子さん
22/11/06 15:04:39.23 .net
ほんとだね
先人すごいよ

625:無名草子さん
22/11/06 19:43:03.43 .net
とは言っても、当時の手書き文字は当時の人からすれば書き手の癖はあっても概ね第三者も読める程度に一般認知されてた(草書体のように法則に従って崩されてた)文字だったわけで、
さらに和文タイプライターは大正時代からあったと言っても日本語ワープロが普及する昭和50年代までは日常生活では基本的に手書きだっただろうし、
まだ忍耐というレベルの労力が割かれる程に時代の断絶はなかったんじゃないかな

626:無名草子さん
22/11/06 20:26:32.11 .net
文豪の手書き生原稿みるとなかなかにエグいもんな
あれを活字に起こしていくのが当たり前のようにできてた先人
俺たちが退化しているのか

627:無名草子さん
22/11/06 20:46:31.98 .net
それ以上、原稿の手書きセリフ「ひでえ」を誤読して「ひでぶ」と文字起こしして新ワードが生まれたマンガ『北斗の拳』をディスらないで

628:無名草子さん
22/11/06 20:47:24.59 .net
戦前は義務教育だって旧字旧仮名がデフォルトだったしな

629:無名草子さん
22/11/06 20:49:52.24 .net
まぁ校訂という作業が存在する程度には手書き文字の読み間違いや書き間違いも存在するけどね

630:無名草子さん
22/11/06 21:12:14.72 .net
文豪の手書き原稿とかみてもクセが強くって何書いてか分かんなくって
かつての編集者とか作家を缶詰めにしてとにかく書かせてその後
解読作業してなんとか雑誌掲載に間に合わせてたのかって思うと
ものすごく大変そう
ひと癖ある坂口安吾の担当にされた半藤一利の苦労とか
想像すると忍びない

631:無名草子さん
22/11/06 23:35:05.21 .net
遺稿集とかだと稀に直筆原稿の写真が載ってたりするけど7~8割しか読めない
残りの半分は推測の域を出ないもの、もう半分はマジで何か分からないもの
あとお偉いさんに序文を書いてもらって恐らくお偉いさん故にそのまま直筆で載せられてることもあるけど楷書以外は本当に分からん

632:無名草子さん
22/11/06 23:38:37.52 .net
スレチだけど江戸時代のテキストを翻刻してるみん翻の人たちのことは同じ電子テキスト化ボランティアとして応援してるな

633:無名草子さん
22/11/07 14:48:33.53 .net
ちょっと時間できた
がんばってくる

634:aozorablog
22/11/07 21:29:03.62 .net
青空文庫’22/09月-’22/10月の月間アクセス増率分析
URLリンク(www.aozora.gr.jp)

635:無名草子さん
22/11/08 21:27:12.89 .net
>>627
くお~!!ぶつかる~!!ここでアクセル全開、インド人を右に!

636:無名草子さん
22/11/09 16:38:02.96 .net
>>635
これすこ

637:無名草子さん
22/11/09 23:37:05.11 .net
みんな頑張れ

638:無名草子さん
22/11/10 12:13:21.65 .net
[第1話]漫古☆知新-バカでもわかる古典文学- - 漫☆画太郎 | 少年ジャンプ+
URLリンク(shonenjumpplus.com)
図書カード:蟹工船 (小林 多喜二)
URLリンク(www.aozora.gr.jp)

639:無名草子さん
22/11/10 14:45:11.43 .net
漫☆画太郎に普通を期待したアタシがバカでした

640:無名草子さん
22/11/10 20:27:54.48 .net
淡々と書かれてる解説が面白い

641:無名草子さん
22/11/11 11:01:12.01 .net
こんな投げ捨て漫画をいつまでもネタにする程度の低さに嘆く

642:無名草子さん
22/11/11 12:13:25.74 .net
早押しクイズで「オイジゴ」と読まれたら「蟹工船」と答える

643:無名草子さん
22/11/11 19:55:57.12 .net
じゃあ青空文庫冒頭4文字超イントロ
ここならわかる人いそう


「ではみな

石炭をば

ある日の

えたいの

私は、その

吾輩は

隴西の李

「こいさん

644:無名草子さん
22/11/11 21:55:43.21 .net
>>643
銀河鉄道の夜
舞姫
蜘蛛の糸
檸檬
人間失格
吾輩は猫である
山月記
細雪
で、あってるかな?
(人間失格と細雪は最初わからなかった)

645:無名草子さん
22/11/11 21:56:17.52 .net
割と一言だけでも続きを思い出せるな

646:無名草子さん
22/11/11 23:48:50.92 .net
「ある日の」
曲れる者(アーサー・コナン・ドイル)
羅生門(芥川龍之介)
蜘蛛の糸(芥川龍之介)
芸術統制是非(辰野隆)

「私は、その」
人間失格(太宰治)
婦人の過去と将来の予期(小川未明)

647:無名草子さん
22/11/12 08:50:21.08 .net
>>644
正解です、やっぱりすごいな。
似た文の指摘もありがとう。そう言えば蜘蛛の糸もある日始まりで結構有名な書き出しですよね。

648:無名草子さん
22/11/12 13:55:48.50 .net
クイズネタはクイズスレ立ててやってくれ
こういうのされるの困る

649:無名草子さん
22/11/12 15:35:22.53 .net
ごめん、ちょっとした出来心で。
もうやらないよ。

650:無名草子さん
22/11/12 16:11:48.05 .net
一回クイズやって答えただけで
別スレたててそこでやれ とは
657こそどこぞいけばいいのでは?

651:無名草子さん
22/11/12 16:23:21.52 .net
他の話題と同時進行とかでもないしな

652:無名草子さん
22/11/12 18:30:13.26 .net
自治厨どこにでも湧く

653:無名草子さん
22/11/13 23:45:57.78 .net
どこぞの音ゲーで夢野久作の『ドグラ・マグラ』をイメージした新曲が公表されたらしくTwitterのトレンドにドグラ・マグラが載ってた

654:無名草子さん
22/11/15 19:22:57.78 .net
周りに「中高のときに電子辞書に入ってる青空文庫の本を読んでた」みたいな人が結構いて、やっぱ意義ある取り組みなんだなとしみじみした

655:無名草子さん
22/11/15 19:54:51.90 .net
授業中電子辞書でドグラ・マグラ読んで俺カッケーしてたわwダセェ

656:無名草子さん
22/11/15 20:00:29.65 .net
「趣味は青空文庫の入力ボランティアです」みたいなこと言うと割と好反応が返ってくる
たまに「卒論書く時に活用しました」みたいなのも文理問わずある

657:無名草子さん
22/11/15 20:12:45.15 .net
意義はあるのかもしれないけど、出版社は文庫本で稼ぐ機会を失っている。
古典名著で出版社が稼いだお金が新人を支えるのに役立ってたのかもしれないと思うと、複雑じゃね?

658:無名草子さん
22/11/15 20:18:08.62 .net
青空文庫入りするみたいな古典文学って出版社にとってお荷物だったんじゃない?

659:無名草子さん
22/11/15 20:30:59.51 .net
青空文庫で無料で読める作品でも有名漫画家が表紙を描いたり文豪なんちゃらとコラボすればコレクターズアイテムとして売れるからね

660:無名草子さん
22/11/15 20:44:25.44 .net
むしろ営利企業なんだからこそ現在や将来の作家の育成をメインにしろよと思う
そもそも古典作品の出版だって校訂、現代語訳、解題、編集、翻案(漫画化)、裁定制度の利用とかで青空文庫との差別化は十分可能だからな

661:無名草子さん
22/11/15 20:45:47.95 .net
コレクターズアイテムって価値は数百円程度でも所有していることに意味があるからな

662:無名草子さん
22/11/15 20:48:39.35 .net
テレビに出て名を馳せた芸能人がYouTuber始めたら「ファンは嬉しいかもしれないけど、テレビ局は彼(女)を番組に出演させて稼ぐ機会を失っている」ってなる?

663:無名草子さん
22/11/15 20:53:15.35 .net
小中学生が学校から水洗されて読む古典文学なら収入は手堅いだろう。ポケモンみたいな位置づけ?

664:無名草子さん
22/11/15 20:57:29.08 .net
「私たち、日本の漫画を愛しているんです」といいながら著作権者に無断で中国語訳をつけた海賊版をネット公開する中国伝統の焼畑文化と差別化してかないと

665:無名草子さん
22/11/15 21:15:30.56 .net
そもそも文庫化や復刊すらされてない作品も沢山あるよね
しばらくして、どっかの文庫から文学アンソロジーが出て読んでみたら、出典に青空文庫と書いてあるという……

666:無名草子さん
22/11/15 21:17:14.41 .net
なんにせよ著作権は切れているのだから「出版社が稼ぐはずのお金」というのも変な話
出版社が出すならせっかくなら解説や挿絵で付加価値をつけてほしいよね

667:無名草子さん
22/11/15 21:22:56.52 .net
>>666
恩恵を得ていたのは出版社だけじゃないよ、卸売業者や書店もだよ
それを既得権とみなして破壊するか、紙の本の文化として守るかは、個々人の価値観次第

668:無名草子さん
22/11/15 21:34:40.12 .net
印刷や輸送や在庫管理や店頭陳列まで視野に入れるなら古典作品の商業流通は現役の文筆家が割を喰うことになるよな

669:無名草子さん
22/11/15 21:40:15.47 .net
打倒アンパンマンみたいな?

670:無名草子さん
22/11/15 22:15:59.90 .net
>>666
正しくは著作者の収益じゃないかな
出版社は代理販売業だよね
現実は力関係から権力入れ替わってるにせよ

671:無名草子さん
22/11/15 22:18:01.79 .net
20年前ライトノベルが1200円!!?
はっゴミのような読み捨て小説で1000円超え!!!?
と驚いてたけど
今は普通の文庫本ですら800円台で更にファッ!!?
となってる
漫画とかも全部凄く値上がりしてるし
きがつきゃう物価全部値上がりで
6畳用エアコンが12万円とか信じられないよ

672:無名草子さん
22/11/15 22:31:52.03 .net
定価1円と印字された戦前の本が古本屋で数万円

673:無名草子さん
22/11/15 23:42:57.59 .net
紙の本は字が小さくていけねえ
歳は取りたくないのう

674:無名草子さん
22/11/16 09:05:57.54 .net
>>666
紙の本の場合著作者に支払われるのは価格の一割に過ぎない
残りの九割は出版社、印刷、製本、運輸、卸、小売などの利益に

675:無名草子さん
22/11/16 17:46:54.88 .net
来年1月から電子書籍の国会図書館納本が始まるから、青空文庫で手入力しなくちゃならない本の数は将来的には減りそうだな。まだ電子書籍化してない本も沢山あるけど。

676:無名草子さん
22/11/16 17:54:38.22 .net
そうなんだよな。
ほぼ同時に電子書籍になるのがデフォになっていくと
デジタル化という概念自体がこれからは希薄になっていく。
そんな時代の流れの中で青空文庫の将来を思うと少し寂しいときもあるが、
それでも一時代の役割を果たしていることには変わりないと思いたい。

677:無名草子さん
22/11/16 18:14:41.54 .net
まあでもこのペースだとあと百年かかっても昭和時代の書籍の青空文庫入り作業も終わらないだろうけどね
ああでもそのうちAIイラストみたいにocrのブレイクスルーが起きて人の手作業なしで組版再現までできるようになるのかな。

678:無名草子さん
22/11/16 18:34:17.70 .net
>>676
電子化されてない本はまだまだあるんやで~

679:無名草子さん
22/11/16 20:37:48.49 .net
青空文庫は「自由に使えるように一番単純な(互換性の高い)テキストファイル形式で電子化する」という役割もあるのでそこが全部機械任せに出来るかどうかで変わってくる気がするな
半世紀以上先の話だけど国立国会図書館って電子書籍の著作権が切れたらどう公開するんだろうか

680:無名草子さん
22/11/16 20:55:25.09 .net
青空文庫読書アプリとFirefox、頼むからルビ検索できるようにしてクレメンス

681:無名草子さん
22/11/16 21:00:31.10 .net
>>679
デジコレでネット公開だと思うで

682:無名草子さん
22/11/16 21:02:20.96 .net
URLリンク(www.ndl.go.jp)
電書納本の説明会があったみたい
リフロー版電書よりPDFのほうが収集優先度高めなのは意外だった

683:無名草子さん
22/11/16 21:02:30.26 .net
少し脱線してWebブラウザの話するとSafari、Chrome、Edgeはルビ検索できるんだがFirefoxはいまだにルビ検索できない
文学作品などはくせのあるルビがその作品の作風の重要な要素だったりするから
例をあげると「強敵」と書いて「とも」とルビふる『北斗の拳』みたいな高い文学性

684:無名草子さん
22/11/16 21:05:21.50 .net
>>681
そりゃそうだろうけどフォーマットはどうなるのかって話

685:無名草子さん
22/11/17 00:27:55.19 .net
活字ファンの季節になった
銀杏の落ち葉集めて書棚の落ち葉と交換する時期だわ

686:無名草子さん
22/11/18 12:37:04.31 .net
食欲の秋、スポーツの秋、入力の秋、校正の秋

687:無名草子さん
22/11/18 18:08:27.14 .net
一年中校正中

688:無名草子さん
22/11/20 12:28:23.43 .net
校正ファイルを普段使いとは別のテキストエディタに移し替えて作業したり、違うビューワーで見てみたりすると誤字発見率が上がる気がする

689:無名草子さん
22/11/20 13:01:42.84 .net
同じエディタでもフォント変えるだけで変わリそう
○と〇とか紛らわしいけどフォントによっては区別つく

690:無名草子さん
22/11/20 13:07:17.24 .net


691:無名草子さん
22/11/20 18:08:42.65 .net
googleドライブのOCR
急に使いにくくなったような気がするのだけど
最近アップデートがあったのだろうか
今まではあたりまえに読み取れていた同じ底本がなぜか変なアウトプットに
同じ現象の人いる?

692:無名草子さん
22/11/20 23:00:02.75 .net
Twitterで「#青空文庫で一番好きな作品を教えて」というハッシュタグが生まれてる

693:無名草子さん
22/11/21 13:33:15.23 .net
一番は難しいな

694:無名草子さん
22/11/22 08:34:36.14 .net
かといって10番目に好きな作品と言われるともっと困る
読みたいときにそこにあるってのが青空文庫の良さじゃない?

695:無名草子さん
22/11/22 09:04:47.16 .net
選べないよ
優柔不断とかじゃなく

696:無名草子さん
22/11/22 14:12:30.17 .net
作家 なら選べるかな?
漱石

697:無名草子さん
22/11/24 01:58:23.29 .net
ハッシュタグでないけどTwitter繋がりということで。
Twitterで最近『青空文庫から抜粋するbot』っての見つけてフォローしてるけど、知らない作品を読むきっかけになっていい。

698:無名草子さん
22/11/25 02:18:01.66 .net
青空文庫等が詩集を除いて「単行本を一冊」単位ではなく短編なりの「文章を一冊」として収録してるのって単行本の編集著作権に配慮してのことかな

699:無名草子さん
22/11/25 04:09:24.08 .net
>>698
単行本の編集著作権と聞いて「ツェッペリン飛行船と黙想」を思い出した
ちなみに「ツェッペリン飛行船と黙想」は著者没後に出た未発表短編集

700:無名草子さん
22/11/25 07:50:21.89 .net
>>698
編集著作権については『青空文庫作業マニュアル』の「3.底本を選ぶ 2)出版社の許諾は必要か」で触れてる
青空文庫作業マニュアル【本という財産とどう向き合うか】
URLリンク(www.aozora.gr.jp)

701:無名草子さん
22/11/25 09:13:54.00 .net
>>698
分かりやすい記事貼っておく
作者以外に認められる著作権「編集著作権」のこと
URLリンク(book.mynavi.jp)

702:無名草子さん
22/11/25 20:02:41.26 .net
>>425
これまだ何の返事もないんだけど、やっぱ届いてないのかな?
ちなGmail

703:無名草子さん
22/11/25 23:47:35.85 .net
真実は点検さんに聞かないとなんとも
ちなみ私がgmailで7月に送ったある作品は届いていなかったらしく
その後gmailでないアドレスから送り直したよ。
同じく7月にgmailから送った他の作品はちゃんと届いていたんだけど。
gmailの不具合なのか点検作業が大変なのかこちらは判断がつかないから、青空文庫用のやり取りにgmail を使うこと自体をやめたな

704:無名草子さん
22/11/26 12:13:09.37 .net
システムから受け取り確認の自動返信をもらえるようになると安心なんだけど

705:無名草子さん
22/11/26 15:07:24.68 .net
申請メールが多すぎてスパムに埋もれてしまってるんだろうね、きっと

706:無名草子さん
22/11/27 13:24:55.01 .net
スパムに埋もれるとはつまりランチョンミートに埋もれるということか
なかなか羨ましい状況にも思える

707:無名草子さん
22/11/27 22:01:52.11 .net
最近校了のペースより作品公開のペースのほうが早そうなんだけど、ストックがゼロになったことって今まであるんかな

708:無名草子さん
22/11/27 22:36:45.22 .net
公開ペースを一定にする(毎日なにかしらが公開されるという魅力を持たせる)ためにストックするのは
なにか商業主義的駆け引きを感じて自分としてはあまり好ましく思っていない
そもそも毎日新作?を楽しみにしている層と
そんなこと関係なく必要に応じて検索して青空文庫に公開されてれば嬉しい!という層とでは
後者の方が多いんじゃないかって思うんだよね(個人の感想です)
誕生日や命日まで温存しておかなくたって
完成し次第公開してもらえたほうが
ボランティアも利用者もありがたいと思うのだけどな

709:無名草子さん
22/11/27 22:47:44.52 .net
むしろ定期(毎日)更新って公開するための締切を自ら課してるだけじゃないの

パブリックドメインをウェブ上で公開する仕組みも入力や校正のデータも独占・奪取してるわけでもないし
青空文庫での公開の作業を担ってるスタッフだって他の工作員と同様に飽くまでボランティアなんだから
究極的には1年間に1作品以下の頻度の公開でも文句言える立場の人って別に居ないわけで

710:無名草子さん
22/11/29 22:23:27.41 .net
公開日を誕生日や命日とかにするのは公平で良いと思う。

711:無名草子さん
22/11/30 20:13:07.98 .net
正月公開は何になるのかちょっと楽しみにしてる

712:2022年12月公開予定作品一覧
22/11/30 20:28:44.76 .net
2022-12-01 山本 周五郎『だんまり伝九』
2022-12-02 ホワイト フレッド・M『トリガーセンの妻 コーンウォール物語』
2022-12-03 池田 勇人『政府を拘束しない』※誕生日
2022-12-03 佐藤 春夫『「珊瑚集」解説』※「珊瑚集」著者は永井荷風
2022-12-03 永井 荷風『歓楽』※誕生日
2022-12-03 室生 犀星『〈我が愛する詩人の伝記〉(補遺)』※佐藤惣之助誕生日
2022-12-04 山本 周五郎『伝四郎兄妹』
2022-12-05 作者不詳『現代語訳 平家物語 12 第十二巻』
2022-12-06 時枝 誠記『文学教育と言語教育』※誕生日
2022-12-07 坂口 安吾『光を覆うものなし ―競輪不正事件―』※競輪不正事件の不起訴処分決定が報道される
2022-12-08 山本 周五郎『峠の手毬唄』
2022-12-09 夏目 漱石『三四郎』※命日
2022-12-10 大田 洋子『いまだ癒えぬ傷あと ―放射線火傷で右手をうしなつた木挽きの妻と河原にうつ伏せて死んでいた幼女に―』※命日
2022-12-11 山本 周五郎『初午試合討ち』
2022-12-12 中谷 宇吉郎『日本の将来』
2022-12-13 田山 花袋『晩秋の頃』※誕生日(旧暦)
2022-12-14 尾崎 士郎『生きている忠臣蔵 ―忠臣蔵は何故流行するか―』※忠臣蔵の日
2022-12-15 山本 周五郎『春いくたび』

713:2022年12月公開予定作品一覧
22/11/30 20:29:06.29 .net
2022-12-16 グリム兄弟『天国へいった仕立屋さん』※ヴィルヘルム・グリム(弟)命日
2022-12-17 山本 周五郎『梟谷物語』
2022-12-18 佐藤 春夫『愉快な教室』
2022-12-19 山本 周五郎『武道宵節句』
2022-12-20 小泉 八雲『お貞のはなし』※翻訳者(田部隆次)命日
2022-12-21 山本 周五郎『蒲生鶴千代』
2022-12-22 柳田 国男『私生児の方言』
2022-12-23 徳田 秋声『青い風』『閾』※誕生日(旧暦)
2022-12-24 ドストエフスキー フィヨードル・ミハイロヴィチ『クリスマスと結婚式 ―無名氏の手記より―』※クリスマスイブ
2022-12-25 矢内原 忠雄『イエス伝 マルコ伝による』※命日
2022-12-26 菊池 寛『たちあな姫』『世に出る前後』※誕生日
2022-12-27 山本 周五郎『半化け又平』
2022-12-28 作者不詳『現代語訳 平家物語 13 灌頂の巻』
2022-12-29 三木 露風『明治詩壇の回顧』※命日
2022-12-30 横光 利一『自慢山ほど』※命日
2022-12-31 寺田 寅彦『宇宙の二大星流』※命日
2022-12-31 中谷 宇吉郎『「寺田寅彦の追想」後書』

714:無名草子さん
22/11/30 20:48:32.46 .net
新年の挨拶とかお正月に関するエッセイとかを入力すると1月1日に公開されるかな?

715:無名草子さん
22/11/30 22:01:41.61 .net
尾崎士郎訳の平家物語は年内に全編公開か

716:無名草子さん
22/12/03 20:06:34.95 .net
山周率9/31

717:無名草子さん
22/12/03 21:12:58.55 .net
作家別校了作品の比率から妥当かどうか検討してみてよ

718:無名草子さん
22/12/03 22:38:10.19 .net
妥当じゃなかったとして別に問題ない

719:無名草子さん
22/12/03 23:30:12.99 .net
作業数多いがゆえに校了して結構経ってるのに公開されてない作品を見るとなんかこの「間」もったいねえなと思うこともあるからガンガン公開して言ってほしい
一時期同じ作家の公開が続いたって無限に作品があるわけじゃないからいずれなくんだしなる

720:無名草子さん
22/12/04 03:37:45.27 .net
ガンガン公開しろってガンガン公開準備しろってことになると思うけどそんな厚かましいこと言うほど何か貢献してんの?

721:無名草子さん
22/12/04 08:46:28.56 .net
少なくとも毎月毎月「山周ばかり」って文句いうよりはいいと思う

722:無名草子さん
22/12/04 11:15:21.78 .net
種類に文句言ってるか量に文句言ってるかという違いだけでどちらも人任せなのは結局同じ
ただし他人により重い負担と労力を課そうとしているのは後者

723:無名草子さん
22/12/04 13:07:31.33 .net
>>715
一応14番目の解説もあるけどね

724:無名草子さん
22/12/04 13:15:21.77 .net
>>718
割合に応じて案分した結果の数字なのか意図的に配分してるような数字なのか出せって話であって、どっちを選んだら問題あるかないかなんて話はしてないでしょ

725:無名草子さん
22/12/04 13:25:29.36 .net
>>719
校了した翌日でも公開は可能な仕組みならともかく校了後ファイルも点検してるって言ってるし、その「間」とやらは作品ごとに差があるとしても公開に必要な期間なのでは?

726:無名草子さん
22/12/04 13:40:29.22 .net
いまいち分かってないんですが公開のタイミングって
そもそも誰が決めてるんでしょうか?
校正者の意向なんでしょうか?
誕生日目指して公開できるように頑張るとかの
モチベーションになってるってことであれば意味はあると思うのですが。

727:無名草子さん
22/12/04 14:13:43.59 .net
質問させてください
割り注に最大長とかみたいな制約ありますか?

728:無名草子さん
22/12/04 14:50:35.94 .net
>>724
いやだから、どっちか数字を出せ!って言われるような潜在的問題はなにもないから、出せって言うなという話でしょ。

729:無名草子さん
22/12/04 14:57:55.28 .net
>>727
ここで質問するより点検さんに訊くのが良いと思うよ。
点検さんの手を煩わせるのは申し訳ないと思ってここで訊くのだろうけど、
点検さんとしても訊いてくれたほうが後々の点検が楽になるわけだから、丁寧に質問に答えてくれるよ。

730:無名草子さん
22/12/04 15:06:44.26 .net
たしかに電子図書の割注の表示って
結局はユーザの表示する環境次第だから、複数行にわたる長い割注の場合どう表示されるんだろうね

我々の作業ではそこは意識するところではないんだけど

最大長の件、点検さんから答えがあったら、ここで共有してくれると嬉しいが

731:無名草子さん
22/12/04 15:13:54.09 .net
>>725
ですね。

公開用XHTMLファイルに変換する作業も人手も必要ですし
出来たXHTMLも公開用サーバに上げるからには表示チェック(校正ほどの厳しい目ではないにしろ通読する)必要もあるんじゃないかと思います。

732:無名草子さん
22/12/04 15:32:04.09 .net
あくまで提示されてる情報からの推測だけど、
注記一覧のページを見た限りだと、ルビ、縦中横、行右(左)小書き、上(下)付き小文字、罫囲み、横組み、文字サイズの注記については、
>対象文字が長めの場合や、外字注記が用いられているとき、前方参照型では期待通りに変換されない場合は、始まりと終わりを特定する開始/終了型で、次のように注記してください。
という旨の説明があって、2種類の注記方式を用意してるから、
【[#割り注]○○[#割り注終わり]】だけで【○○[#「○○」は割り注]】みたいな注記を用意していない以上は割り注の注記に文字数の制約はないんじゃないでしょうか
注記一覧 その他 - 青空文庫
URLリンク(aozora.gr.jp)

733:736
22/12/04 15:55:26.44 .net
まだ入力者登録してないので、点検の方に質問するのは後回しにします。
>>732
やはり制限はなさそうですね。
Windows用ビューワーであるPageOneやOyaziViewerでエラー発生するのは確認しているんですが、青空文庫と関係ない話なので厄介そうです

734:無名草子さん
22/12/04 22:29:29.61 .net
二段組に対応してるビューワーってあるんだろうか。
大して調べてるわけじゃないけど二段組は再現できない仕様が多いよね

735:無名草子さん
22/12/04 23:10:45.47 .net
>>726
作品の公開日については2020年01月01日のそらもようでちょっと触れてる
URLリンク(www.aozora.gr.jp)

736:無名草子さん
22/12/05 12:45:58.85 .net
>>735
記念日に公開したいって思惑は分かるんですがそれが校正者の意図なのか
公開者の一存なのかが知りたいです

737:無名草子さん
22/12/05 16:34:38.57 .net
>>736
校正者の意図か公開者の意図かという話になれば、それは概ね公開者の意図ということになると思う
ほとんどの作業ボランティアは点検グループの大変さや校正テキストファイルを提出してからその先の時間的長さと人的負担を理解していると思うので、いついつ公開してくれという希望は余程のことがなければ出さない(出せない)と思う

738:無名草子さん
22/12/05 19:51:55.02 .net
10校正したら1入稿というような何らかの制限つけたほういいと思う
そうしなきゃ自由気楽にきる入力ばかりやってしまう

739:無名草子さん
22/12/05 20:01:43.56 .net
発想面白いね
ただそこは作業者次第よ
だって自分は入力よりずっと校正してたいもん、達成感あるしね
だけど校正は点検グループの手を確実に煩わせるから
今は大量申請できないんだ

740:無名草子さん
22/12/05 21:38:35.42 .net
校正は自分の作業が確実に近い未来の公開につながるのが魅力よね

741:青空文庫アクセスランキング
22/12/05 22:48:09.82 .net
2022年11月
XHTML版
URLリンク(www.aozora.gr.jp)
テキスト版
URLリンク(www.aozora.gr.jp)

742:無名草子さん
22/12/06 09:28:56.97 .net
10校正したご褒美に1入力だと今の校正待ちが余ってる状態では成り立つけど最終的に校正待ちファイルが枯渇してさらに入力もできなるなるやで

743:無名草子さん
22/12/06 09:51:09.57 .net
だが待ってほしい
入力はOCRの仕事で、校正は人間の仕事になるのではないか

744:無名草子さん
22/12/06 11:40:11.36 .net
AI様が次世代デジタルライブラリーのocrと国会図書館デジタルコレクションの底本画像を組み合わせて、片っ端から自動で青空文庫注記をつけてくれた上で青空文庫のデータベース上に勝手に登録してくれて、あとは人が校正するだけになったら相当面白いかも

745:無名草子さん
22/12/06 11:56:22.82 .net
>>744
OCRの出力結果が正しいかどうか判断するAIが正しいかどうか判断するAIが正しいかどうか判断する人間のひと手間は避けられない

746:無名草子さん
22/12/06 16:30:09.95 .net
>>745
ワロタ

747:無名草子さん
22/12/06 18:07:23.19 .net
>>741
まさかの山川方夫短編が上位
おそるべしYouTube

748:無名草子さん
22/12/06 18:28:03.19 .net
>>747
YouTubeでなにかあったの?

749:無名草子さん
22/12/06 20:01:42.27 .net
>>748
YouTubeで、青空文庫の作品を要約してアニメにして紹介してる方が居て、おそらくその影響で上位になったと思われる
個人的に山川方夫さんは好きな作家だから嬉しい

750:無名草子さん
22/12/06 20:34:11.53 .net
なるほど、ありがとう
青空文庫をもとに制作しているYouTubeチャンネルも色々あるけど
それきっかけで青空文庫本家にユーザが来てくれるのは嬉しいね

751:無名草子さん
22/12/08 08:25:05.66 .net
[第2話]漫古☆知新-バカでも読める古典文学- - 漫☆画太郎 | 少年ジャンプ+
URLリンク(shonenjumpplus.com)
図書カード:にんじん (ルナール ジュール)
URLリンク(www.aozora.gr.jp)

752:無名草子さん
22/12/08 21:12:39.09 .net
また読んでしまった

753:無名草子さん
22/12/08 21:40:46.21 .net
文字通りオチが秀逸

754:無名草子さん
22/12/08 21:55:53.15 .net
解説の温度差よ

755:無名草子さん
22/12/08 23:37:32.37 .net
1話目でいつものパターンそのままでいらんと思ったので
今回はつられないぜ

756:無名草子さん
22/12/08 23:52:03.13 .net
教養が無いし翻訳作品はあまり読んでないから普通に知らんかった……

757:無名草子さん
22/12/11 11:58:41.29 .net
子どもの頃「少年少女世界の名作文学」で「にんじん」を読んで、これは何を伝えたいんだろうと真剣に悩んだ

758:無名草子さん
22/12/12 00:57:59.07 .net
あーおーぞーらーうーんーこー

759:無名草子さん
22/12/12 19:50:19.76 .net
みんな、今年の工作員ライフはどうだった?

760:無名草子さん
22/12/12 20:09:45.32 .net
青空文庫読者なので工作員の悲喜こもごもを楽しく見させていただいております

761:無名草子さん
22/12/12 20:43:12.02 .net
ごめん今週活動してないんだ……

762:無名草子さん
22/12/12 21:02:00.00 .net
4~5年放置してるやつをどうにかしないと……

763:無名草子さん
22/12/12 22:59:38.94 .net
作業申請するタイミングを逃し続けた

764:aozorablog
22/12/12 23:29:35.92 .net
青空文庫’22/10月-’22/11月の月間アクセス増率分析
URLリンク(www.aozora.gr.jp)

765:無名草子さん
22/12/13 06:59:19.63 .net
「JIS X 0213にはないがUnicodeにある漢字」を左ルビに使えるかどうかはビューワーの実装次第?

766:774
22/12/13 07:17:10.22 .net
Windows用アプリの左ルビ対応状況を調べてみた
[アプリ名(バージョン)] [JIS X 0213に規定された第3第4水準にある漢字] [JIS X 0213にないがUnicodeにある漢字]
えあ草紙(ver1.3.0) OK OK
PageOne(ver4.00) OK NG
OyaziViewer(ver2.6.5.0) NG NG

767:774
22/12/13 11:17:35.42 .net
PageOneはU+1F130からU+1F189までの四角囲みアルファベットを表示できないっぽい

768:無名草子さん
22/12/13 15:02:34.25 .net
そらもようにあった25周年記念のイベント?ってまだ期待してでもいいのかな

769:無名草子さん
22/12/15 08:55:50.81 .net
UTF-8に移行すれば、難しい字句のWeb検索で青空文庫のhtmlファイルがヒットする確率があがるんだが

770:無名草子さん
22/12/15 09:06:48.29 .net
だからずっとutf-8に移行して欲しいってずっと言ってきてる訳ですが
逆にsjisにこだわってる理由があるなら教えて下さい

771:無名草子さん
22/12/15 09:18:08.46 .net
中途半端に漢字をJIS X 0213の異体字に置き換える行為って、善意のようにみえて実は作品を蹂躙してるのと同じなんだよなあ
怖いよ、善意の破壊者

772:無名草子さん
22/12/15 09:30:25.20 .net
>>771
萩原朔太郎が「ローマ字論者への質疑」で
蝶は「てふ」でなくしてはならないなんていってるけど
現在の日本で蝶と「てふ」として読む日本人が果たして何人いるのか?
言葉は時代とともに移り変わっていくものであり
より良いものが提示されてるのに、検討もされないで思考停止してるのは
残念としか思えない。

773:無名草子さん
22/12/15 09:38:55.13 .net
そもそも今のコメントで引っ張ってくる漢字がutf-8の文字なら
そこにひと手間かける意味は何なんでしょうかと小一時間問いただしたい

774:無名草子さん
22/12/15 09:39:55.43 .net
>>772
それだと、底本がどんな表現を使っていたかを知りたい、流行の変遷を知りたい、っていう需要に答えられないんだよね
電子化テキストのほうで勝手に情報を捨てたら、復元できないわけで

775:無名草子さん
22/12/15 09:41:42.08 .net
「言葉は時代とともに移り変わっていく」のなら、なおのこと勝手にその時代の情報を捨てたらダメでしょ
著作権が切れてるのを良いことに踏みにじりまくってるね
怖いよ、善意の破壊者

776:無名草子さん
22/12/15 09:46:22.75 .net
なまじ外字フォントやら注記で置き換えられているのは、がんばれば元のデータを復元できる
問題は、勝手にJIS X 0213に収まる異体字に置き換えてしまうケース
復元できないんだから、文化大革命も同然だよ

777:無名草子さん
22/12/15 09:55:29.39 .net
スペインでキリストのフレスコ画をムンクのような絵に変えた事件あったじゃん?もう10年経ってたね

世界中で話題になった「おばあちゃんによる最悪の芸術品修復」から10年、町とおばあちゃんに起こった変化とは? - GIGAZINE
URLリンク(gigazine.net)

778:無名草子さん
22/12/15 09:59:14.96 .net
さて思考停止しているのはどっちかな

779:無名草子さん
22/12/15 10:22:13.21 .net
「諭」(「言+兪」, U+2F9D0)はわりとよく見かけると思うんだが、包摂適用で「諭」にしていいか議論の余地がある。
ちなみにWindows環境だと、Meiryo UIフォントとか使わないと「諭」(「言+兪」, U+2F9D0)は表示できないので不便。

780:無名草子さん
22/12/15 10:29:38.40 .net
これと萩原朔太郎の言をを一緒にするのは流石におかしい。
その時代の異字体を大切にしたいなら、その方向での注釈をつけるべきで
utf-8の字体を全面的に拒む理由にはならない。
今後も機会あるごとに青空文庫のユニコード化は訴えっていこうと思います。

781:無名草子さん
22/12/15 10:46:40.91 .net
共産主義者が多いのかな、青空文庫の利用者って
賢いフリするのが好きなだけで頭悪そうな感じ

782:無名草子さん
22/12/15 10:49:00.00 .net
Google先生に拾ってもらえなくなったらおしまいだよ

783:無名草子さん
22/12/15 10:49:52.06 .net
頭悪いは否定しませんが頭悪くっちゃ青空文庫利用しちゃいけないんですか?
というかワッチョイつけて欲しい

784:無名草子さん
22/12/15 11:04:49.43 .net
>>769 以降の書き込みは、>>770,772,773,780,783 以外全部同じ人だよ
書いた本人が言うんだから間違いない
外字フォントや注記のままだと、いつまでたってもGoogle先生を始めとするWeb検索エンジンに拾ってもらえない。
Unicode化をぜひやってもらいたい。

785:無名草子さん
22/12/15 11:36:23.23 .net
>>770,772,773,780,783 は全部自分なんで、結局二人で言い合ってたわけかorz
この話題は広く議論してもらって、できるならutf-8化の方向で前に進めてもらいたいです。

786:無名草子さん
22/12/15 12:02:59.56 .net
突然始まって唐突に終わった気がする
とにかく何が言いたいかというと屁のツッパリはいらんですよ

787:無名草子さん
22/12/15 12:30:53.15 .net
普通に名前欄使えばいいのに

788:796
22/12/15 12:36:25.66 .net
仮名遣いはともかく、漢字に関しては出版社や印刷所や編集者の都合なり意向なりでいくらでも変わるし変えざるを得ないので異体字の包括表記はそこまで重要ではないと思う
それでもなお必要と思うなら「自分でやれば?」って感じ
自分でサイト作らなくてもWikisourceとかがあるしね

789:無名草子さん
22/12/15 12:53:07.17 .net
包摂適用についてはまあその通りで実用に問題ないレベルだと思う
じゃないと今まで放置されてない

790:無名草子さん
22/12/15 17:06:07.13 .net
正直自分はUTF-8に対応してくれたほうが嬉しいけど
そもそも現状の青空文庫一強みたいな風潮も変だし、違うアーカイブがもっと増えてもいいんだよねぇ
自分も青空文庫用に作った作品ファイルを自サイトで公開してるけど、その時は極力字を底本通りに直してるわ

791:無名草子さん
22/12/15 17:11:03.93 .net
単に電子テキストをアーカイブ化したいって言うなら、青空文庫で入力校正の手続きを踏むより
電子テキストをepub形式にしてKDPやkoboで出版→国会図書館の電子書籍納本、とかのが一人で完結するし手っ取り早いかもしれない

792:無名草子さん
22/12/15 17:40:59.57 .net
青空文庫は今のSJIS仕様のままだと、鬼門・地雷原ともいうべき旧字の多い作品の入力校正を皆が避けるようになってしまうから、良くないんじゃないかな


次ページ
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch