22/09/17 22:42:27.42 .net
その疑問こそが答えでは
237:無名草子さん
22/09/17 22:50:59.58 .net
aozorahack に参加したいなんて思ってたけど
github も動いてないしどうしたものか。
前にも言ったことあるけど青空文庫のテキストを
sjisからutf8とかにすると使える漢字が増えて
注釈を減らせるしホームページにそのまま載せれるし
メリットが大きい(と思う)。
移行しない理由が作業が大変ってだけなら
一発変換のスクリプトとか提供できるのに。
238:無名草子さん
22/09/18 00:10:45.48 .net
>>236
よくわからんが、
「自治厨が、私見で間違った指導」
「運営を差し置いた相談事とその決定」
「フォーラム乱立によるローカルルールの発生、ひいては作業ルールに対する解釈のブレ」
そして
「そうしたトラブルや不都合を防ぐためには、点検グループの中の人のように公式な管理者を常駐させる必要がある」→肝心の点検作業に差し支えるようになる
といったような解釈で良いのかな?
昔はそんなにあったんだね……フォーラム。
それがどれも存続してないという結果が全てな感じがする。
239:無名草子さん
22/09/18 00:12:19.95 .net
>>237
すごい
240:無名草子さん
22/09/18 00:44:14.59 .net
昔のそらもよう調べたら掲示板とかについても触れてるよ
241:無名草子さん
22/09/18 01:34:03.40 .net
それが答えって知名度的な意味?
242:無名草子さん
22/09/18 08:49:05.19 .net
>>237
一括置換で済めばいいけど、底本尊重だから、これまで包括判定していた漢字を底本に戻って確認しなきゃならないみたいな文を読んだ気がする
243:無名草子さん
22/09/18 09:47:16.13 .net
なるほどなあ。
であればこそ、いまの「空白の(著作権消滅待ちの)20年」の間に
utf8化に向けてできることがありそうな気がするが……
包摂文字をマークアップするプログラム組んで、
底本再確認の負担を減らせないかとか……
まあ、言うは易しなのだろうな
244:237
22/09/18 11:30:03.80 .net
ruby を使ったスクリプトで半年ほど前に作りました
バッチファイル自体は三十数行の短いものです
いくつか課題があったはずですが詳しくは忘れました
・文字をsjisからutf8に変換する
・ユニコードのコード表と注記の番号を照合し取り込み可能な漢字を取り込む
・バッチファイルをダブルクリックすると処理を開始
・バッチファイルのあるフォルダ以下のテキストファイルを加工し、バックアップをとる
というものです。以下に置いてあるので興味のある方は試して見て下さい
URLリンク(pansy.s1010.xrea.com)
245:無名草子さん
22/09/18 11:52:35.79 .net
いっそウィキソースとかに置いたほうがいいのかもな
246:無名草子さん
22/09/18 13:07:32.39 .net
「えあ草紙」や「ソラリ」みたいに外字注記を自動でUnicodeに置き換えてくれるアプリがすでにあるよね。
個人的にはそれで充分だから青空文庫本体の元データまでUnicodeに移行すべきとは思わないな。
247:無名草子さん
22/09/19 11:53:35.55 .net
>>244
すごい
aozorahackはいま稼動していないのか
248:無名草子さん
22/09/19 16:21:01.92 .net
aozorahackって経常的に活動してるの?
249:無名草子さん
22/09/20 18:21:31.81 .net
藤沢周平が青空文庫に登場するまで長生きしたい。
250:無名草子さん
22/09/20 18:29:40.44 .net
立川市図書館が日本トップレベルの電子図書館に!東京立川こぶしロータリークラブが青空文庫500タイトル・電子伊能図を寄贈、市内の小中学生を対象にレビュワー大賞も開催!|東京立川こぶしロータリークラブのプレスリリース
URLリンク(prtimes.jp)
251:無名草子さん
22/09/20 18:40:44.29 .net
柳田国男の炭焼日記とか戦争中に書いていた日記を追加してくれ
ぜひとも読んでみたい
252:無名草子さん
22/09/20 20:20:55.96 .net
>>251
入力したら校正担当してくれるって事か?
253:無名草子さん
22/09/21 21:19:16.65 .net
Twitterで「#青空特務司書」や「#広がれ特務司書工作員の輪」の工作員交流用ハッシュタグがあるけど余り使われてないね
254:無名草子さん
22/09/21 21:43:54.62 .net
>>251
古川ロッパの日記が校正待ちになってるなぁ
255:無名草子さん
22/09/22 07:28:45.47 .net
>>253
文アル齧ってるけどなかなか交流はし辛い
256:無名草子さん
22/09/22 08:59:11.96 .net
がっきぅう うんこ
てやったよな?
257:無名草子さん
22/09/22 09:21:00.88 .net
ガッキーうんこなんて暴言は許せん
258:無名草子さん
22/09/22 11:39:32.00 .net
>>255
文アル知らないけど、特務司書の名を借りてるだけで文アル関係なさそうじゃない?
まあ見つけにくいタグではあるよなぁ、耕作員用のタグないかな?と思った人が見つけられる名前ではないな。
校正依頼PRもできて、上手く使えば便利そうなのに
259:無名草子さん
22/09/22 18:10:59.29 .net
稲垣足穂が1冊も登録されてないように見えるんだけど
この方の小説ものすごく良いのにもったいない
260:無名草子さん
22/09/22 18:55:49.35 .net
入力しろ定期
261:無名草子さん
[ここ壊れてます] .net
入力しても良いんですか?
そのための小説を僕にください
まさかここ10年で小説がこんな高騰するなんて思わなくて
断捨離してほぼ全て捨てたんだよ
なんで1200円とかするのよ
262:無名草子さん
22/09/22 20:06:01.03 .net
没後50年すら経ってない作家なのか
ひとつも登録がないとかあたりまえの話じゃないか
出直して来い
263:無名草子さん
22/09/22 20:07:26.43 .net
半年ROMれ
264:無名草子さん
22/09/22 20:08:15.64 .net
1977年10月25日没って改正前ですら2023年1月1日からじゃん
265:無名草子さん
22/09/22 20:09:09.04 .net
>>264
2023年じゃなくて2028年だわ
266:無名草子さん
22/09/22 20:10:40.76 .net
それな
青空文庫を、乞食の巣窟にはしたくないものだ
267:無名草子さん
22/09/22 21:15:58.87 .net
>>265
そうだったか
皆ありがとう
一千一秒物語好きだから注文した
268:無名草子さん
22/09/22 21:33:29.98 .net
著作権切れの官能小説って無いん?
広義でじゃなくて、もうひたすら抜け!って感じの
269:無名草子さん
22/09/22 21:47:08.42 .net
墨東綺譚がそんな感じかと思ってたのに期待してたのと違った
270:無名草子さん
22/09/22 22:39:23.58 .net
Wikipediaの官能小説のページには
>近代的な小説のジャンルとして、読者の性欲を刺激することを目的に据え、性愛を描いた作品は明治時代から存在した。
とあるけど具体的な作品名は殆んど出されてない
271:無名草子さん
22/09/22 22:55:02.05 .net
別に著作権保護期間が法改正で70年に延長されたの知らなくてもいいよ
それこそ知的財産権に関わらないなら何年間かも知らなくても別にいいよ
でも青空文庫にあるかどうか確認するならせめて自分で調べようよ
272:無名草子さん
22/09/22 23:14:48.14 .net
>>271
それらしいレスだが既に終わった話題を蒸し返すのはださい
273:無名草子さん
22/09/22 23:18:04.59 .net
戦中戦後の作品なら
××を×って××××たり×××××××
みたいな伏せ字で妄想がはかどるぞ。
274:無名草子さん
22/09/22 23:26:55.26 .net
NDLのデジコレをそれらしい単語で検索すると性生活や性教育についての本は山ほど出てくるね
カストリ雑誌なんかもかなりあけすけなものも載ってるな
275:無名草子さん
22/09/24 06:59:02.31 .net
稲垣足穂はないけど、
「一千一秒物語」の序文(佐藤春夫)は校正待ちになってるよ。
276:無名草子さん
22/09/24 16:33:34.90 .net
底本に明らかなへんな誤字みつけると、ママ注記にするか、訂正の上「底本では」注記にするかで悩む。
277:無名草子さん
22/09/24 16:45:59.22 .net
>>276
>青空文庫での入力校正作業は、原稿の誤りをただす「校閲」でも、最善と思われる本文を編集する「校訂」でもありません。
>つい底本の全文を初出や親本と突き合わせてみたくなる気持ちも、テキストに対する積極的な愛情のひとつではあります。
>とはいえ作業の上では、別底本が参照できて客観的に訂正可能なもののみを誤植注記し、辞書や用例等に鑑みて疑わしいと思われるだけのときは、ママ注記にとどめてください。
青空文庫編 青空文庫FAQ
URLリンク(www.aozora.gr.jp)
278:無名草子さん
22/09/24 16:54:36.28 .net
ありがとう。
FAQ、耕作員になったときに目を通したはずだが、
実際の作業をいくつも経験してから改めて読むと、深いな。
279:無名草子さん
22/09/24 17:38:38.00 .net
乙
皆協力する姿勢に感動した
俺もそのうち工作員になりたい
しかし工作員ってイメージ悪いなw
280:無名草子さん
22/09/24 19:56:56.65 .net
「耕作員」もあるよ
281:無名草子さん
22/09/24 22:21:44.03 .net
佐藤春夫と幸田露伴ってどっちが日中の古典に造詣が深かったのですか?
282:無名草子さん
22/09/25 22:44:51.33 .net
も~山本周五郎ばっかりじゃん!!!
山本周五郎死ね!!!!
283:無名草子さん
22/09/25 23:42:00.71 .net
お前が死んだことにして工作員に生まれ変わるんやで
284:無名草子さん
22/09/25 23:52:49.33 .net
>>267
一応買いなおした証明どうぞ
一番気に入ってる方だけ買ったけど
今は3部作というくくりになってるらしくて他も気になってきあ
URLリンク(i.imgur.com)
285:無名草子さん
22/09/25 23:59:07.48 .net
>>284
すまんちゃ
はりなおし
URLリンク(i.imgur.com)
久々に文庫本読んでるけれどスマホの画面になれてると文字が小さいしページ中央辺りが読みづらくて辛い
昔はこんなのを朝から晩まで熱中して読んでたんだな
286:無名草子さん
22/09/26 00:01:34.25 .net
今のうちに予言しておくと’22/08月-’22/09月の月間アクセス増率分析では知里幸恵が躍進。
「100分de名著」で「アイヌ神謡集」が取り上げられた効果が見られるでしょう。
287:無名草子さん
[ここ壊れてます] .net
>>282 もう死んでるww
288:無名草子さん
22/09/26 02:23:35.52 .net
山本周五郎は2度死ぬ!
289:無名草子さん
22/09/26 03:45:42.05 .net
工作員に転生させられた。が、そこは青空文庫のない異世界だった。続く...
290:無名草子さん
22/09/26 04:50:57.83 .net
青空文庫好きの下剋上!
291:無名草子さん
22/09/26 12:48:07.89 .net
>>290
それストーリーが全く予想できません
292:無名草子さん
22/09/26 13:09:17.44 .net
工作員に転生って背乗りとかの話じゃないのか
いや青空文庫で入力校正作業するのに戸籍の偽造をする必要は当然ないけど……
293:無名草子さん
22/09/26 19:07:47.87 .net
私は青空文庫の工作員。
北の黒電話のお陰で嫌な印象が付いたけれど言葉だけれどパンチドランカーの私にはとても誇らしい名称です。
パンチドランカーというのはボクシングじゃなくて保護期間が切れた小説を入力公開する人の二つ名です。
なんせ青空文庫の8割は私が入力したんだから。
私は地震で倒れてきた書棚の下敷きとなり呆気なく異世界転生。
転生先はとても貧しい家族の末娘。
私の異世界青空文庫ビブリアファンタジーの始まりだ。
こんな感じ?
294:無名草子さん
22/09/26 19:13:20.35 .net
↑「著作権存続中」で登録申請してください
295:無名草子さん
22/09/26 19:18:08.64 .net
>>294
いやいやまってよ
異世界だと日本の著作権関係ないから
あとビブリアファンタジーってのが何なのか分からん
ビブリアってなに?
296:無名草子さん
[ここ壊れてます] .net
ギリシャ語で本(複数形)、ラテン語で聖書
『ビブリア古書堂の事件手帖』を御存知でない?
297:無名草子さん
[ここ壊れてます] .net
>>281
どういう指標で優劣つけるの?
298:無名草子さん
[ここ壊れてます] .net
>>296
ありゃーした
タイトルだけは知ってる
そうかスコップとシャベルみたいなもんか
299:無名草子さん
22/09/27 05:38:39.48 .net
高見順は最近解禁だからあんまり作品数ない感じ?
なんか過小評価されてねえかい。左翼転向組だからかな
あと武田麟太郎は戦前めちゃくちゃ人気だったし46年没だからどんどん追加して
300:無名草子さん
22/09/27 06:36:47.17 .net
没後50年なら椎名麟三とか来年来たはずなのにな
TTPだかTPPだかPPTだか知らんが死ね!
301:無名草子さん
22/09/27 08:02:30.02 .net
>>299
校正待ちが待ってるよ
302:無名草子さん
22/09/27 18:42:59.10 .net
> TTP
知らん
> TPP
ターボパスカル
> PPT
パワーポイント
303:無名草子さん
22/09/27 20:13:36.92 .net
TPP11よりも日欧EPAの方が……
304:無名草子さん
22/09/29 16:07:46.82 .net
>>268
四畳半襖の下張り
305:無名草子さん
22/09/29 23:33:50.88 .net
「某のアレを入力したいけどこの御時世だと顰蹙を買いそう……」と思ってしまう
306:無名草子さん
22/09/30 12:38:01.00 .net
著作権切れてるか切れてないか以外の基準なんて設けるだけ無駄
公開も作業もされてないから入力する、校正待ちだから校正する
もちろん全部やるのは不可能なので底本が入手出来るかどうかとか分量とか好みとか作者との縁(同じ出身地とか)による取捨選別はあるけどね
307:2022年10月公開予定作品一覧
22/09/30 18:10:12.09 .net
2022-10-01 山本 周五郎『入婿十万両』
2022-10-02 佐藤 春夫『二つの愛国型』
2022-10-03 山本 周五郎『暗がりの乙松』
2022-10-04 ホワイト フレッド・M『ドレントン・デン特派員の冒険 04 第四回 灰』
2022-10-05 山本 周五郎『正体』
2022-10-06 坂口 安吾『「大国主命」』
2022-10-07 作者不詳『現代語訳 平家物語 10 第十巻』
2022-10-08 山本 鼎『「槐多の歌へる」序』※命日、作品初公開
2022-10-09 山本 周五郎『蛮人』
2022-10-10 中谷 宇吉郎『無知』
2022-10-11 岡本 一平『怪物取組画譜 出羽ヶ嶽その日その日』※命日
2022-10-11 片山 敏彦『暗い時間に』※命日
2022-10-12 浅沼 稲次郎『休養を取る日を』※命日
2022-10-13 山本 周五郎『松風の門』
2022-10-14 正岡 子規『牡丹句録 子規病中記』※誕生日
2022-10-15 岡本 綺堂『河鹿』※誕生日(旧暦)
2022-10-15 木下 杢太郎『伊豆伊東』※命日
2022-10-16 山本 周五郎『嫁取り二代記』
308:2022年10月公開予定作品一覧
22/09/30 18:10:45.15 .net
2022-10-17 柳田 国男『産婆を意味する方言』
2022-10-18 尾崎 士郎『風蕭々』
2022-10-19 山本 周五郎『あすなろう』
2022-10-20 九条 武子『六甲山上の夏』※誕生日、初公開
2022-10-20 坂口 安吾『私の探偵小説』※誕生日
2022-10-21 江戸川 乱歩『暗黒星』※誕生日
2022-10-21 尾崎 士郎『早稲田大学』※早稲田大学創立記念日
2022-10-22 坂口 安吾『神童でなかったラムボオの詩 中原中也訳『学校時代の詩』に就て』※中原中也命日
2022-10-23 山本 周五郎『榎物語』
2022-10-24 中谷 宇吉郎『紙の行方』
2022-10-25 原 杞憂『追悼記』
2022-10-25 原 民喜『追悼記』
2022-10-26 山本 周五郎『改訂御定法』
2022-10-27 尾崎 士郎『叛骨・中野正剛 ―主観的な覚え書き』※中野正剛命日
2022-10-27 木下 夕爾『夜学生』※誕生日
2022-10-28 正宗 白鳥『ペンクラブと芸術院』※命日
2022-10-29 山本 周五郎『源蔵ヶ原』
2022-10-30 永井 荷風『心づくし』
2022-10-31 ポリドリ ジョン・ウィリアム『吸血鬼』
309:無名草子さん
22/09/30 18:53:13.37 .net
>>305
某のアレってどれだろう
310:無名草子さん
22/09/30 19:18:36.07 .net
単純に時代錯誤な作品というだけならいくらでもあるだろうけど
「この御時世」がもっと狭い期間を指すなら山口二矢の供述調書あたりかな
311:無名草子さん
22/09/30 19:27:58.38 .net
来月の公開作品に浅沼稲次郎いるじゃん
312:無名草子さん
22/09/30 20:45:59.62 .net
ハロウィンに「吸血鬼」公開はなるほどと思った
313:無名草子さん
22/09/30 21:02:23.10 .net
>>312
どの吸血鬼なんだろう
314:無名草子さん
22/09/30 21:09:39.24 .net
>>313
「どの」も何もジョン・ポリドリの『吸血鬼』って複数あるの?
吸血鬼 (ポリドリ) - Wikipedia
URLリンク(ja.wikipedia.org)(%E3%83%9D%E3%83%AA%E3%83%89%E3%83%AA)
315:無名草子さん
22/09/30 21:22:55.99 .net
>>314
いあ、タイトルだけだからドレかわからなかったのよ
んで見てきた
ぱっと見て失業中に見えた
目薬刺してくる
URLリンク(www.aozora.gr.jp)
316:無名草子さん
22/09/30 21:29:22.49 .net
ちょっと上にめっちゃ大ヒントあるやん……
と思ったが最近来た人なら1ヶ月分の公開予定作品の一覧が前月末に定期保守代わりとして書き込まれるのは知らないか
317:無名草子さん
22/09/30 22:56:36.90 .net
入力申請しようかどうか迷ってると他の人に入力はおろか校正まで済まされて公開まで話が進んでしまう(※もちろん良いことではある)
その一方で同じ程度の知名度があるはずの作品を入力したらしたで何故か校正待ちの状態が長く続いてしまう
なんでだろ~なんでだろ~
318:無名草子さん
22/09/30 23:49:20.04 .net
>>316
別だけど長文は自動的にあぼーんしてるので最初から見てない俺がいる
青空文庫スレは落ち着いてるのですが
他のスレが危なくてこういう設定入ってるやつもいると頭の片隅にでも入れておいてもらえると嬉しいです
319:無名草子さん
22/09/30 23:57:45.75 .net
既に組んだことのある人がいたら
その人の癖や作業の信頼度が分かっているから
自然とそういう相手(の入力テキスト)を選んでしまうということはあるんだろうか
「この方とこの方のペア、よく見かける気がする」というのがある
だとすれば、作品そのものや申請タイミングなどの要素よりも、
属人的要素によりそのマーフィーの法則的なのが発動している可能性あり
320:無名草子さん
22/09/30 23:59:49.63 .net
>>318
それはあくまでもあなたの嗜好から来る選択(都合)であって
合理的とはいえない
皆に配慮を求めることではない
321:無名草子さん
22/10/01 00:06:07.98 .net
むしろ意図的に見てない書き込みがあるなら話の流れがありそうな時くらい確認しそうだが
322:無名草子さん
22/10/01 00:16:59.70 .net
>>319
大前提としてアクティブユーザーが少ないから常連で組んでる印象が強くなるのでは?
文アル文スト経由で工作員になった人達は特定の作家の作業で固まってるかもしれないけど
323:無名草子さん
22/10/01 00:27:23.66 .net
>>320
他人に配慮しろなんて一切書かれてないので過剰反応するな
落ち着け
自分自身が馬鹿だというレスはいくらでもしてよいが
他人へのヘイトレスは控えようぜ
324:無名草子さん
22/10/01 00:36:30.59 .net
他人をヘイトはしていないし
そんな言葉を使ってはいないから
あなたこそ落ち着いて読んでくれ
なにかを頭の片隅に置いてほしいということは
それを踏まえて考えてくれということ
それを配慮を求めると言わなかったらなんだと言うのかなあ
「こういう環境で見ている人は、気づけないこともある」
という事実だけが提示されてれば、そういうこともあるのかーと思うだけだったが
それを身体的理由でもないのに
自分の勝手で見ないようにしているものを
頭の隅に置いてくれと言われても、
それはいかがなものですか?
と感じたにすぎない
325:無名草子さん
22/10/01 00:43:25.27 .net
触れたらダメっぽい
326:無名草子さん
22/10/01 00:56:07.42 .net
>>322
文アル文ストから耕作員ってコース、あるんだ?
文アル文ストから文豪本人に興味を持つまではありかもなと思ってたが
実際問題、世界観はまるで別物だし
そこまでのめり込めないかと思ってた
327:無名草子さん
22/10/01 01:46:17.95 .net
文ストは知らないけど文アルから工作員は結構いると思う、というか、以前はもっといた
何人か要領のいい人がいて、いろんな作家の入力校正をやっていたから
少し前までは今よりも誕生日とか命日の公開が充実していた気がする
最近は動きがないみたいだけど……
328:無名草子さん
22/10/01 02:04:23.82 .net
自分は入力も校正もやる方だけど、自分の入力作品を校正してくれた人の入力作品を
お返しの気持ちで校正することは確かにある(※お互い面識はない)
ただし手を出すのは興味のある作家・作品だけですね
知らない作家の校正はミスしそうで、ハードルが高く感じる
329:無名草子さん
22/10/01 02:13:49.94 .net
>>326
文ストか文アルかは知らんが佐藤春夫あたりはその辺のファンが布教活動の一環で作業してるのが如実に現れてると思う
330:無名草子さん
22/10/01 02:20:46.79 .net
むしろ少なくとも第一印象では著者にも内容にも興味ないくらいの方が「いつもの感じだろうと何となく読んでしまう」ということが起こらないので間違いを見つけやすい気がする
331:無名草子さん
22/10/01 11:30:08.04 .net
文スト文アル関係者で一番貢献してたのは、花袋の校正を黙々と片づけてくれてた人たちだと思う
(本人に直接確認したわけではないから関係者というのは推測だけど)
春夫は……まあ声が大きい工作員がいるな、とは思う……
332:無名草子さん
22/10/01 11:37:43.75 .net
知らない作家の入力校正をすると、たとえば「一見して誤記っぽいけどその作家ではよく見られる表現」みたいなものに
気づかず誤記注記とかママ注記とかをつけてしまって、後の作業をする人に迷惑をかけたりするから
まあ作家の知識はあるに越したことはない
333:無名草子さん
22/10/01 13:07:14.34 .net
>>331
花袋、そうなんだ
自分はキャラ設定画くらいしか知らんのだけど
ほかの文豪の格好よさに比べて
蒲団キャラはあんまりにもあんまりじゃないかwwと思っていたので
何か安心したw
334:無名草子さん
22/10/01 13:09:17.90 .net
ワイの入力してるマイナー作家もイケメン擬人化しないかな
335:無名草子さん
22/10/01 13:12:48.18 .net
何きっかけだろうと何年かかろうと
最後までやりきれるならどんな人でも嬉しい
336:無名草子さん
22/10/01 18:59:48.11 .net
10月も隙あらば山周なんだな・・・
中宇が減ったな
337:無名草子さん
22/10/01 19:23:22.56 .net
隙を見せてるのは山本周五郎作品の作業してる方じゃなくて他の作家の作品の作業をしてない方
338:無名草子さん
22/10/01 19:27:27.26 .net
著作権切れしていて作業未定の作者名と作品名一覧とかあるのだろうか
参加出来るようなの有ればと思うんだが
339:無名草子さん
22/10/01 19:32:02.80 .net
>>338
作者の一覧はあるけど(青空文庫のトップページから見られたはず)
さすがに作品名はないから各自お調べヨロってところじゃないかな?
340:無名草子さん
22/10/01 19:41:20.55 .net
アクティブ耕作員さんはそんなに少ないのだろうか?
yozoraで見られる作業状況(最近4週間の動き)を見るとたしかに
耕作員名が限られた常連だけにしか見えないけれど、
入力テキストや校正テキストが点検済みや校了になる時の日付が
点検チームに送ったメールの日付になることをあわせて考えると、
点検済みや校了に進んでも「最近の動き」に載らないものの方がたぶん多い思うんだ
常連さんのは品質が安定していて点検も早くすむだろうから、「最近の動き」に載りやすいというか
341:無名草子さん
22/10/01 19:46:54.64 .net
>>338
青空文庫の「登録全作家インデックス」なら「公開中:0、作業中:0」が載ってる
具体的な作品一覧はない(Wikipediaやコトバンクを調べたら載ってるかも)
URLリンク(www.aozora.gr.jp)
校正だけでいいなら「青空文庫校正待ち作品検索」がある
ここのURLは何が引っかかってるか分からないけど何故か書き込めない
「死せる作家の会」は没年別に作家の生没年と一部の作品名が載ってるが青空文庫との直接的なリンクはしてない
ちなみに2004年で更新が止まってる
URLリンク(www.jca.apc.org)
あとWikipediaには没年カテゴリがあるので1967年以前の没年カテゴリをちまちま調べたら良い作家に巡り会えるかもしれない
例:Category:1967年没
URLリンク(ja.wikipedia.org)
342:無名草子さん
22/10/01 20:03:21.88 .net
今月の公開作品でいえば
山本周五郎は10作品公開に3人が関わってる
(※1つは法人名義なので複数人いるかもしれないが)
尾崎士郎は4作品公開に5人が関わってる
坂口安吾は3作品公開に4人が関わってる
入力者と校正者さえ見つかればいくらでも作品が公開されるというだけのこと
343:無名草子さん
22/10/01 21:21:35.01 .net
>点検済みや校了に進んでも「最近の動き」に載らないものの方がたぶん多い
受け取り報告メール、どれくらい来なかったら問い合わせする?
それとも問い合わせはいっさいしない?
点検が忙しいのだろうことは想像に難くないし、催促するつもりもまったくない
けれど、ファイルが届いてないのでは(または見逃されてしまったのでは)と心配になること、ない?
344:無名草子さん
22/10/01 21:58:06.42 .net
>>343
>受付の確認やファイルの点検について
>入力ファイル受領時、校正ファイル送付時の「点検作業」は、少数の点検チーム(ボランティア)によって担われています。
>作業待ちのタスクが重なっている場合、返信や送付・確認にしばらく時間がかかることがあります。こちらも気長にお待ちください。
作業着手連絡システム
URLリンク(reception.aozora.gr.jp)
俺も8月末に入力ファイルをいくつか送って1ヶ月くらい待ってる
Gmailで送ったのもあるから1ヶ月超えると受理されてないかもという心配も出てくるけど
別に校正者確保したわけでもないし残りの作業中作品を送る際にも受領メールが届いてなかったら確認すればいいかなって思ってる
345:無名草子さん
22/10/01 22:00:34.70 .net
一ヶ月くらい確認メール遅れるのはざらって大久保さんもツイートしてたな
346:無名草子さん
22/10/01 22:02:31.12 .net
最近の動きに載らなくても舞台裏には載るから、それで大体の動き(今は●月提出の辺り処理してくれてるんだなとか)はわかるので、問い合わせたことはないな
半年音沙汰なかったら、次の提出の時にでも軽く訊くかも
347:無名草子さん
22/10/01 22:03:56.65 .net
>>339
反応早っ
以降の皆さんも有難う
>>342 さんも
んー作者名分かれば検索に突っ込んで作品名探せばいいしな
ぼちぼち見て行きます
山本周五郎繋がりですが「殺生谷の鬼火」で表示されない文字があるようにみえるのですが
これはandroidビューアー側の問題かな
読書尚友Freeという青空文庫ビューアーだと「……」のような表示になるのです
例えば以下のように「…」で出てきます
怨霊の呻声、鬼火、……立派な道具立てだ、
これはFONT問題とかビューアー側の問題なんだろうか?
分かりづらかったらすまん
348:無名草子さん
22/10/01 22:06:27.15 .net
舞台裏なんてあるんだ。知らなかった
349:無名草子さん
22/10/01 22:18:07.24 .net
点検グループって何人くらいいるんだろう。入力校正とは違う苦労がかなりあるんだろうな。
350:無名草子さん
22/10/01 22:35:05.14 .net
>>347
『殺生谷の鬼火』の話がよく分からん
ブラウザで見てもテキストファイルで見ても三点リーダーだし
「・・・」っぽく見えるか「...」っぽく見えるか、みたいな話?
351:無名草子さん
22/10/01 22:48:14.68 .net
>>349
私の知る限りすくなくとも5名はおられる。
352:無名草子さん
22/10/01 22:54:02.86 .net
↑何かへんな書き方になってしまった
以前、ここだったかおーぷんだったかで
中の人はふたりくらいしかいないのではないか(二人としかやり取りしたことがない)というレスを見たことがあったから
それよりは多いよ、という意味であって、すくなくとも五人もいるのだから十分だという意味ではないよ
ほんとうはまだほかにもいらっしゃると思うし
こなす作業量と苦労の数々からしたら少数精鋭の極み、とても大変だと思う
353:無名草子さん
22/10/01 22:55:33.61 .net
sage忘れた……
354:無名草子さん
22/10/01 23:07:06.88 .net
>>350
ありがと
テキストビューアーはうっかり忘れてました
見てきます
355:無名草子さん
22/10/01 23:34:49.79 .net
殺生谷の鬼火 山本周五郎
確認しましたが元テキストから三点多用されていたようです
お騒がせしました
URLリンク(www.aozora.gr.jp)
356:無名草子さん
22/10/02 00:10:53.85 .net
この間の「新文化」の記事には「現在の運営メンバーは6、7人」と記載があります。
357:無名草子さん
22/10/02 02:48:04.19 .net
>>356
そういえば>>137で気になってたのに買うのすっかり忘れてたわ
ファミマでプリントしてきた
サンクス
358:無名草子さん
22/10/02 14:58:22.70 .net
( ^ω^)あ~お~ぞ~ら う~ん~ ?
359:無名草子さん
22/10/02 15:48:21.83 .net
連絡遅いのはしょうがないからどうでもいいけど、連絡来ないと次の入力や校正の申請していいかどうか分からないのよね
連絡来ない状況で新規に申請したところで受付の負担を増やすだけなんだけど
360:無名草子さん
22/10/02 16:50:52.86 .net
だいたい青空文庫の話題が出るときって「青空文庫で読めるおすすめ作品!」みたいなのが多いのにここだけは工作員多くてなんか面白い
361:無名草子さん
22/10/02 18:33:51.76 .net
ネット掲示板見るかどうかとか抜きに対象者が少なすぎるので、長期間書き込みがなくても落ちないスレくらいしか作業関連の相談や雑談が出来る場所がないんですわ
Twitterとかでもいいんだけど、名前が出た状態で交流しようとすると
「(青空文庫関係かどうかに関わらず)相談に乗ってもらったから、恩返し代わりにこの人の校正やった方がいいかな」
みたいな気遣いも出ちゃって交流が密にならない懸念もある
362:無名草子さん
22/10/02 21:20:30.82 .net
>>359
自分はいつも完了前に次の校正申請と底本画像送ってるな
入力は断られたり被ったりしそうもない作品しかやらないから、申請前に着手することもある
作業できる余裕があるときに、待ちの期間をなるべく作りたくないもんで
363:無名草子さん
22/10/02 21:51:07.82 .net
>>362
ワイも
作業はじめた後で断られることがあるとしても
ルール違反をしているのは自分だから
自業自得と割り切ってる
ワイも申請するのは(作業人気度的には)マイナー作家だから
実際断られたことはないですが
364:無名草子さん
22/10/02 21:53:02.43 .net
>>358
こ
365:無名草子さん
22/10/02 22:11:29.07 .net
入力申請が被るのは分からないでもないけど、それと別枠で断られることってあるの?
366:無名草子さん
22/10/02 22:21:33.85 .net
>>362,363
ロシアンルーレットしてる様でドキドキしますね
367:無名草子さん
22/10/03 05:55:07.11 .net
>>365
とある作家さんの和歌を一首だけ作業しようとした(全集等が刊行されてないマイナーな作家)ら、文化財指定されている短冊の翻刻(豊臣秀吉等)の例外を除き、和歌や俳句の1作品のみでの登録はページ数や作業量の関係上認められない、って感じで断られたことあるよ
368:無名草子さん
22/10/03 08:38:45.27 .net
>>367
詩は原則詩集単位で収載という基準の亜種ってところかね
369:無名草子さん
22/10/03 14:21:32.01 .net
一々、入力・校正w
そら、時間がかかる。
370:無名草子さん
22/10/03 19:56:45.82 .net
>>368
その基準をクリアするために例えば『藤野古白句集』は
一度同人誌として句集を編纂して刊行した後に、その刊行した同人誌を底本として、その同人誌を編纂した編集著作権者が著作権存続作品として青空文庫に収録する
という形を取ってるな
371:無名草子さん
[ここ壊れてます] .net
>>370
荒業!
372:無名草子さん
[ここ壊れてます] .net
同人誌を出す難易度が
373:無名草子さん
22/10/03 22:48:37.13 .net
ジャンルや利害が合致すれば載せてくれる既存の文藝同人サークルに出会えるかもしれない
やったことないから分からんけど
374:無名草子さん
22/10/04 00:20:12.08 .net
どんな程度の同人誌ならOKなんだろうな
底本よりも親本がしっかりしてないとダメそうだが
375:無名草子さん
22/10/04 00:21:26.80 .net
親本というか
初出情報がはっきりしているというか
376:青空文庫アクセスランキング
22/10/05 22:45:03.13 .net
2022年9月
XHTML版
URLリンク(www.aozora.gr.jp)
テキスト版
URLリンク(www.aozora.gr.jp)
377:無名草子さん
22/10/06 01:08:06.08 .net
めちゃくちゃ変則的な組版を前に途方に暮れたりしたことある?
いままでの公開作品のなかで一番変態な組版の作品ってどれなんだろ
378:無名草子さん
22/10/06 09:00:07.60 .net
ホワイトブレッド作品の図版入りの多さは異常
偉い!
379:無名草子さん
22/10/06 23:46:49.03 .net
>>286
『アイヌ神謡集』のXHTML版のアクセスランキング見てみたけど
1月 250位 748アクセス
2月 159位 924アクセス
3月 295位 585アクセス
4月 147位 983アクセス
5月 144位 1,075アクセス
6月 175位 948アクセス
7月 227位 869アクセス
8月 236位 767アクセス
9月 66位 2,240アクセス
確かに前月の3倍近いアクセス数だし今年の他の月で一番多い5月と比べてもダブルスコアだな
380:無名草子さん
22/10/08 07:59:19.07 .net
【「100分de名著」出演】「ゴールデンカムイ」アイヌ語監修者が教えるアイヌ文学「不朽の名著」その本当の魅力
URLリンク(news.yahoo.co.jp)
9月のNHK・Eテレ『100分de名著』では、4週にわたって、知里幸恵(ちりゆきえ)さんが遺した
『アイヌ神謡集』(岩波文庫)が取り上げられました。解説を担当されている中川裕さん
(千葉大学名誉教授)は、大人気漫画『ゴールデンカムイ』のアイヌ語監修を務め、
好評発売中のヤマケイ文庫『アイヌと神々の物語』『アイヌと神々の謡』(山と溪谷社)の
推薦者でもあります。あらためて、アイヌ文化の魅力と関連書籍の楽しみ方について聞きました。
381:無名草子さん
22/10/08 14:44:43.40 .net
アイヌの回全部見たけれどよくわからなかったな
若くして亡くなったアイヌ女性の話が少しとアイヌ神話の解説に終始したよ
382:無名草子さん
22/10/08 17:45:59.42 .net
めちゃくちゃ今更ながら曇天文庫が終わってたというかYahooが終わらせていたことを知ってめちゃくちゃ悲しい
383:無名草子さん
22/10/09 20:29:06.94 .net
今日偶然知ったけど芥川龍之介の『羅生門』の最後の一文って改稿されてるんだな
『羅生門』の「最後の一文」は一度改稿されていた! 名文が多い小説の“ラスト”を楽しむ方法 | ダ・ヴィンチWeb
URLリンク(ddnavi.com)
>下人は、既に、雨《あめ》を冐《をか》して、京都の町へ強盗を働きに急いでゐた。
URLリンク(www.aozora.gr.jp)
>下人の行方《ゆくえ》は、誰も知らない。
URLリンク(www.aozora.gr.jp)
384:無名草子さん
22/10/09 21:09:15.14 .net
下しか知らんかった
385:無名草子さん
22/10/09 22:05:27.05 .net
昔、教科書で習ったのも下だった
386:aozorablog
22/10/09 22:15:47.56 .net
青空文庫’22/08月-’22/09月の月間アクセス増率分析
URLリンク(www.aozora.gr.jp)
387:無名草子さん
22/10/09 22:20:10.16 .net
>>383
落として読むリストに入れてたけれど知らなかった
ありがとう
388:無名草子さん
22/10/09 22:23:39.05 .net
知里幸恵ってアイヌとして生まれて和人の教育を受けて
クリスチャンとして西欧文化にも馴染んで
そうした女性だったからこそ「アイヌ民謡」を
普遍的な文学作品として残せたんじゃないかって思う。
病身で若くして亡くなった薄幸の女性ではあるけど
家族に宛てた手紙とかには茶目っ気たっぷりの
愛らしい姿が見受けられる。
まさかプライベートな日記や手紙が後世
青空文庫で公開されるとは思ってなかったろうけど。
389:無名草子さん
22/10/09 22:25:50.32 .net
> まさかプライベートな日記や手紙が後世
> 青空文庫で公開されるとは思ってなかったろうけど。
凡人に生まれてよかったと今心から思ったw
390:無名草子さん
22/10/09 22:32:38.67 .net
山周、山周、雨、山周だよ
どうなっとんじゃワレ~
391:無名草子さん
22/10/09 22:38:54.94 .net
今月のアクセスランキングテキスト版
1位から14位まで山本周五郎独占かと思いけや
9位に「独居雑感」やるな、永井荷風、山周旋風を阻止するとは
392:無名草子さん
22/10/09 22:44:06.06 .net
死んだらそれで終わりだから
後世に残るというのはそれだけで凄い
ただNHKの特集は面白くなかった
393:無名草子さん
22/10/09 23:16:26.30 .net
>>389
油断するな「二十歳の原点」の高野悦子だって生前は一大学生だからな
若い時に読んで衝撃を受けて当時書き綴ってた日記のディスクを
フォーマットしたんだけど今になってみれば
一応残しとけば良かったなんて思ってもいる
394:無名草子さん
22/10/09 23:42:53.21 .net
芥川龍之介の遺書は「右の条件の実行せられたる後は火中することを忘るべからず。」と書いたのに
内容(本文)はちゃっかり後世に残されてる(青空文庫にも収録)上に更に遺書も普通に残存してる
そりゃ他人からすれば内容も原本も残ってたっていいし死人に口無しだけど本人的にはどうなんだろうな
395:無名草子さん
22/10/09 23:49:13.26 .net
死んでも死にきれないw
396:無名草子さん
22/10/10 00:10:56.44 .net
死んだら全て終わりだから関係するのは生きている間のみ
あの世あるとかは心のよりどころなだけ
だが弱ってるときは頼りにするし付きあいの潤滑剤にもなるので宗教ってすごいね
397:無名草子さん
22/10/10 02:36:15.34 .net
逆に日本画家の奥村土牛の子供が相続税を増やしたくないからとデッサンを焼却処分するなんてエピソードもあるし
398:無名草子さん
22/10/10 07:06:28.96 .net
>>394
芥川の場合はそれすらもポーズというか演出で
絶対に後世に残ることを意識して書いてる気がする。
自らの死に対しての演出という点では芥川とか太宰とかは特に
周到に準備していて生き様自体をひとつの作品として
残したかったのではなかろうか。
399:無名草子さん
22/10/10 13:20:40.96 .net
日記も人が読むことを前提に書いているものが多いな。
もっとも、元々家の覚というルーツを考えれば、それが本来なのかもしれないが。
400:無名草子さん
22/10/10 14:49:14.54 .net
日記を外部に見せる予定のない個人的な備忘録と考えても、本人すら忘れてる時に中身を確認することになるんだから、何も知らない赤の他人でも読めるような書き方になっててもおかしくないわな
401:無名草子さん
22/10/10 14:55:50.50 .net
去年田辺聖子の女学生時代の日記が出版されたけど、自分の友人に日記を読ませて感想を聞いたりしてるんだよね
まあ読ませても大丈夫なところだけと書いてるけど
作家を生業にしようというくらいの人って、いつも読者を意識してるんだなと思った
アンネの日記のアンネも後年出版するつもりで書いてた日記があった
402:無名草子さん
22/10/10 15:07:31.04 .net
石川啄木は、遊郭等での女遊びの詳細を妻に読まれたくなくてローマ字でこっそり日記に書いてたなぁ
(すさまじい内容だから、青空文庫に入れる猛者は現れるのか……?)
403:無名草子さん
[ここ壊れてます] .net
ローマ字日記が全集とかに普通の漢字かな混じり文で収録されてて、編集後記とかに「誰々が(または編集部が)日本語表記に改めました」とあったら編集者や翻訳者としての著作権が発生するんだろうか
404:無名草子さん
[ここ壊れてます] .net
>>403
耕作員のサガで草
405:403
22/10/10 16:49:35.59 .net
近所の図書館に確認しに行ったけど『啄木全集 第六巻 日記(二)』(筑摩書房、1967年12月25日初版第1刷)にはローマ字の原文と漢字かな混じり文の両方が載ってた
解題に「本巻の校訂は石川政雄氏と筑摩書房編集部が主としてこれにあたり、……」と書いてあるが誰が漢字かな混じり文を担当したかは分からぬ
まぁ編集部名義だけなら公開後50年で通せたけど大人しくローマ字の原文だけ入力すりゃいい話か
まぁ今入力申請したらここ見てると思われちゃうな
406:無名草子さん
22/10/10 18:31:48.23 .net
ここみてると思われても問題なくない?
ここは紳士淑女のスレだし
407:無名草子さん
22/10/11 09:59:36.75 .net
左付きルビってXHTML非対応?
408:無名草子さん
22/10/11 13:01:22.77 .net
>>407
こんな感じらしい
>[#「開‐柘」の左に「ヒラキ」のルビ]
坂本龍馬 海援隊約規
URLリンク(www.aozora.gr.jp)
>[#「天皇」の左に「オホキミ(?)」のルビ]
折口信夫 橘曙覧評伝
URLリンク(www.aozora.gr.jp)
409:無名草子さん
22/10/11 18:17:25.02 .net
( ・∀・)へぇー
>スメラギ[#「天皇」の左に「オホキミ(?)」のルビ]
こういう注記(ハテナ注記)もはじめて見た。
古い(といっても8年前)テキストファイルのようだから注記も古いのかもしれないが
今だったら「判読不可」になるんじゃないかと思われるが
410:無名草子さん
[ここ壊れてます] .net
昔のように漢字にカタカナの原型の漢字ルビ付けてるのを青空文庫で見たいな
既にあるなら良いんだけど
411:無名草子さん
22/10/11 19:24:32.71 .net
>>409
国立国会図書館デジタルコレクションで公開されてるやつでも「天皇」の右に「スメラギ」、左に「オホキミ(?)」とあるから
引用文が書かれた当時の読み方が正確には分からないから2種類ルビ振りました的な話じゃないかな
橘曙覧評伝 - 国立国会図書館デジタルコレクション
URLリンク(dl.ndl.go.jp)
412:無名草子さん
22/10/11 19:56:15.47 .net
なるほど、
元々のルビが「(?)」と表記されてるケースなんだね
そういうのもあるのか
自分だったらどうするだろう、
小心者だからファイル末に「(?)は底本通り」と書いてしまうかもしれん
413:無名草子さん
22/10/11 19:56:37.81 .net
>>411
ありがとう
414:無名草子さん
22/10/11 20:01:19.21 .net
>>412
そもそも仮に入力者、校正者、点検者が本文内に本文以外の文字を書き込む(打ち込む)なら
[#「○○」はママ]
みたいな注記スタイルになるはずだしな
415:無名草子さん
22/10/11 20:46:39.11 .net
>>410
多分だけどFAQの「Q:変体仮名(万葉仮名)が底本で使われていました。どうしたらよいでしょうか?」に引っかかってそのままでは載ってなさそう
青空文庫編 青空文庫FAQ
URLリンク(www.aozora.gr.jp)
416:無名草子さん
22/10/11 21:07:51.92 .net
>>415
もう一声!
へんたいする以前の漢字に漢字ルビのやつがデジタル画面で綺麗に見たいなという素朴なネタでした
417:無名草子さん
22/10/11 21:32:27.95 .net
大正時代に出た『変態性欲』って雑誌が青空文庫入りせんかな
418:無名草子さん
22/10/11 21:55:02.98 .net
稲垣足穂ネタ引きずってすまん
文庫本読むの面倒になって楽天koboで500円割引あったのでこっちで買って読んでる
スマホで読みやすい文字サイズで読むのほんま楽
419:無名草子さん
22/10/11 22:00:38.75 .net
スレ違い
420:無名草子さん
22/10/11 22:21:41.66 .net
ちなみに石川啄木「詩」に載ってる「一年ばかりの間、いや一と月でも」から始まる無題の詩は、『ローマ字日記』の明治42年4月10日の記述が初出らしく、初音ミクの楽曲にもなってるっぽい
421:無名草子さん
22/10/12 00:00:28.87 .net
>>417
復刻版を買って入力しよう!!
不二出版 : 変態性慾 〔大正11年~14年〕 全6巻・別冊1 〔復刻版〕
URLリンク(www.fujishuppan.co.jp)
422:無名草子さん
22/10/12 11:33:29.99 .net
今月の「100分de名著」がちょうど折口信夫だけど
先月の知里幸恵よりちょっとかたい感じがする
アクセス増率的にはどうだろう
423:無名草子さん
22/10/14 17:25:03.65 .net
>>431
是非やってくれ
424:無名草子さん
22/10/14 18:44:36.63 .net
>>423
入力申請と底本画像送って、メール待ち
校正は8月辺りに全部送ったけど、まだ受け取りのメールが届いてない(いちおう届いてはいて確認中との事)
425:無名草子さん
22/10/14 18:56:24.04 .net
俺も送って1ヶ月以上経ってるな
まぁそれでなくても分量がそこそこあるので気長に待ってる
426:無名草子さん
22/10/14 19:35:08.51 .net
入力作品だけ送って校正作品は入力のが返事来てからでいいかと思ったけど公開のことも考えたら逆が良かったかな
今追加で送るのは流石に迷惑だろうけど
427:無名草子さん
22/10/14 20:17:38.23 .net
お忙しいのね……
428:無名草子さん
22/10/16 13:49:04.51 .net
OCR使っても校訂は苦行に近い
まるで写経しているかのようなご利益がありそう
429:無名草子さん
22/10/16 18:04:39.51 .net
それゆえに間違い見つけたとき、お宝見つけたような醍醐味を得られるんやで
430:無名草子さん
22/10/16 18:08:51.62 .net
最終的には目視が重要とはいえ、OCR校正がより効くのはやはり手入力ファイルなんだろうな。
OCR入力 VS OCR校正だと、校正用比較ファイル作る手間のほうが大きそうに思える。
特に近年のはOCR入力増えてるだろうし。
431:無名草子さん
22/10/16 18:37:13.04 .net
元の文章が手入力かOCRかに関わらず簡単な誤字は「校正ツール2.0化ひとりプロジェクト」で解決しそう
432:無名草子さん
22/10/17 23:17:47.80 .net
お前ら今日も校正してるか~?
433:無名草子さん
22/10/18 01:14:04.83 .net
新着に岡本綺堂が来てる
うれしー
434:無名草子さん
22/10/18 07:30:45.92 .net
今日公開の尾崎士郎の小説『風蕭々』、1889(明治22)年10月18日に来島恒喜が当時外務大臣だった大隈重信に爆弾を投げた事件が元ネタなのか
大隈重信は右足を切断することにはなったけど生き残って来島恒喜は殺害に成功したと思って自殺したんだよな
435:437
22/10/18 08:04:32.13 .net
校正と校訂を間違えた
青空文庫の工作員に求められるのは校正ですね
【校正】
1. 文字、文章をくらべあわせ、誤りを正すこと。きょうせい。校合(きょうごう)。
2. 印刷物を印刷する前の過程で、校正刷りを原稿に照らし合わせて、誤りを正すこと。また、校正刷り。「校正が出る」
【校訂】
書物の文字、語句などの誤りをなおすこと。特に、古書の本文をいろいろの伝本と比べ合わせて誤りを訂正すること。校。
436:無名草子さん
22/10/18 08:17:40.44 .net
その辺は>>277あたりでも話してる
437:無名草子さん
22/10/18 18:40:17.05 .net
ネタバレか?
438:無名草子さん
22/10/18 18:50:55.50 .net
>>435
とはいってもやはりある程度、「この漢字遣いは今まで見たことないけど、正しいのだろうか?」っていうのは念のため確認しちゃわない?
(これは本来校閲、校訂にあたる作業)
439:無名草子さん
22/10/18 18:52:15.99 .net
必要によってはママ注記することになるし
440:無名草子さん
22/10/18 19:17:04.51 .net
ここでいう「校訂」って、記念館にあるような直筆原稿と見比べて初出誌以降の刊行物の誤植を指摘したり、品詞分解して文法的な誤りを訂正したりするような研究然とした話であって、
「底本通りだけど青空文庫の作業過程で誤植が発生したと思われるかもしれないから」とママ注記するのは青空文庫の校正作業の延長でしょ
441:無名草子さん
22/10/18 19:49:24.30 .net
うん、言わんとすることはわかる
ただ、前に出たコメントの流れで言うと
ママ注記は校正の範囲だけど
底本では○○注記になると校訂校閲に近くなるわけよね
そこの境目の見極めが難しいというか
ウィキソースがやってるようなむやみやたらなママ注記乱発は青空文庫ではやってないし
明らかな誤植を除いて、本当にママ注記の対象とするかっていうのは耕作員の匙加減みたいなところない?
442:無名草子さん
22/10/18 19:51:49.67 .net
入力も校正も、自分はわりとその点にに力と時間を割いてる感がある。
443:無名草子さん
22/10/18 19:59:15.65 .net
「これは誤字だ!」と思うか「これは誤字か?」と思うか「珍しい表記方使うねぇ」と思うか何も思わないかは各工作員の知識や教養や感受性次第だからなぁ
444:無名草子さん
22/10/18 20:10:58.92 .net
ママ注記って点検ではどれくらい修正されるんだろう
445:無名草子さん
22/10/18 21:07:31.40 .net
今日公開のやつにママ注記あるかなと思って検索したら
>貴様にはまた[#「また」は底本では「まだ」]別に命を捨てるに適当な時期がある、
>※誤植を疑った箇所を、底本の親本の表記にそって、あらためました。
とだけあった
入力者は底本の親本(旧字旧仮名のもの)も入力しているようだから気付けたのだろう
今月公開の他の作品だと『現代語訳 平家物語』には(どっちも尾崎士郎だな)
>与三左衛門|影康《かげやす》[#「与三左衛門影康」はママ]、
という注記もあった(※ググった限りだと一般的には「与三左衛門景康」か「与三左衛門景安」らしい)
446:無名草子さん
22/10/18 21:22:54.16 .net
なにそれかっこいい/////
447:無名草子さん
22/10/18 21:57:50.95 .net
僕とフリオと校訂で
448:449
22/10/19 00:12:56.40 .net
>>441
確かにそれはそう
レアケースになるけど、例えば>>445の前者みたいに旧字旧仮名の本が新字新仮名で再刊されているような場合については
{新/旧}字{新/旧}仮名の別があれば同じ作品を収録できるというルールを使って、旧字旧仮名と新字新仮名を両方収録して
その中で差異があれば青空文庫内の整合性のために、間違ってそうな方に(これもあやふやだな)「○○は底本では××」注記を入れるということもできなくはないかな
対象となる作品(あるいは作家)は限られるだろうし、それでなくても本文が旧字旧仮名のままで再刊されるという可能性だって十分あるけど
結局は入力者(場合によっては校正者)次第なのかな
449:449
22/10/19 00:31:21.41 .net
色々考えたけど色々考えた故に思考が取っ散らかって訳の分からない返事になってしまった気がする
すまぬ
450:無名草子さん
22/10/19 06:24:51.03 .net
今日も山周・・・
451:無名草子さん
22/10/19 08:58:49.76 .net
死ねよヤマシュウ
452:無名草子さん
22/10/19 09:52:30.85 .net
とっくに
453:無名草子さん
22/10/19 12:46:57.02 .net
何度も書き込んでるけど普通に入力校正作業した工作員に対する侮辱だよな
454:無名草子さん
22/10/19 13:02:41.27 .net
>>453
わかる
字面通りに読めばその通りだ
わかるが、
山周を敬愛していた富田さん、山周、それぞれへの一種の愛着や親しみを込めた、ここならではの山周ジョークとも言える
山周大杉→山周○ね→既に○んでますが
までがセットの
455:無名草子さん
22/10/19 13:08:55.88 .net
いわばイジリだな。
いじめじゃないよイジリだよ~が当事者に通用しないのとおなじで
言われて快く思わない耕作員がいるかもしれんのは否定しないよ
456:無名草子さん
22/10/19 17:54:36.06 .net
全く面白くない
457:無名草子さん
22/10/19 18:10:13.76 .net
へぇ
458:無名草子さん
22/10/19 18:25:10.03 .net
山本周五郎が公開されるまでは生きたいと言って闘病生活を送っていた富田氏に絡ませた上で死ねだの死んでるだのと言うのが愛着故の発言とは到底思えない
459:無名草子さん
22/10/19 18:33:07.67 .net
おーぷんのほうじゃフリーOCRに旧仮名学習させる話してるぜ
不毛な会話やめて有意義な話しよう
460:無名草子さん
22/10/19 18:39:37.13 .net
俺が最近思ってるのは、注記の実例集みたいなのできたらいいなって
もちろん点検グループさんにこれ以上負担はかけたくないから
公式に伺いをたてながら有志を募ったり何らかの形で
FAQや入力校正作業手引きで
「この場合こうする」っていう大まかなことはわかるけど
実際作業してみると、手引きで見たことないケースに遭遇することもある
前例をあたるのを楽にする実例集ね
461:無名草子さん
22/10/19 18:45:46.37 .net
人の作業に文句言ってる訳だから感心しないよな
何もせずに文句たれるくらいなら山周ラッシュは俺が終わらせてやるくらいの気概を見せてくれたほうがかっこいい
山周だって公開が続けばいつかは新着がなくなるわけだし、次期山周の座を狙うくらいにがんばってくれ
462:無名草子さん
22/10/19 18:46:03.52 .net
もちろん個人が外部サイトでやってもいいのだろうけど
「こういうケースで、こう注記した、こう注記するよう指導もらった」等の情報は個人だけで持っててももったいないな、
共有できたら良いなと思ったんだよね
そういう意味で有志で力と知恵、経験を合わせられればと思ったんだ
463:無名草子さん
22/10/19 19:03:05.54 .net
青空文庫入力校正攻略wiki
464:無名草子さん
22/10/19 19:20:05.76 .net
>>463
良いね
465:無名草子さん
22/10/19 19:48:09.66 .net
wiki記法も覚えなきゃだ
466:無名草子さん
22/10/19 20:09:16.65 .net
スレ違いだったらすまないのだが
くの字点と言いながら、横書きのテキストデータでは「く」の字と山が逆向きの/\が使われることにいつも違和感を覚えるんだ
なぜ\/が採用されなかったのかな
(これもこれで見慣れないぶん違和感あるが)
基本的に横書きでは用いられない文字なのだよね
それとも横書きで使われている底本ってあるのだろうか
467:無名草子さん
22/10/19 20:34:46.57 .net
文字コードでは、「/」(に似た形状の記号)を「くの字点上」、「\」(に似た形状の記号)を「くの字点下」としているからそれに順番を合わせているんだと思う
Wikipediaの「踊り字」のページ参照
468:無名草子さん
22/10/19 21:16:09.86 .net
そうかそういうことなのか
Unicode文字のくの字上と下は見たことあったがセットで並べる固定観念から横組みになるところしか想像してなかった
長いくの字を上下に分けたものを、順番どおり前後(左右?)に並べた結果、山が逆に見えるというわけだね
長いくの字が横になることしか考えてなかった
これからは、/\に対する見方がかわるなあ
どうもありがとう
469:無名草子さん
22/10/19 21:17:19.19 .net
横組みというか、横
説明へたでごめんなさい
470:無名草子さん
22/10/19 21:19:19.85 .net
表を底本のスキャン画像ですますか、ちゃんとエクセル等で入力し直すか迷う
せっかくだから綺麗にしたいけど、もし画像に力ミスがあったら校正の人の作業が大変になるよな
471:無名草子さん
22/10/19 21:27:32.81 .net
両方送ろう(無責任)
それはそれとしてページを跨いでる図表って扱いに困るよね
472:無名草子さん
22/10/19 21:30:28.83 .net
むしろ表の作り直しっていうのも有りなんですか。
表つきの作品を作業したことも読んだこともまだないので知りませんでした。
どんなふうか見てみたいです。
473:無名草子さん
22/10/19 21:33:54.50 .net
校正待ちの作品が3000件以上あって、古いもので2003年から待ち状態になってるみたいだけど、どういう作品が放置されがちなのかな?
2003年からほったらかしとか少し可哀そうなんだが、同情したらダメな感じ?
474:無名草子さん
22/10/19 21:55:14.04 .net
2005年以前から校正待ちの作品一覧
佐藤紅緑『あゝ玉杯に花うけて』…133,444バイト(※旧字旧仮名)
范曄『後漢書 皇后記』…11,782バイト(※なぜか底本情報がない)
范曄『後漢書 光武伝』…60,748バイト(※なぜか底本情報がない)
宮本百合子『書簡・書簡補遺』…350,117バイト
宮本百合子『婦人と文学(初出稿)』…113,002バイト
宮本百合子『湯浅芳子宛書簡』…341,209バイト
森本六爾『日本農耕文化の起原』…117,150バイト(※旧字旧仮名)
山路愛山『勝海舟』…152,519バイト(※唯一の点検済み)
※サイズは、zip圧縮をかけたテキスト版のもので、単位はバイト(byte)です。
この値を1000で割ると、キロバイト(KB)に換算できます。
解凍後はおよそ、倍の大きさになります。
みんなで校正待ちを解消しよう!!
475:無名草子さん
22/10/19 22:13:33.17 .net
点検前のものは申し込めなくない?
できちゃうの?
476:無名草子さん
22/10/19 22:15:00.07 .net
圧縮して半分になってるっぽいけど全角1文字で2バイトになるから書かれてるバイト数≒文字数になるのかな
書誌情報も込みのバイト数だろうけどまぁ誤差だろうし、となると後漢書以外は全部10万字以上の作品になるのか
文庫本は1ページあたり600字だから本文が10万字だとしても文庫本167ページ分くらいか
477:無名草子さん
22/10/19 22:16:23.60 .net
山路愛山のは点検済んでることだしずっと気になってた
しかしこれはスキル的にはもちろんボリューム的にも自分にはなかなかにハードルが高いと感じて手が出せないでいる
478:無名草子さん
22/10/19 22:19:52.21 .net
それに点検が昔すぎて注記形式とか変わってるはずだから、もしかして再点検されるのかな
479:無名草子さん
22/10/19 22:24:04.46 .net
>>475
点検前のものは点検作業が完了してから校正申請を受理する(「校正待ち」から「校正予約」の状態になる)というだけで校正申請が不可というわけではないはず
480:無名草子さん
22/10/19 22:25:37.46 .net
「ご注文内容によってお出しする順番が前後する場合がございます。」みたいなものか?
481:無名草子さん
22/10/19 22:27:13.69 .net
いつかは誰かが点検しなければならないとはいえ点検さん大変だな
482:無名草子さん
22/10/19 22:32:59.21 .net
校正の予約はないけどすぐ点検済みになるのと
校正申請されるまで点検前状態で待機になるのがあんのね。
483:無名草子さん
22/10/19 22:35:05.65 .net
>>480
これだね
484:無名草子さん
22/10/19 22:46:47.21 .net
インターネッツ時代になってかれこれ20数年余
著者だけではなく工作員が人知れず鬼籍に入っていてもおかしくない年月
485:無名草子さん
22/10/19 23:11:50.99 .net
自分はもし死んだときのために
うちの家族にその後の手続きを頼んである
死んだ旨を伝えること
未完成であっても作業ファイルの最新版を青空文庫に送ってもらうこと
どこまで作業したかがわかるメモ(たとえば何回目校正までやった、とか)も作品ごとに書いているのでその内容も伝えること
幸いまだそのときは来てない
486:無名草子さん
22/10/19 23:13:17.05 .net
じゃないと、誰かから引き継ぎ交替申請が来るまで
作業中作品が死蔵状態になっちゃうから
487:無名草子さん
22/10/19 23:35:26.45 .net
>>482
最近耕作員になっていくつか入力したけど、自分の入力作品は受領メールが来た翌日には校正待ちの点検済み扱いになってるから、恐らくある時期を境に(自分が耕作員を始める前に)原則として入力ファイルを受け取った時点で点検まで終わらせるように方向転換したんだと思う
それで次々に届く新しい入力ファイル(つまり点検前の作品)を点検してて、昔の点検前の作品は校正申請が来るまでは手を着ける余裕がないのかなと思う
488:496
22/10/20 00:04:43.29 .net
作業状態を年別で見ると最近の点検前は何人かに絞られてるし、恐らく点検グループのメンバーとかが入力してる作品が中心なんだと思う
他のボランティアを優先しようぜ的な感じで
他の理由があるかもしれないけど
青空文庫の作業状況
URLリンク(yozora.main.jp)
※下の方に載ってる
489:無名草子さん
22/10/20 10:38:04.27 .net
>>460、471
自分も欲しいし、実例出しに協力したい
前例探すために青空文庫の全文検索をよくやるんだけど
底本がどうなっているかわからないから確信が持てないんだよね
490:無名草子さん
22/10/20 22:15:49.81 .net
いまいち使い方知らないから的外れなこと言ってるかもしれないけどGitHubにある青空文庫のデータ一式から注記の箇所だけ抜き取ったりできるんじゃないの?
491:無名草子さん
22/10/20 22:52:33.41 .net
500
492:無名草子さん
22/10/21 06:40:35.36 .net
問題は、その注記が為されたとき底本がどうなってるかなんだよね。
底本画像の部分切り取り画像とセットになってはじめて役に立つ感じかな。
493:無名草子さん
22/10/21 06:41:26.80 .net
>>489
うん、まさにそれ。
494:無名草子さん
22/10/21 12:28:51.85 .net
今日公開された作品の注記はこんな感じだな(※別にここでシリーズ化するつもりではない)
江戸川乱歩『暗黒星』
>できなかったが。[#「できなかったが。」はママ]
(句点ではなく読点が正しいのだと思う)
尾崎士郎『早稲田大学』
>高田早苗《たかださなえ》[#ルビの「たかださなえ」はママ]
(正しくは「たかたさなえ」らしい)
>民間に[#「民間に」は底本では「民間の」]
>自刃した[#「自刃した」は底本では「白刃した」]
(底本の親本に合わせたものらしい)
495:無名草子さん
22/10/21 12:43:06.67 .net
複製権や編集著作権で概ねカバーできるとはいえ出版物原版権(印刷物のレイアウトなどに関する著作権、いわゆる版面権)って法整備されてないんだよな
496:無名草子さん
22/10/21 12:47:54.96 .net
そうなのか
うーん、そうなると攻略wiki立ち上げは、たとえ青空文庫本体とは別運営するとしても難しいかな?
青空文庫のスタンスは、グレーは黒とみなす厳密さだからなぁ
497:無名草子さん
22/10/21 15:40:11.38 .net
底本画像そのものじゃなく底本を模して自分で作ったものだったり
NDLにある場合はそのリンクだったりでも駄目かなあ
498:無名草子さん
22/10/21 17:23:03.47 .net
国立国会図書館デジタルコレクションに所蔵された作品は青空文庫化の需要はないの?
底本の写真画像だけだと文字列検索できないから少しは需要あると思ったんだけどなあ
499:無名草子さん
22/10/21 17:41:51.64 .net
需要があるかは知らないけど、自分はデジコレで読める作品を中心に入力作業してるよ。
デジコレを底本にしてるのは古い本でも校正しやすそうだからだけど
現状デジコレは快適に読書できるUIではなく、
デジコレ本を高精度のocrでテキスト化した次世代デジタルライブラリーも、今のところ全文検索には役立っても読書のためのものではない
デジコレは無料で貴重な本を読めてたいへんありがたいサービスけど、実際あそこで読書するのは厳しい。デジコレでは読まなくても青空文庫化したら読む人はいるだろうね。
気軽に読むには青空文庫のようにもっとテキストを整形しないと難しい。だからどんどんやろう。
500:507
22/10/21 19:13:20.56 .net
>>499
情報ありがとう
次世代デジタルライブラリーの存在、知らなかった
501:無名草子さん
22/10/21 19:27:21.88 .net
>>497
むしろ底本を模すのが駄目だからこそ著作権者が明確な文章の部分のみを電子テキスト化して公開してるんだが……
(逆に著者の死没も著書の刊行も1967年12月31日以前で著作権保護期間満了のものはうわづら文庫が画像で公開してる)
502:無名草子さん
22/10/22 16:02:31.67 .net
むしろデジコレ公開作品のテキスト化(単純なOCR化ではない)こそ積極的にやるべきだよな
503:無名草子さん
22/10/22 16:04:54.11 .net
>>502
正確にはテキスト化じゃなくて電子テキスト化だった
504:無名草子さん
22/10/22 22:16:57.36 .net
次世代デジタルライブラリーの文字起こしデータ、市販の読取革命よりはOCR精度が高いのかな、とは思うけど、
それでもやはり人間が読むためのデータじゃなくて計算機に検索されることに特化してる感じはする
505:無名草子さん
22/10/22 22:24:39.53 .net
Google booksとかも割と滅茶苦茶だからな
そりゃ調べものがあるのに検索しても手掛かりがゼロだった時代よりは十分ありがたいけど参考にしていい水準かというと……
506:無名草子さん
22/10/22 22:36:19.22 .net
google booksの本文検索は著作権保護期間内の作品も大量に扱ってるから意図的に文章をバラしてるはず
昨今のAIの進化見てると識字率も組版の再現もいい感じにしてくれる技術がそろそろ出てきていいんじゃないかと思っちゃう
入力校正まで完璧にやってくれる青空文庫ロボ来てくれ
507:無名草子さん
22/10/23 08:50:40.81 .net
日本語文献じゃないんだが『元朝秘史』という中世モンゴル語を明代初期の漢字音で転写した歴史書があるんだけど、読取革命にかけたらかなりの精度で文字起こしできていたので驚いたわ
読取革命の開発者がOCRのテスト用データに『元朝秘史』を使ったのではと思えるほどだった
508:無名草子さん
22/10/23 08:59:22.87 .net
出版物に牽引が添えられている作品は、積極的に青空文庫化してほしいよ
著作権者らが牽引の需要が高いと考えたからこそ牽引が出版物に含まれているわけで、
電子化されれば牽引を使うよりはるかに楽に検索できるようになるね
昔の人は、パソコンもないのに牽引を自力で作ったのはすごいと思う。ま、そんなこというと活版印刷した職人はもっとすごいけど。
509:無名草子さん
22/10/23 17:36:21.99 .net
アプリで読むと便利すぎる。種類もいっぱいあるから自分好みのが見つかるし
510:無名草子さん
22/10/23 18:21:26.04 .net
電子テキストの検索の弊害というほどでもないけど、昔の一般的表記と今の一般的表記が違うと検索しても引っ掛かるかどうか分からないという問題があるんだよね
511:無名草子さん
22/10/23 18:49:21.24 .net
通読ではなく拾い読みする使い方が多い歴史文書は人名や地名がどこに登場してくるかすぐに検索できるってのがかなり恩恵が大きい
512:無名草子さん
22/10/23 18:50:27.26 .net
そこは自分で検索を試行錯誤するしかないね。
513:無名草子さん
22/10/23 22:43:36.36 .net
TeX使えるようにならないかなぁ
514:無名草子さん
22/10/23 23:33:21.51 .net
>>508
牽引ってなんだろう……ってわからなくったけど
もしかして索引(さくいん)のこと?
515:517
22/10/24 07:28:51.45 .net
>>514
素で間違えてたわ、指摘ありがとう
がっつりと索引を牽引と思い込んでたし読みもケンインと思い込んでた
516:無名草子さん
22/10/24 07:34:23.45 .net
例えだけど、徳川家康のルビのふり方を徳川と家康でわけると、ブラウザなどで文字列検索した時に徳川家康でヒットしないので困るね
多少ルビの原本再現性が悪くなっても徳川と家康をわけずに徳川家康でルビ振ったほうがよさそう
517:無名草子さん
22/10/24 07:58:52.56 .net
>姓と名のルビは「夏目漱石《なつめそうせき》」のように、分割しない。
>名前と肩書、敬称なども、「千田実画伯《せんだみのるがはく》」、「内海紀伊様《うつみきいさま》」のように原則としてまとめる。
入力ファイルを「テキスト版」に仕上げるために
URLリンク(www.aozora.gr.jp)
518:無名草子さん
22/10/24 12:19:38.29 .net
「徳川《とくがわ》家康」だと「徳川家康」で検索しても引っ掛からないから「徳川家康《とくがわ》」にしようという話では?
519:無名草子さん
22/10/24 12:29:40.98 .net
>>518
イエス、イエヤス。
工作員には、検索する人の需要を意識してルビを振るセンスが求められると思ふ
520:無名草子さん
22/10/24 12:45:24.84 .net
そもそも青空文庫は著作権の切れた作品を電子書籍として金銭や会員登録などの制約なく自由に読めるようにするのが主目的であって
検索機能を使って過去の言葉の用法の変遷を調べるとか、朗読や漫画などの原作にするとか、作品の舞台となる地域や主役となる人物の宣伝の1つにするとか、読書以外のそれ以外の利用は想定内ではあるけどあくまで副次的なんだよな
副次的な利用のために本来の目的に支障が出たら本末転倒
青空文庫のルビや注記の表記法が視覚障碍者読書支援協会の表記法を踏襲したことも踏まえて考えてみると良い
521:無名草子さん
22/10/24 12:59:56.17 .net
古い辞書データ使って形態素解析すると井伊直虎の読みがイイチョクトラになってしまうのよ
522:無名草子さん
22/10/24 16:45:00.78 .net
Firefoxはルビを文字列検索できない
523:無名草子さん
22/10/24 17:22:19.84 .net
あんこ臭えが来てた
524:無名草子さん
22/10/24 23:28:49.77 .net
ブラウザ版って試読版の延長みたいなもんだしルビや注記を無視したデータベースにしたいなら青空文庫のデータを元に自分で作らなきゃ
525:無名草子さん
22/10/25 08:17:41.16 .net
堅苦しい挨拶も何なので平易な文にて失礼しますね
青空文庫の発展に尽力されているみなさんお疲れ様です
益々のご活躍を
526:無名草子さん
22/10/25 19:59:11.10 .net
ルビ問題なら青空文庫対応のアプリを色々使ってみるのもあり
中には文章から文字を範囲選択してそのまま検索できるものもあったりする
527:無名草子さん
22/10/25 20:57:58.82 .net
山本有三(1887-1974)よろしく「近頃私はルビを見ると、黒い虫の行列のやうな気がしてたまりません。」的なノリで
青空文庫のデータからルビや注記を取っ払ったミラー風サイトを作れば良いんじゃなかろうか
528:無名草子さん
22/10/25 21:11:17.75 .net
そもそも徳川家康について調べたい人が「徳川家康」のワードだけで調べて見つからないからと諦めるかっていうとそうはならない気がするのよね
「徳川 家康」「徳川」「とくがわ」「とくかは」などなど表記の違いの可能性をあれこれあたるだろう
検索利用を想定して体裁を整えてあげたものを作るまでする必要あるのかなあ?って思った
529:無名草子さん
22/10/25 21:12:45.80 .net
スレチだったらごめん。
530:無名草子さん
22/10/25 21:58:05.94 .net
1つの単語のルビを集めてデータベースにしてるふりがな文庫みたいに
表記が違うけど同じ固有名詞を指してる単語のデータベースみたいなのは面白そうだな
ただこれはそれなりに知識のある人が全て目を通さないと作れないか……
531:無名草子さん
22/10/26 22:15:07.35 .net
これしか知らないから具体名出すけど「Wiki版『早稲田大学百年史』」みたいなのが理想的なのかもな
図表以外が全部テキスト化されており図表も画像で公開されているという青空文庫と同様のテキスト公開に加えて
原本の画像も公開されている(写真は著作権の都合で非公開)
あと上で出ていた要望に答えるという意味で(正直これは青空文庫にはそぐわないかもしれないが)
本文中の大学関係者の名前(本名・筆名不問)が大学の人名データベースとリンクしている機能もある
【参考】
早稲田大学百年史
URLリンク(chronicle100.waseda.jp)
532:無名草子さん
22/10/26 22:31:16.11 .net
理想的とはどの意味において?
普通のhtmlサイトと何ら変わりないと思うが……
むしろ青空文庫みたいに表示を変えたりできないから読みづらいくらいに感じるのだが
533:無名草子さん
22/10/26 22:40:14.32 .net
話の流れとしては、電子テキストと底本画像の両方が公開されてる点と、表記の異なる固有名詞を一元管理してる点じゃない?
ここ最近ずっと読書的な視点の話とデータベース的な視点の話が混同してる気がする
534:無名草子さん
22/10/26 22:42:03.78 .net
なるほどその意味か
535:無名草子さん
22/10/27 02:31:39.17 .net
いいトコどりは難し
二兎を追う者は一兎をも得ず、とかいうやらん
536:無名草子さん
22/10/27 02:39:04.05 .net
まあでもどっちもあれば助かるから両方やればいいんだよほんとは
リソースさえあればね……
537:無名草子さん
22/10/27 12:28:50.61 .net
画像データは容量がね……
538:無名草子さん
22/10/27 21:51:31.12 .net
いつも気になっているけれど
わざわざ手を取ってまで訊くことでもない気がして訊けないでいるのは点検グループさんたちは底本画像をどう保管してるのだろうかということ
539:無名草子さん
22/10/27 21:53:14.23 .net
データベースよりテキストより、サーバのほとんどが画像保存に使われてしまいそうだが
どう捻出してるのかなと
540:無名草子さん
22/10/27 22:03:39.37 .net
>>538
手を取るなんて そっそんな恥ずかしい
541:無名草子さん
22/10/27 22:30:14.34 .net
画像データのサイズなんて大したことないと思うけど
542:無名草子さん
22/10/27 23:06:57.75 .net
Twitterで大長編を共同作業しよう的な動きが出てるな
543:無名草子さん
22/10/27 23:39:13.24 .net
テキストデータなら数十キロバイトで済むものでも画像データならPDFにせよPNGにせよ数メガバイト~数十メガバイトになるけど……
最低でもルビの濁点半濁点(つまり「ば」か「ぱ」か)が判別できる程度の解像度でな
544:無名草子さん
22/10/28 00:09:58.94 .net
じゃけんみんなはよ校了させましょうね~
校了したら底本画像は削除してるのかな
545:無名草子さん
22/10/28 07:53:38.87 .net
>>544
削除してないと思う
誤植指摘の問い合わせに備えて
だから心配なんだよ
546:無名草子さん
22/10/28 12:11:37.18 .net
青空文庫FAQの誤植の指摘に関する回答では
>「やはり入力時のミスである」と確認できたものだけを、底本の該当箇所のキャプチャ画像とともにご報告いただけると、助かります。
とあるから公開した後は消してるんじゃないかな
流石に全部をクラウドストレージで残してたら無料分では賄えなさそうだしコストがヤバそう
残してたとしてもデジタルコレクションになくて点検スタッフの家の近くの公立図書館にもない本とかだけじゃないかな
547:無名草子さん
22/10/28 13:11:41.61 .net
>>543
一冊につき画像データが50MBあったとして1TBで2万冊
実際には短編も多いから平均は50MBよりはるかに少ないだろうし
その程度ならなんとかなるんじゃね
ローカルで保存して必要な時だけクラウドにあげてもいいだろうし
548:無名草子さん
22/10/28 13:15:17.42 .net
>>546
まあそのへんが妥当だと思う
特に初期は入力も校正も紙の本からというケースがほとんどだったんじゃないかな
549:無名草子さん
22/10/28 19:35:58.88 .net
誰か訊いてみて……(オドオド
550:無名草子さん
22/10/28 20:18:39.87 .net
青空文庫の「最新」の外字フォント一覧を見たいんだけどどうすればいい
txt2xhtml(t2hs.rb)に付属された2012年当時から更新ありそうなもんだけど
551:無名草子さん
22/10/28 21:32:11.63 .net
GitHubに全データあるからそこからあれそれして抽出したらできそう(やり方は知らない)
十年くらい前にやってる人がいて記事にしてくれたりもしてたみたいだけど、最近はどうかな
URLリンク(github.com)
URLリンク(wakufactory.jp)
552:無名草子さん
22/10/29 12:05:29.89 .net
なるほど、試しにやってみたけど、間違ってたらごめん
URLリンク(pansy.s1010.xrea.com)
553:無名草子さん
22/10/29 17:33:39.66 .net
>>552
さっそくallkanji.txtを拝見させてもらいました。
どうも青空文庫はいまもtxt2xhtmlに付属の外字ファイル群しか使ってないようですね。
唯一見つけたかと思った「鹵,U+9E75,1-83-35,1,1」は外字を使わなくても表示できる文字でした。
554:無名草子さん
22/10/29 19:13:02.34 .net
鹵獲の鹵(しお)は普通にJIS2だけど、それとは違う?
>>552
なるほど元がtsvになってるわけか。さらっとRuby書けるの凄いな
555:無名草子さん
22/10/30 00:24:26.77 .net
青空文庫見れるAppStoreアプリ10種ほどインストールしてみた
こういうのでパッと気軽に見れたり、連携辞書で熟語を調べられたりするのは隔世の感を感じる
・ソラリ (無料、課金で広告消。有料版も有)
・Yom!青空文庫 (有料プラン月額100円)
・読書尚友 (無料。課金で広告消)
・i読書 (無料。課金で広告消)
・青空本棚1・2 (2は広告枠だけ有)
・neo文庫 (有料。豊平文庫の後継版)
・bReader (有料)
・名作小説 (無料だが広告有)
・巣ごもり青空文庫 (無料だが広告有)
・巻丸 (無料。基本は小説サイトビューアだが青空文庫対応)
性能に興味があるなら感想レスする
556:無名草子さん
22/10/30 00:43:39.88 .net
アプリに関しては、工作員的に関心があるのは「自作のファイルが読めるか否か」ぐらいかな
読めるなら自分の作業で使えるけど、できなかったら用は無い
で、表示できるアプリは基本的に少ない……
557:無名草子さん
22/10/30 12:39:34.59 .net
校正の際には読書尚友に読み込ませてるわ
[#縦中横]とか一部の注記が機能してないけどそこまで不便ではない
ちなみに、底本を再現して脱字や衍字を確認するのに、今は表示設定で1行あたりの文字数を調整してるのだけど、
フォントサイズや余白の広さによる間接的な設定じゃなくて、1行の文字数を直接設定できるアプリとかあったりする?
まぁ仮にこの設定機能を実装したアプリがあったとしても、
本によっては句読点や括弧が半角状態だったり、行頭に句読点が来ないように調整されてたりするから、
完璧に再現しようとするならテキストデータを改行して読み込むのが確実にはなるんだけど、流石に二度手間で面倒臭い
558:無名草子さん
22/10/30 12:58:27.50 .net
moon+ reader pro だと加工したテキストファイルも読み込めるし
読み上げさせることもできて便利なのでこれを推したい。
OCRソフトで読み込んで漢数字の〇と記号の○とが間違ってる場合でも
読み上げさせるとすぐに気がつけて音読お勧め。
559:無名草子さん
22/10/30 13:02:21.32 .net
行文字設定可能なアプリ↓
i読書 14文字~38文字 (課金でも160円、課金なしでも気になる広告は出ない)
青空本棚2 9文字~42文字(青空本棚ではなくて2の方です)
ソラリ 8文字~62文字(ただしフリー版は不定期に動画広告出るので、校正不向きかも)
こんなところ
560:無名草子さん
22/10/30 13:20:22.96 .net
>>555
APPだけか
win11ユーザーならPC上でandroid動かせるで
561:無名草子さん
22/10/30 13:31:01.71 .net
Android専用も試したいけどWin10ユーザーなんでまだ無理す
青空文庫Ad、青空読書、読書家あたりは興味ある
562:566
22/10/30 15:41:37.24 .net
>>559
Android勢だけど「読書尚友があるなら他のもあるのかな~」くらいで聞いたらどれも無かった……
折角教えてくれたのにごめん……
563:無名草子さん
22/10/30 17:56:53.11 .net
androidならファイル管理しやすいMHE novel viewerを長年愛用してるけど一般的には読書尚友が使いやすいと思う
564:無名草子さん
22/10/30 23:36:54.36 .net
iPhone/iPad限定だけど「縦式」ってエディタアプリが青空文庫形式に対応してて
1行当たりの文字数も指定できるから、校正で使ってる
565:2022年11月公開予定作品一覧
22/10/31 13:29:06.02 .net
2022-11-01 萩原 朔太郎『室生犀星君の飛躍』※誕生日
2022-11-01 室生 犀星『純情小曲集 01 珍らしいものをかくしてゐる人への序文』※『純情小曲集』作者(萩原朔太郎)誕生日
2022-11-02 ホワイト フレッド・M『ドレントン・デン特派員の冒険 05 第五回 巨大純白蛾』
2022-11-03 山本 周五郎『霜柱』
2022-11-04 泉 鏡花『三人の盲の話』※誕生日
2022-11-04 大石 誠之助『太平洋食堂』※誕生日(旧暦)、作品初公開
2022-11-04 楠山 正雄『しっぺい太郎』※誕生日
2022-11-05 片山 敏彦『或る時の詩』『泉』※誕生日
2022-11-06 山本 周五郎『饒舌りすぎる』
2022-11-07 作者不詳『現代語訳 平家物語 11 第十一巻』
2022-11-08 山本 周五郎『十八条乙』
2022-11-09 岡本 かの子『食魔に贈る』※登場人物(エドワール・ニニョン)誕生日
2022-11-10 畑中 武夫『太陽を呑む赤い老星の秘密』※命日、作品初公開
2022-11-11 佐佐木 茂索『散歩』※誕生日
2022-11-12 山本 周五郎『醜聞』
2022-11-13 中谷 宇吉郎『日食記』
2022-11-14 山本 周五郎『滝口』
2022-11-15 大下 宇陀児『偽悪病患者』※誕生日
2022-11-15 原 民喜『もぐらとコスモス』※誕生日
566:2022年11月公開予定作品一覧
22/10/31 13:29:27.27 .net
2022-11-16 大町 桂月『酒に死せる押川春浪』※押川春浪命日
2022-11-17 中野 鈴子『許南麒の詩のように』※許南麒命日
2022-11-18 徳田 秋声『背負揚』『復讐』※命日(秋声忌)
2022-11-19 吉井 勇『ゴンドラの唄』※命日
2022-11-20 大田 洋子『「屍の街」序』※誕生日、作品初公開
2022-11-21 山本 周五郎『超過勤務』
2022-11-22 ラヴクラフト ハワード・フィリップス『錬金術師』
2022-11-23 菊池 寛『神の如く弱し』※モデル(久米正雄)誕生日
2022-11-23 佐藤 春夫『若き日の久米正雄』※久米正雄誕生日
2022-11-24 山本 周五郎『燕(つばくろ)』
2022-11-25 柳田 国男『私生児を意味する方言』
2022-11-26 楠山 正雄『鉢かつぎ』※命日
2022-11-27 山本 周五郎『ばちあたり』
2022-11-28 寺田 寅彦『猫六題』※誕生日
2022-11-28 中谷 宇吉郎『実験室の思い出』
2022-11-29 大石 誠之助『文明の強売 (断じて不正なり)』※誕生日
2022-11-30 嘉村 礒多『故郷に帰りゆくこころ』※命日
567:無名草子さん
22/10/31 14:17:10.35 .net
大下宇陀児とラヴクラフトがあるな
たのしみ
あと朔太郎って言うとおぎやはぎ矢作の子供が一番に浮かぶようになってしまった俺
568:無名草子さん
22/10/31 14:43:50.30 .net
ちょうど最近読んだ「名前の話」(萩原朔太郎)からの引用
中には「朔太郎」といふのが本名か雅号かなどと問ふ人もあるが、紛れもなく、親のつけてくれた本名である。僕は十一月一日に生れた。長男で朔日ついたち生れの太郎であるから、簡単に朔太郎と命名されたので、まことに単純明白、二二ヶ四的に合理的で平凡の名前である。
569:無名草子さん
22/10/31 23:14:55.45 .net
青空文庫に触れてないしスレ違いな気もするけど面白かった
本を読んだことがない32歳が初めて「走れメロス」を読む日 | オモコロブロス!
URLリンク(omocoro.jp)
図書カード:走れメロス (太宰 治)
URLリンク(www.aozora.gr.jp)
570:無名草子さん
22/11/01 13:34:40.63 .net
>>569
記事内に
>普通に「走れメロス」を読みたい方は、青空文庫で全文読めますので、そちらをどうぞ。
とあるから多分ギリギリセーフ
571:無名草子さん
22/11/01 20:30:09.57 .net
>>531
少し前の話を掘り起こして悪いが
渋沢栄一記念財団も「デジタル版『渋沢栄一伝記資料』」で電子テキストと画像の両方を公開してる
もっとも渋沢栄一や他の保護期間満了となった著作権者以外に著作権が及ぶ箇所については一部非公開となっているが……
TOP|デジタル版『渋沢栄一伝記資料』|渋沢栄一|公益財団法人渋沢栄一記念財団
URLリンク(eiichi.shibusawa.or.jp)
ついでにいうと国立国会図書館の著作者情報公開調査みたいなこともしてる
著作権者に関する情報を捜しています|デジタル版『渋沢栄一伝記資料』|渋沢栄一|公益財団法人渋沢栄一記念財団
URLリンク(eiichi.shibusawa.or.jp)
572:無名草子さん
22/11/01 21:00:52.48 .net
渋沢栄一のゲシュタルト崩壊起こした
573:無名草子さん
22/11/01 21:22:44.98 .net
渋沢栄一は入力中2、校正中1、公開中0か……
574:無名草子さん
22/11/02 20:52:02.12 .net
OCR校正の話は何度も出てるけど
みんなはそれを「校正一回」に数えてる?
(うまく言えないけど)
比較用OCRテキストを作るにももちろん手間と時間がかかるけど
それにしたって目視で全文チェックする校正と比べると
あまりにあっけなくて
入力者のテキストが完璧であればあるほど
OCRを以て一回に数えるのが不安になっちゃうというパラドックスがあるんだ
そんなわけで結局は目視で最低限三回
それに加えてOCR
って感じだ、自分は
575:無名草子さん
22/11/02 21:02:31.57 .net
やったことないけどOCR校正って良いの?
576:無名草子さん
22/11/02 21:06:40.19 .net
二段組底本の例だと思って読んでくれ
自分の手順だが
見開きスキャン画像に黒い余白がある場合、フリーソフトで一括トリミングして純粋なページ部分だけの画像にする→
自分の使ってるOCRが段組を認識しないので、段ごとの画像にするため、画像を一括で四分割するフリーソフトにかける→
出力連番が望む順番と違うのでこれもフリーソフトで一括リネーム→
OCR→
コピーペーストして一つのテキストに→
比較作業
自分は全てフリーソフトで賄っているのでこんな感じ
段組を認識できるOCRを使えばもっと早いだろうね
二段組見開き18ページ程度の作品で全工程が40分満たないくらいだ
早すぎて不安なんだ
577:無名草子さん
22/11/02 21:08:08.20 .net
ちなみに
>>576=>>574です
578:無名草子さん
22/11/03 00:20:34.90 .net
>>574,576
ルビはどうしてるの?
579:無名草子さん
22/11/03 08:31:41.76 .net
今日も元気だ山周だ
580:無名草子さん
22/11/03 11:37:23.36 .net
人の目を通さない作業は事前準備で校正とは見做さないキリッ
581:無名草子さん
22/11/03 12:24:24.74 .net
>>578
比較ツールにかけるとき
OCRではつかないルビや注記は
どうしてるの?という話かな?
あくまでも自分の感覚ではだけど、
OCR校正では主に、入力者の変換ミスや助詞や助動詞の間違いを検出するのに秀でてる手法と思う
だからルビ、傍点、入力者注記はやはり底本画像を見て追うことになるね
それでもOCRが生んだテキストをツールに通すと、その追うべき部分がマークアップされて(もしくはマークアップされるはずなのにされなくて)明示的になるので分かりやすい
582:無名草子さん
22/11/03 12:27:46.02 .net
>>580
うん、
全く人の目を通さないわけではないのだけど
あくまでも補助的なものと思った方がいいのかなあって気がして
みんなどうしてるか訊いてみた。
583:無名草子さん
22/11/03 12:30:00.91 .net
>>581
自己レス
> それでもOCRが生んだテキストをツールに通すと、その追うべき部分がマークアップされて
OCRが生んだテキスト「と入力者テキストと」をツールに通すと
だ
スマヌ
584:無名草子さん
22/11/03 16:02:34.70 .net
OCRを比較に使う人よりもOCRを文字起こしの始点として利用する人がむしろ多いんじゃないの?
585:無名草子さん
22/11/03 18:15:36.20 .net
いろいろなやり方試してて、もっと効率的な方法ないかなーって質問してるだけじゃないのかな?
俺のやり方はこうだ、お前らのは違うって言いに来たのではないと思うが
586:583
22/11/03 18:34:57.15 .net
あー
もしなにか、書き方の感じ悪かったのならごめんね
昔だけど公式ブログ「そらもよう」でも
OCR校正の圧倒的な時間効率の良さについて記事になっていたこともあったから
参考にして校正に取り入れてる人たちいるだろうと思ってたけど
やっぱりOCRといえば入力補助であって、校正での利用はまだまだそうでもないのかな?
>>585
うん、ありがとう、そういう意味です
587:無名草子さん
22/11/03 19:25:17.44 .net
OCR校正補助に使ってるけど、マニアックな異体字は拾ってくれない
あと促音を大書きにしているような底本誤植が勝手に小書きに修正されちゃう場合とかもある
(底本の誤植を見落とす可能性がある)
目視が重要であることに変わりはない と思う
588:無名草子さん
22/11/03 19:27:55.08 .net
最近30年ほどのワープロソフトで書かれた印刷物ならOCRの信頼性は高いだろうけど、
青空文庫は活版印刷全盛の印刷物が対象だからOCRの信頼性低いので校正に使うという発想は到底出てこないと思うんだが
589:無名草子さん
22/11/03 19:31:05.29 .net
新字新仮名に改めて改版されたものが底本のパターンも少なくないけどね
590:583
22/11/03 19:34:45.01 .net
>>588
そうでもないよ
これ見てみて
>校正を担う人が少ないために、青空文庫は公開に至れない入力済みファイルをたくさん抱えています。
こうした現状に風穴をあけたいと、点検グループの門田裕志さんは、OCRを校正に利用する実験を重ね、精度の向上と作業時間の短縮を同時に達成できるとの感触をつかまれたと言います。
「校正をやりやすくするために」
URLリンク(www.aozora.gr.jp)
2012年の記事だよ
591:無名草子さん
22/11/03 19:45:13.86 .net
>>590
10年前から進捗がないってことは、うまくいかなかったってことだよ
OCRを校正じゃなくて入力原点として使うのが最適解ってこと
何もないところから手入力で文字起こしするんじゃなくて、OCRの出力テキストに手を加えていく方式ね
592:無名草子さん
22/11/03 19:48:18.97 .net
OCRで校訂なんて主客顛倒もいいところだよ
593:無名草子さん
22/11/03 20:30:08.04 .net
OCRで出した文章と入力ファイルを比較して違いがあったら底本を確認するってこと?
そもそも入力者がOCR使ってたら入力者が一回通った道をまた歩いてるだけでしょ?
自分の使ってるOCRが特別高性能とか入力者が手入力したと分かってる状態じゃなきゃ二度手間過ぎない?
594:無名草子さん
22/11/03 20:35:29.57 .net
筆算の結果とエクセル計算の結果を照合します的な二度手間感を楽しみたい人もいるんだと思う
数独みたいな
595:無名草子さん
22/11/03 20:39:07.61 .net
ちなみにOCR校正の話が出てたのはおーぷんのほうだ。
596:無名草子さん
22/11/03 20:50:13.15 .net
おーぷんの1棚目で出ている。
入力テキストを作るほどのことまではせず
ただOCR通して比較にかけるだけで軽く下チェックができるわけね。
徹底突き合わせの前にひとつでもあらかじめ潰しておくくらいの気楽さでやるぶんにはいいと思う。
入力テキスト作るほどの手間ではないし。
「一回には数えない」ほうがいいね。
597:無名草子さん
22/11/03 20:53:39.74 .net
心血を注いでゼロから手入力文字起こししたこと無駄だったと受け入れたくない人にとっては、OCR校訂は意味があると思う
それ以外の人にとってはただの二度手間な宗教儀式
598:無名草子さん
22/11/03 20:55:31.19 .net
本人の手入力の正確性、速度もあるだろうね、そこは個人差あるかも