青空文庫 11棚目at BOOKS
青空文庫 11棚目 - 暇つぶし2ch900:無名草子さん
22/12/25 22:05:27.21 .net
>>802
今さら亀レスですが
そらもようじゃなくてaozorablogの間違いでした
すみません充電してきます

901:無名草子さん
22/12/25 23:20:37.34 .net
ママ注記にUnicode文字注記含んでるとつまりPageOneでエラー扱いになるからさっさとUnicode対応してほしい

902:aozorablog
22/12/26 20:41:32.07 .net
『するりと鏡を―ぬけてみて、アリスの目に見えたもの』第2章
URLリンク(www.aozora.gr.jp)

903:無名草子さん
22/12/26 21:36:13.63 .net
Unicodeとかもそうなんだけど作家・作品・底本(出版社や時代)を跨いだ全ての文章の一括検索という観点からすると
例えば「ほぼ」と「ほゞ」と「略」と「略々」と「略※[#二の字点、1-2-22]」みたいに表記揺れのある単語や言い回しをそれぞれの底本に準拠させる必要性がどこまであるのかみたいな問題にもなってくると思うんだよね
(他にも小書きかどうかだったり新字と旧字みたいな区別も出てくる)
それを検索サイトやシステム側で一緒にできるならいいんだけど

904:無名草子さん
22/12/26 21:56:54.15 .net
表記揺れはand検索でどうとでもなるからそのために本文を改変する必要はないと思うな

905:無名草子さん
22/12/26 22:12:08.36 .net
それがどこまで網羅できるのかって話だけどね
データベースでも作るなら別の話になるけど

906:無名草子さん
22/12/26 22:42:57.71 .net
当たり前だけどUnicode対応するといままで包摂適用してきた多くの文字をそのまま使えるようになるので外字注記辞書の更新も必須

907:無名草子さん
22/12/26 22:57:50.51 .net
>>903-905
今まで、それを比較検証することすらできなかったわけで、
「HD画質は皺が目立つから良くない」みたいな後ろ向きな現状維持は見苦しい

908:無名草子さん
22/12/27 03:09:19.99 .net
検索ツールの責をデーターに帰してどうすんだ。

909:無名草子さん
22/12/27 03:38:57.56 .net
>>908
誕生から25年経ったのに、青空文庫の書式に対応した検索ツールが皆無という現実がすべてを物語ってるでしょ

910:無名草子さん
22/12/27 03:49:22.35 .net
データーの責を検索ツールに帰してどうすんだ。

911:無名草子さん
22/12/27 10:17:59.51 .net
URLリンク(csd.ninjal.ac.jp)
既に青空文庫の全文検索コーパスは存在しますよ

912:無名草子さん
22/12/28 01:12:10.34 .net
「大岡政談」は、テキストファイルのサイズが青空文庫唯一の2MB越えで、ルビが75892個もあるんだね
今、未申請ながら入力してる作品もルビ35000個を超えているんだけど、上には上がいるってことでちょっと安心した

913:無名草子さん
22/12/28 12:10:04.65 .net
画像生成AI「Stable Diffusion」で青空文庫の名作小説に挿絵をつけてみた!【特集・集中企画】 - 窓の杜
URLリンク(forest.watch.impress.co.jp)

914:無名草子さん
22/12/28 12:40:06.43 .net
>>913
タイトルは面白いと思ったが本文くっさ
漫画☆太郎の100%パターンマンガとどちらが下だろうと悩むほどに

915:無名草子さん
22/12/29 18:44:44.53 .net
底本のページ番号に特化した注記があればいいなあ
外部プログラムに底本のページ番号を渡すことで該当する画像ファイルなりPDFなりをすぐに開けると校正が楽になると思うんだが

916:無名草子さん
22/12/30 16:52:31.43 .net
来年は溜めてる作業を消化しような

917:925
22/12/30 16:57:45.24 .net
「来年は」というか「来年こそは」だわ

918:無名草子さん
22/12/30 17:11:21.75 .net
来年は一体どうなるんだろうねぇ
まだ新年の公開作品の情報も出てないから完全に更新止まっちゃうのかな……

919:無名草子さん
22/12/30 19:22:38.00 .net
未申請のまま入力に取りかかろうかと考えている
もしも他の人と作業がダブってしまってふいになったとしても
自己責任、自業自得ってことで

Unicode化や注記の仕方など
大きな仕様変更があるかもしれないが
それでも一年間なにもせずにいられそうもない

920:無名草子さん
22/12/30 20:19:48.47 .net
2022年12月23日に出された充電期間の通知よりも前に申請したんだが、未だに連絡メールが来ない
まだ4週間経ってないから待ってるけど、どうなるのかな
>>919
重複を回避できる仕組みがあればいいんだけど、やたら申請だけしてほったらかしにされると困るので、
青空文庫の中の人による集中管理によらない、入力者間のゆるい情報交換の仕組みがあればいいと思う。
Githubのissue機能(メール通知や状態管理できる2chスレッドみたいなもの)を使えば作品ごとに重複回避や作業分担できそう。

921:無名草子さん
22/12/30 20:25:16.14 .net
ググルのような工程表を用意し
この通りにやらないと優先度が落ちて行って最終的には申し込み自体消滅でいんちゃうの

922:無名草子さん
22/12/30 20:32:17.11 .net
>>921
言いたいことはなんとなくわかるよ
けど、ガントチャートはスケジュールを中央で一元管理する人がいて始めて成り立つものなので、
ガントチャートの逐次更新にこだわると青空文庫の中の人の仕事が逆に増えてしまう恐れがある
毎日のようにたくさんの作品が放り込まれてくる青空文庫には、なじまないかもしれない

923:無名草子さん
22/12/30 20:36:46.66 .net
参加者皆で確認して行く方向が大事だと思う
管理者は10名ほど横繋がりでやり取りできる状態になると良いな

924:無名草子さん
22/12/31 08:52:43.28 .net
2023年も山周祭りか?

925:無名草子さん
22/12/31 12:19:09.33 .net
その話題は荒れるもとだからやめよう

926:無名草子さん
22/12/31 13:35:20.67 .net
中の人もここ見てくれてるのだろうか?
だとすればここでブレインストーミング的にたくさん意見を出しておくと何かに活かされるかもしれんという希望が

927:無名草子さん
22/12/31 16:05:03.93 .net
工作員のみんな今年もお疲れ様
来年は色々変化があるのだろうけどぼちぼちよろしく

928:無名草子さん
22/12/31 20:10:48.61 .net
皆の活動が名作を支えてる
読者として楽しんでます
青空読んでたら何でか文庫本も買うようになって
変な逆転現象も出てる

929:無名草子さん
23/01/01 05:18:51.35 .net
みんなあけおめ
2023年01月01日 『電子アーカイヴ』はしばし電気をためて夢を見る
URLリンク(www.aozora.gr.jp)

930:無名草子さん
23/01/01 17:38:48.70 .net
>>928
うれしいよ、ありがとう!

931:無名草子さん
23/01/01 20:06:27.66 .net
昨年で校了になっている作品は、今「校了」になってるので全部なのだろうか
いま点検グループさんの手元にある作品は、いったん作業中止って扱いになるのだろうか
(入力校正の新規受付がストップするのは分かったけど……)

932:無名草子さん
23/01/01 20:13:25.98 .net
>受領後点検と「校了」ステータスの完全再開は、新データベースシステムの本運用開始と高品質ファイル作成に目処がついてから
そういうことだろうね。
運用システムが万全になるまでは、「校了」に移行することはないということ。
なぜなら高品質ファイルにするために何らかの仕様変更をする可能性があるし、
そうなれば、すでに送ったファイルでも、校正者に再度返す必要がある。

933:無名草子さん
23/01/01 20:16:11.34 .net
校了したら、点検グループは必ず当日中に校正者にお疲れメールをくれる。
それがないということは
昨年中の校了作品は、今データベースで「校了」になったものがすべてで、あとは作業停止と思ってよいはず

934:無名草子さん
23/01/01 20:18:21.64 .net
自己レスごめん
>>933
>それがないということは
上の質問者さんが心配しているのは
「昨年中に自分の送った校正ファイルはどうなっている(どうなる)のか?」
ということだろうと想像して答えた。

935:無名草子さん
23/01/01 21:34:25.53 .net
>>931です。
ありがとうございます。
私は特に自分の担当している作業中作品はありませんが、
(いちおう一作品だけ入力申請していましたが未回答)
昨年の内に校正中になった自分の担当作品が多く、
それらが今後どうなるのか気になってました。
初心者の方が校正している様子も見受けられるので、
混乱が生じないことを祈りたいです……

936:無名草子さん
23/01/01 21:43:45.15 .net
今月の予定は?

937:無名草子さん
23/01/01 21:57:33.56 .net
>>935
あまり新人を敬遠する発言はしないでほしい
新人でも精力的な人は精力的だし
点検Gもサポートしてる

938:無名草子さん
23/01/01 21:59:23.15 .net
十年以上校正者がいない作品もあるのに
手を上げて校正してもらえる人が現れただけ幸運だよ

939:無名草子さん
23/01/01 22:08:27.84 .net
厳格にやるべきは著作権など権利の確認で、校正はそれほど厳格にしなくても良いと思うんだが、
「ウォーリーを探せ」よろしく、入力間違いを沢山見つけた強者を月間・年間ランキング表示するゲーム感覚でいいんじゃないの。
ま、暴論だけどさ

940:無名草子さん
23/01/01 22:39:28.25 .net
>>937
そうですね。
申し訳ございません。
私も参加したのは近年からですので、どちらかと申せば初心者です。
今回のリニューアルを機に、
いまだ校正されていない作品に光が当たりますように。
長文作品は「ドグラ・マグラ」のように交流しながらグループで行えるのが理想ですね。

941:無名草子さん
23/01/01 23:14:39.93 .net
>>939
「歴史的仮名遣いを現代仮名遣いに改めた」とか「明らかな誤植を修正した」とか「使用する文字コードに存在しない文字を画像で挿入にした」みたいに
やむを得ない理由がないのに内容を変えて公開したら同一性保持権の侵害になるんだから内容の正確性はそのまま著作権の論点になるよ
同一性保持権などの著作者人格権は保護期間みたいな制限がないからね(著作権法60条参照)

942:無名草子さん
23/01/01 23:36:35.04 .net
>>941
読者の視点でざっと読んで、違和感なかったらOKってことでいいんでないかな。
より細かい間違いを見つける作業は、一般人に委ねたらいいと思う。
参加型や逐次更新というWebの強みを活かさない手はない。

943:無名草子さん
23/01/01 23:49:06.92 .net
古いファイルを見てると、工作員の独断で勝手に校閲したらしき部分を見つけることが時々ある
(底本通りではなく、別な本を見て直したように見えるが誤記注記がない、とか)
あと底本だか親本だかの版が存在しない版(発行日も刷数もでたらめ)だったこともあったな
あんまりゆるくするとそういうのが増えかねないから、校正はそれなりにちゃんとした方がいい、と思う

944:無名草子さん
23/01/01 23:53:58.96 .net
>>942
OKなわけないじゃん
むしろ悪質だろ
調べに調べた上での誤りは致し方無い部分もあるかもしれないが
他人の書いた文章をお前の怠慢で改竄して公開する権利は無い

945:無名草子さん
23/01/01 23:56:48.77 .net
逐次更新と簡単に言うけど
少なくとも従来のシステムでは
技術的にも人手的にも簡単なことではなかった
それに青空文庫は出鱈目で信頼性が低いと酷く叩かれた過去だってある
新システムでファイル差し替えがどの程度容易になるかは分からないが、
それに甘んじず校正はきちんとやって信頼度の高いものを提供した方がいい

946:無名草子さん
23/01/01 23:58:02.24 .net
>>944
え?
すでに次世代デジタルライブラリーでOCRによって改竄(いわゆる誤検出)された作品が大量に公開されてるよ
「悪質」かどうか誰が決めるの?

947:無名草子さん
23/01/02 00:00:25.46 .net
というか951は工作員なのか読者なのかどういう立場で言ってるのか気になる
工作員だったら自分の作業には責任も誇りも持って受け持ってると思うので、なかなかこの発想にはならんと思うんだな

948:無名草子さん
23/01/02 00:03:05.72 .net
>>946
次世代デジタルライブラリーはそれ自体が研究検証目的の実験的取り組みだ
同列には語れん

949:無名草子さん
23/01/02 00:05:00.38 .net
>>942
底本をもたずに無料で読みに来る読者に細かい間違いを指摘させるってどんな無謀な期待よ

950:無名草子さん
23/01/02 00:06:36.71 .net
>>947
誇りを持つのは自己満足で勝手にどうぞって感じだけど、責任はなんにも背負ってないでしょ。
それとも賠償責任とか負うの?
学術論文で引用された作品が間違ってたら署名つきで謝罪するとか?
あまり言葉遊びしないほうがいいと思うよ

951:無名草子さん
23/01/02 00:07:54.97 .net
小並感

952:無名草子さん
23/01/02 00:19:35.24 .net
>>946
次世代デジタルライブラリーは「実験的な検索サービス」と謳ってるように青空文庫みたいな読むためのものではないし
OCRテキストと資料の画像を紐付けることによって内容の正確性を担保(補完)してる
それに公開時点で誤字・脱字・衍字があった時点で単純に悪質なのよ

953:無名草子さん
23/01/02 00:28:34.68 .net
そのへんの感覚が希薄な耕作員がいるとしたら恐ろしい

954:無名草子さん
23/01/02 00:31:27.81 .net
>>952
紙書籍の考えを引きずらなくていいと思うよ
間違ってたら更新すればいいだけ
紙書籍はハードウェアなので配布してしまったものを簡単に修正できないけど、
Web書籍はソフトウェアなので簡単に修正できる
青空文庫はなんの社会的責任も負っていないし、
ましてや君主でもないので「綸言汗の如し」のことわざはまったく当てはまらない

955:無名草子さん
23/01/02 00:39:36.93 .net
君子は豹変す

956:無名草子さん
23/01/02 00:40:19.52 .net
>>954
で、その更新(修正)前に読んだ人にはどう対応するつもりなの?
その誤字部分のせいで駄作だと思われたら確認にも来ないよね?

957:無名草子さん
23/01/02 00:43:01.62 .net
間違ってたらデータを更新すればいいだけだからこそ公開までに何人もの目を通して修正を施してるんでしょ

958:無名草子さん
23/01/02 01:00:08.06 .net
>>956
今も対応してないでしょ
てへぺろで十分

959:無名草子さん
23/01/02 02:06:09.13 .net
ocrの認識率が99%だとして、百字に一字も誤字がある文章なんて読めたもんじゃないから、そのまま公開しても「ざっと読める」クオリティには到底ならないと思う
現状は「ざっと読める」ようになるまで結局誰かの校正が必要。だとすると今とそんなに手間は変わらないんじゃないか。
ocrの認識率が今後伸びればまた違うのかもしれないが。
ただ、みん翻みたいな感じでみんなで校正できたらそれはそれで楽しそうだとは思う
けどそのシステムの実装のために式年遷宮が5年くらい伸びそうな気もするな。

960:無名草子さん
23/01/02 07:32:01.37 .net
>>945
の言う通り従来のシステムでは逐次更新そのものが面倒というのもそうだが、
青空文庫本体を更新したとしても、そこから作られて別なサーバに置かれてるファイル、
たとえばKindleで無料でダウンロードできる(赤と黄色の表紙の)ファイルなんかは
古いままだから、そっちを利用してる人は古いファイルを使い続けることになる
という問題もある(実際、青空の方は直ってるのにKindleの方だけ見て誤字がーって
愚痴ってる人を見たことがある)
よく知らんけど、公共図書館の電子図書館とかにあるファイルもそんな感じなんじゃない
だとしたらやはり現時点では公開の前に十分なチェックが必要かと思う

961:無名草子さん
23/01/02 07:58:35.68 .net
>>960
青空文庫の最新版と同期を取る仕組みが必要って話でしょ
いつまでたっても古いままってのはどのみち問題なわけで。
公開前の十分なチェックとかやってるといつまで経っても10~20年物の待ち状態の作品をさばけないと思う

962:無名草子さん
23/01/02 10:24:56.27 .net
複数の工作員が校正を共同で作業してるのはたまにあるよね

963:無名草子さん
23/01/02 12:09:56.37 .net
>>958
十分じゃないから最初の公開までに点検なり校正なりしてるんだけどそれが分からないの?

964:無名草子さん
23/01/02 12:13:37.34 .net
適当でおk派はウィキソースに行ったほうが幸せになれるぞ

965:無名草子さん
23/01/02 12:38:50.63 .net
公開してからバグがあると問題であるとするなら

非公開サイト内で一般人に近い環境でファイルを読む、
テスターあるいはデバッガーとしての耕作員活動を募るというのはどうだろう

いずれにしてもボランティアだから
読みやすいものに査読者が偏るだろうけど

966:無名草子さん
23/01/02 12:54:11.23 .net
OCRから読み取るのと電子ブックからコピペしたのを貼り付けるのと何が違うんだろう
文章が全く同一の場合は何も変わらないのだろうか?

967:無名草子さん
23/01/02 13:06:45.25 .net
そりゃそうだ
同一なら同一

968:無名草子さん
23/01/02 13:13:07.19 .net
漢数字の「二」がカタカナの「ニ」になってたりすると
ocrに読み込ませて失敗したななんてことは思います

969:無名草子さん
23/01/02 13:31:26.32 .net
一般人から、書写者(早口で三度言えたらお前の勝ち)へ誤字をフィードバックする仕組みを作れよ。

970:無名草子さん
23/01/02 13:55:56.90 .net
>>969
それはホントに思う
kindleとかは誤字を簡単に報告する仕組みが出来てるけど
そんな感じで「これ、おかしいんじゃない?」って思うのを
気軽に送信してチェックしてもらえると嬉しい。
ちゃんと底本確認してから報告しろと言われるとハードルが
とてつもなく上がる。

971:無名草子さん
23/01/02 13:56:54.35 .net
たださ、青空文庫ではウィキソースと違ってママ注記を乱発しないんだよ
現代の用法と照らして間違ってるというだけでは、青空文庫ではママ注記しない
誤字通報フォームには、「□利用規約に同意します」よろしく
その旨(青空文庫の公式な「誤字、誤用」に対する考え方)理解を求めないとならんだろう

972:無名草子さん
23/01/02 13:57:29.56 .net
>>970
殺到の予感

973:無名草子さん
23/01/02 14:02:14.26 .net
その仕組みがないために誤字だらけの作品を公開し続けるのも
不味いのではないかなんて思うのですが
その辺は皆さんどうお考えでしょうか?

974:無名草子さん
23/01/02 14:03:24.64 .net
自分がその気軽な連絡を受けてチェックする側にいても同じこと言えるの?

975:無名草子さん
23/01/02 14:04:06.96 .net
>>974
言えると思いますがなにか?

976:無名草子さん
23/01/02 14:04:40.30 .net
すげえな
俺は言えない

977:無名草子さん
23/01/02 14:10:35.10 .net
一般読者は>>971を理解してない
だから同じ件や類似の件に何度でも報告してくる可能性がある
同じだからといってテンプレ対応はできない
報告が本当に単なる誤植なのかどうか、ママなのか、注記なしなのか、底本や親本を探してくるのもこちら、
該当箇所にあたって判断しなくちゃならないのはこちらだ
これを一件ずつな

978:無名草子さん
23/01/02 14:12:59.85 .net
次スレ建てときました
青空文庫 12棚目
スレリンク(books板)

979:無名草子さん
23/01/02 14:13:27.14 .net
>>978
乙です
どうもありがとう感謝します

980:無名草子さん
23/01/02 14:47:19.75 .net
>>977
こちらってのは青空文庫側ってことか?
もちろん厖大な誤字報告に対応できるくらいの人手があればできるだろうけど、ないんだから現実的に無理じゃん。
そもそも底本確認することがハードルになるほど難しい事とは思えないから
報告者が底本まで確認して連絡するのが妥当だと思う。
どんな事だって間違いするときは客観的な根拠を示すのがフェアなんだから。

981:無名草子さん
23/01/02 14:48:52.99 .net
>>980
間違いする→間違いを指摘する

982:無名草子さん
23/01/02 15:32:42.06 .net
>>980
それほどハードルが高くないって思われるなら
そういう方にその役割を担っていただきたい。
読んで誤字を見つけるのが得意な人もいれば
底本を入手しやすい立場でチェックを得意とする方もいるだろうし
うまく得意分野を合わせて問題解決してほしいです。
誤字だらけの作品を公開されているのは
いくら著作権が切れてるといえ
作者は不本意だとおもうのですが。

983:無名草子さん
23/01/02 16:00:26.64 .net
「作者は不本意」も何も遺族は訴えられるからね
著作者人格権の侵害は500万円以下の罰金だし

984:無名草子さん
23/01/02 16:00:42.10 .net
おお、ここはOCRを校正に使えると思っている幸せな人をたしなめるスレですね

985:無名草子さん
23/01/02 16:04:42.70 .net
誤植確認申請フォーム的なのを作るとしたら図書カードのURLや本文の該当箇所をテキストで入力する以外に
底本画像の該当ページと奥付の添付も必須にすればだいぶマシになるとは思う
(出版後70年経過してない場合の対応に困るんだけど)
流石に捏造する愉快犯は出てこないでしょ

986:989
23/01/02 16:10:39.13 .net
>>982
そもそも自分でチェックせずになぜ誤字と判断できるのかわからんな。
「誤字かも」「誤字な気がする」とかそんなレベルの連絡に対応するのは人手があればやれるのは確かだが
だとしても本来、やる筋合いはない。

987:無名草子さん
23/01/02 16:14:54.20 .net
遺族から「ここがおかしい」と言われたら直せばいいだけでしょ、
回収せずに改修できるのがWeb書籍の強み
回収が容易でない紙書籍とは違うのだよ、紙書籍とは

988:無名草子さん
23/01/02 16:17:58.47 .net
工作員としてやることがなくなるととなんかみんな変な感じになっちゃうな

989:無名草子さん
23/01/02 16:18:11.20 .net
>>984
なにいてんの?
使えるのに使えないと誘導しようとしてるのかね
悪質だねぇ

990:無名草子さん
23/01/02 16:23:16.21 .net
>>987
その杜撰さで運営したら誰も見向きもしなくなるって想像つかないの?

991:無名草子さん
23/01/02 16:23:23.38 .net
1000

992:1001
Over 1000 Thread.net
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 243日 19時間 9分 5秒

993:無名草子さん
23/08/01 18:56:54.43 CbaCMKFv6
都心まて゛数珠つなぎて゛航空騷音まみれにして勉強まて゛妨害する最惡の現状をスルーしながら、未来ヘの投資(大爆笑)た゛のと主張して
孑どもではなく子を持つ親に赤の他人から強盜した血税くれてやれだの私権侵害甚た゛しいバ力ほざく腐敗主義のキチカ゛ヰがいるけど,
Gоtоなにか゛し同様,地球破壊するテロリストとともにてめえのクソ利権を増大させて私腹を肥やしたいた゛けなのか゛ハ゛レハ゛レた゛ろ
税の公平性すらカ゛ン無視だし、貧乏だけど孑を産んでいいのかしらとか勘違いさせて不幸な孑を量産させる史上最惡の税金泥棒だわな
介入するなら.親ガチャ失敗を緩和するために.孑を産んだら親にひとりあたり5千万は課税して物品やらを直接,子に給付させるのか゛限度
もちろん払える見込みか゛なけれは゛遺棄罪で逮捕懲役,日当5千圓で塀の中から孑に送金させろや寄生虫,てめえの孑の保育すら放棄して
保育園がと゛うたら学童がと゛うたら虐待がどうたら他人が払った税金くれだの恥知らずもいい加減にしとけ寄生虫ババァ
北朝鮮にウクラヰナに子と゛もまて゛ネタに地球に社会にと破壞してて゛も私腹を肥やしたい外道に騙されないようにな

創価学會員は、何百万人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まで出てる世界最悪の殺人腐敗組織公明党を
池田センセ-か゛ロをきけて容認するとか本気で思ってるとしたら侮辱にもほどがあるそ゛!
htтps://i、imgur.сom/hnli1ga.jpeg


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch