【文字認識】OCRソフト（２文字目）【自炊】

【文字認識】OCRソフト（２文字目）【自炊】at SOFTWARE

【文字認識】OCRソフト（２文字目）【自炊】 - 暇つぶし2ch32:名無しさん＠お腹いっぱい。
23/12/25 17:50:16.98 E9HRTZWr0.net
>>30
確認ありがとう

>> ソをンと間違える確率7割~8割
> 877件ヒットしてノーミスだった。
これは凄い、10氏のフローと比べるとScanTailorの傾き補正が有効なのかな

Scan Tailorにはゴミ取り機能もある事すら知らなかった
いろいろと良い情報ありがとう

33:10
23/12/26 08:46:53.35 LWI3K24a0.net
あれ？居ない間に色々とあったんですね
今まで自炊した事もなくOCR化など全く知らなかった素人レベルなのでご勘弁を
昨日試した事を書いときますね
作者さんが
＞最新のiPhone買うと、写真撮ってしかもOCRできる位のチップ積んでるので、実はおすすめです
と書いてくれてたので文庫本を解体スキャンではなく
文庫本のまま文面をAndroidで撮影してwindowsでやってみた(iPhone持って無いので…)
本とスマホを片手持ちで撮影、画像の中央にピントが合ってるけど上下は少しブレ気味3000x4000の大きさで撮影
bunkoOCRで読み込ませてみたら…作業終了後に右側にはERROR表示…やっぱり雑に撮影するとダメか(笑)
bunkoOCR側の設定で補正をかけると時間がえらくかかるので…
画像をPhotoscapeにて、白黒変換、明るさ補正、シャープ補正して、文字をくっきりさせてサイズを半分にリサイズ
そこからbunkoOCRに放り込むと、今度は成功した
多少の文字化けはあり、あー書かれてるアルファベット全角が半角にされますね数字も
何百ページも画像補正はやってられないからきちんと本とスマホを固定してピントを合わせれば画像補正しなくてもいけるのかな…
文庫本を解体しないでOCR化出来ることが分かったのは収穫だった
10の文庫本の時は解体した後でOCRという技術があることを知ったので…
少しずつ改善して行こうとする作者さんも大変だけど
今より使いやすく出来る事を期待してますね

34:10
23/12/26 09:02:22.71 LWI3K24a0.net
あー良く読むとScan Tailorというソフトもあるのか…
今度はそれを使って見ようと思う
素人レベルで申し訳ない

35:名無しさん＠お腹いっぱい。
23/12/26 10:14:14.41 riiZYutR0.net
ピントが合っていないと、かなり厳しいのでスマホ撮影の時はなんかのスタンドで
上空に固定してあげるとやりやすいですね。
うちではこんな感じで、照明にスマホホルダー付けて、アームで固定してます。
URLﾘﾝｸ(youtu.be)
アルファベットと数字が必ず半角になってたのは、学習ソースが偏ってたからなので
次のバージョンでは多分おおむね期待通りになりそう。
所々補正ミスがあるけど。完璧はむつかしい

36:10
23/12/26 10:33:00.08 LWI3K24a0.net
>>35
おーなるほどですね
自宅にあるもので固定出来るものを探します
わざわざ動画ありがとうございます!(´▽｀)

37:29
23/12/27 01:11:39.27 ZgyK1lpa0.net
会話終了の綴じ括弧の次の行は段落替えになるので行頭には全角空白が入るのだが、残念ながらOCRが見落とすことがあって（識別のために■を使用）、
OK-------------------
「用件を聞こう……」\n
■そう言って男はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
「用件を聞こう……」\n
そう言って男はゆっくりと
-----------------------
　」\n([^■「（])　という正規表現検索であぶり出すと、エラー箇所は16件ヒットしたが、残りの2920件は正しく全角空白として認識した。
同様に、前の行で文章が終わっていれば当然次の行は新しい段落からになるのでやはり行頭に全角空白が入るのだが、これも
OK-------------------
ていた。\n
■やがて二人はゆっくりと
-----------------------
↑こうなってほしいのだが、ときおり↓のようになってしまうことがある。
NG-------------------
ていた。\n
やがて二人はゆっくりと
-----------------------
　。\n[^■（「\n]　という正規表現検索であぶりだすと12件ヒットしたが、残りの1105件は正しくヒットした。
かつては行頭の全角空白を全く認識しないTesseract-ocrでさんざん鍛えられてきたから、数十件程度ものの数ではない。
英数文字が半角になってしまうのは、そういうものだと分かっていればsed的なパターンマッチによる一括置換で補えるから、修正しやすい間違え方であれば気にすることではないとすら思っている。
文字化けしてたのは、以下の三文字くらいで、それより連続する全角ダッシュ2文字を正確に認識したのはマジでスゴイと讃えたい。
嚙（←噛の機種依存文字）
頬
ッ（←小書きのツ）

38:名無しさん＠お腹いっぱい。
23/12/27 07:18:24.72 p3y9TF990.net
そこの空白の認識がめっちゃ難易度高いっす。
カギ括弧がちょっとだけ頭下がったように見えるために隣との差が少なくなり、OCR的にはむずいらしい
あと、連続して行頭が下がり続けると、見失うことがあったんだがこれは今修正してるので
次のバージョンではもうちょっと精度上がる予定

39:36
23/12/27 19:44:34.39 ZgyK1lpa0.net
おかしいな、もう一種文字化けが見つかりました。
剝（←剥の機種依存文字）
　[^一-龠ァ-ヶぁ-んー\dA-Za-z「」（）、。・…！？]　という『漢字/カタカナ/ひらがな/音引き/数字/大文字小文字のアルファベッド/鉤括弧/丸括弧/句読点/ナカグロ/3点リーダ/エスクラメーション/クエスチョン以外の文字を探す』正規表現を使って、それ以外の文字があればヒットします。
>>38
やあ、これは神。
そりゃ行頭全角空白はOSSのtesseract-ocrですら今だに実装されてないんですから、このくらい認識していただければ、十分すぎるくらいですよ。

40:名無しさん＠お腹いっぱい。
23/12/27 23:17:17.01 p3y9TF990.net
剥げると剝げるとかは、学習ソースに表記ぶれがあって字形がめっちゃ似てるので、
文脈補正でどっちかに引き寄せられやすいんですよ

くっきり読めると正しい方に引っ張られると思うけど、ぼやけてると学習した文脈に引っ張られるようになってる。
学習の時に、ランダムに字形を当てるモードと、文脈で当てるモードの比率によって
性能変わるみたいなので、要研究ですね

41:名無しさん＠お腹いっぱい。
23/12/28 03:33:08.78 Pnpb6RSQ0.net
いくつかの漢字はシフトJISとかUNICODEとかの文字コードのなんちゃらで問題あるらしい

42:名無しさん＠お腹いっぱい。
23/12/28 03:36:14.10 Pnpb6RSQ0.net
bunkoOCRはutf-8で出力するけどそれをシフトjisしか扱えないソフトで読んだりすると問題が起きる

43:名無しさん＠お腹いっぱい。
23/12/28 03:36:52.54 Pnpb6RSQ0.net
らしい

44:名無しさん＠お腹いっぱい。
23/12/28 06:19:58.31 M9f0BauU0.net
　　○
　く|)へ
　　〉　ヽ○ノShift JIS
￣￣７　ヘ/
　／　　ノ
　｜
`／
｜
｜
/

45:36
23/12/28 23:33:04.82 6YvtwrXY0.net
>>42
え、そうなの？
でもウチLinuxだから、さすがにEUCってこたないだろうけどシフトJISにしがらみとかこだわりなんてないはずなんだけど……とあらためて元のjsonファイルを見てみたら、確かに化けてなくてちゃんと認識していた。
bluefishってHTMLエディタで開いたときは文字化けしてたんだが……と思って再度開くと化けてないで正しく認識している。
頬
噛
剝
bluefishで指定した表示フォントセットを途中で変えたせいかと思ったが、今は化けてない。行間を広げたくてMigmixに指定する前はなんだったかな？
何かどれも化けないな。
文字化けの件はどうも冤罪だったかもしれないですね。
どーもすいません。

46:名無しさん＠お腹いっぱい。
23/12/28 23:58:58.31 Pnpb6RSQ0.net
「??」「?」「?」「?」
「叱」「填」「剥」「頬」
ネットで調べたらこれらが問題みたいね
私はちょっと古いソフトを使うときは
bunkoOCRは上の文字で出力するから
真っ先に下の文字に置換してからシフトjisで上書き保存してつかってる
嘘と?あたりもなんか怪しい

47:名無しさん＠お腹いっぱい。
23/12/29 00:02:44.49 qqgpseoO0.net
あれれ……

48:36
24/01/04 00:56:05.91 DDtH7e7e0.net
……今またjsonファイルを再調査したら、例の文字が
また化けてる。
冤罪ではなかったというのか？
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。

49:36
24/01/05 03:21:06.77 a4cHXUaH0.net
気を取り直してOCRから得られたテキストファイルを校正してみたが、やはり恐ろしいほどの認識率。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ（かな）とヘベペ（カナ）が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。

50:名無しさん＠お腹いっぱい。
24/01/05 11:02:48.96 vt4ZwsJe0.net
三点リーダの数が化けるのは、正直どうしょうもないと諦め中。
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた

51:名無しさん＠お腹いっぱい。
24/01/05 12:22:46.92 Rk0TKNDl0.net
Shift JISしか扱えないソフトって現代ではバグの類

52:36
24/01/06 00:47:34.42 TBakV8IN0.net
三点リーダーが過剰なのは、そういうものだと分かっていれば正規表現で瞬殺ですし。

Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ＝「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。

それよか過去にOCRして校正済みの完品なはずのテキストデータ（前回とは別物）と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。

とくに拡大しなきゃ違いが分からなかった、
搔
と
掻
を識別できてるのがスゴイ。勿論正解の方を引いている！

こりゃあ次期バージョンが楽しみですな。