【文字認識】OCRソフト(2文字目)【 自炊 】at SOFTWARE
【文字認識】OCRソフト(2文字目)【 自炊 】 - 暇つぶし2ch42:名無しさん@お腹いっぱい。
23/12/28 03:36:14.10 Pnpb6RSQ0.net
bunkoOCRはutf-8で出力するけどそれをシフトjisしか扱えないソフトで読んだりすると問題が起きる

43:名無しさん@お腹いっぱい。
23/12/28 03:36:52.54 Pnpb6RSQ0.net
らしい

44:名無しさん@お腹いっぱい。
23/12/28 06:19:58.31 M9f0BauU0.net
  ○
 く|)へ
  〉  ヽ○ノShift JIS
 ̄ ̄7  ヘ/
  /  ノ
 |
`/


/

45:36
23/12/28 23:33:04.82 6YvtwrXY0.net
>>42
え、そうなの?
でもウチLinuxだから、さすがにEUCってこたないだろうけどシフトJISにしがらみとかこだわりなんてないはずなんだけど……とあらためて元のjsonファイルを見てみたら、確かに化けてなくてちゃんと認識していた。
bluefishってHTMLエディタで開いたときは文字化けしてたんだが……と思って再度開くと化けてないで正しく認識している。



bluefishで指定した表示フォントセットを途中で変えたせいかと思ったが、今は化けてない。行間を広げたくてMigmixに指定する前はなんだったかな?
何かどれも化けないな。
文字化けの件はどうも冤罪だったかもしれないですね。
どーもすいません。

46:名無しさん@お腹いっぱい。
23/12/28 23:58:58.31 Pnpb6RSQ0.net
「??」「?」「?」「?」
「叱」「填」「剥」「頬」
ネットで調べたらこれらが問題みたいね
私はちょっと古いソフトを使うときは
bunkoOCRは上の文字で出力するから
真っ先に下の文字に置換してからシフトjisで上書き保存してつかってる
嘘と?あたりもなんか怪しい

47:名無しさん@お腹いっぱい。
23/12/29 00:02:44.49 qqgpseoO0.net
あれれ……

48:36
24/01/04 00:56:05.91 DDtH7e7e0.net
……今またjsonファイルを再調査したら、例の文字が
また化けてる。
冤罪ではなかったというのか?
でもこの前開いたときは確かに化けてなかったのにな。
もう分からなくなってきた。

49:36
24/01/05 03:21:06.77 a4cHXUaH0.net
気を取り直してOCRから得られたテキストファイルを校正してみたが、やはり恐ろしいほどの認識率。
3点リーダーの数がちょっと多かったり、1行目の行頭空白を落としてたりへべぺ(かな)とヘベペ(カナ)が一部入れ替わったりしたくらいの恐ろしくシンプルな校正で済んでしまい、以前に完品として作ったファイルとDiffツールで比較したら、逆に完品のはずのファイルにミスが見つかってしまった。
あらためて作ってくださった神に感謝。
マジでゲーミングPC調達したいな。

50:名無しさん@お腹いっぱい。
24/01/05 11:02:48.96 vt4ZwsJe0.net
三点リーダの数が化けるのは、正直どうしょうもないと諦め中。
長くなると、認識の位相がずれていっぱいになっちゃう
いま最終調整してるので、Newバージョンの認識エンジンでもうすぐリリースできそう。
行頭の空白の認識が向上したのと、ふりがなのグループルビがもう少し向上したはず。
段組の順番が乱れるのも多分直った気がするのと、ページ番号と柱を無視できるようにしてみた

51:名無しさん@お腹いっぱい。
24/01/05 12:22:46.92 Rk0TKNDl0.net
Shift JISしか扱えないソフトって現代ではバグの類

52:36
24/01/06 00:47:34.42 TBakV8IN0.net
三点リーダーが過剰なのは、そういうものだと分かっていれば正規表現で瞬殺ですし。

Tesseract-ocrをずっと使ってきて、Ver.4辺りから無言のセリフ=「…………」みたいなのをなぜか行ごと欠落するようになったので、ページごとに行数をサーチして行数の少ないページに当たりをつけて補完してた頃に比べれば、何のなんの。

それよか過去にOCRして校正済みの完品なはずのテキストデータ(前回とは別物)と、昨夜から半日かけてbunkoOCRで得られた新しいテキストを再比較してみましたが、ほぼ半日の校正で完品を凌ぐ出来でした。

とくに拡大しなきゃ違いが分からなかった、



を識別できてるのがスゴイ。勿論正解の方を引いている!

こりゃあ次期バージョンが楽しみですな。


最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch