【文字認識】OCRソフト(2文字目)【 自炊 】at SOFTWARE
【文字認識】OCRソフト(2文字目)【 自炊 】 - 暇つぶし2ch27:名無しさん@お腹いっぱい。
23/12/24 00:33:27.86 hojDQgiw0.net
おお、神が再臨めされた。
前スレではお世話になりました。
再臨記念に350ページ級の2段組ノベルズをbunkoOCRに通してみました。
PCスペック:
Dell OptiPlex 3070
CPU:Core i7-9700
RAM:DDR-4 24GB
GPU:なし
OS:MX-Linux21.3_x64
json以外のファイルを作らない設定にして、Wine6.22で実行
ネタ:昔G4圧縮規格のtiff-300dpiでスキャンした画像P.9〜P.362。
前回同じネタでやったときは、行頭の鉤括弧が消えてしまうところが結構あったので、今回はScanTailorを通して傾き等を修正して600dpiで保存し直したものを使用した。
GPUなしだと時間がかかるだけでなく熱暴走が心配だが、神がCPU冷却のための遅延設定を設けてくれたので、一枚読み終わったら60秒待ちを入れるように設定した。
寝る前に仕掛けて朝になったらできていれば御の字だと思ったが、23:07からスタートして完了したのは翌日の12:31であった。
しかし解像度を改善したのが奏功したのか、今回は鉤括弧を落とした箇所はなく、章立てのページで上下入れ替わりとか文字の大きな見出しが本文に埋没していたりしたが、裏を返せばそこだけ注意すればよいし、何よ認識率が恐ろしく高い。
章立てページを除くとほぼ一発正解級の認識率だった。
前スレ最初の方に書いたが、OCRは元原稿次第で認識率が大きく変わるので、tiffでスキャンしてScanTailorで傾きやノイズを除去して解像度を上げてやるとtesseract-ocrですら結果は向上する。
嗚呼中古のゲーミングPCがほしいなあ。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch