16/10/27 14:01:52.20 Lf4Jkeck0.net
Googleドキュメントに丸投げが1番楽で精度も高い
つまり上で名前の上がってるようなソフトは今や全てゴミ
9:名無しさん@お腹いっぱい。
16/10/28 14:32:27.82 F8pwlOl00.net
>>8
ファイルサイズが2MB制限だった。
これでは使い物にならない
ゴミとしか言いようがない
10:名無しさん@お腹いっぱい。
16/11/14 10:01:44.38 DfhqfMU20.net
acrobat以外でバラのpdfファイル一括OCR処理できるソフトないんかな。
今まではacrobatのフォルダ(500個ほどのファイル)ごと投げてたんだけど、特定のファイルで毎回止まってて使い物にならん。
11:名無しさん@お腹いっぱい。
16/11/23 20:08:39.03 egsPu78e0.net
>>10
結局e.typistで保存するときの、ファイルごとに保存できたから、解決した。
12:名無しさん@お腹いっぱい。
16/11/30 19:15:21.26 7ipzPm4D0.net
はじめまして。
現在OCR ソフト作っているものです。
スマホで出来ます。
現在うまく行って�
13:ィります。
14:名無しさん@お腹いっぱい。
16/12/26 01:47:37.00 v6AIeIuc0.net
スマホでOCR
カメラを内臓しているスマホの方が『買い物した直後にレシートをスキャンしてテキスト化したい』
という需要を満たせるせいか、Windows用ソフトが先細っている間に『Google Cloud Vision API』
という流行りのAIとかディープラーニングの技術を投入したAPIをOCRエンジンにしたスマホアプリが
公開されて成果をあげている模様。
結局自炊にはtesseract-ocrか?
で、この『Google Cloud Vision API』という奴、すこぶる評判が良いを通り越して
『もし的中率100%の占い師とか予想屋が実在したら?』レベルの優秀さだとすると、
自炊でのテキスト化に使用
→正解率が高すぎて手直しの必要がほとんどない
→著作権侵害の温床になりかねない
という名目で、一万円程度のPC用ソフトに搭載されることはないような気がします。
本当はひらがなとカタカナの『へべぺ』『エ工』『口ロ』『ト卜』『タ夕』といった光学的な識別だけ
では限度があるケースを前後の文脈から類推して判別してほしいケースにこそAIとかディープラーニング
の出番と言う気がしますが、ソフトを自作できるレベル以外のエンドユーザーには高嶺の花になるかも
しれません。
という訳で、なんとかしてtesseract-ocrの認識率を上げられないものでしょうか。
15:名無しさん@お腹いっぱい。
17/01/01 03:49:51.39 i4KtsT1l0.net
Tesseract-OCR良いね
パソコンのWindows版3.02を使ってみたけどGoogleドキュメントより精度が上だった
無料OCRツールでは一番か?
本当は最新の3.05使いたかったがうまく動かせなかった
16:名無しさん@お腹いっぱい。
17/01/01 10:45:53.16 bJoGCIrB0.net
>>14
Googleが一番やろ~w
17:名無しさん@お腹いっぱい。
17/01/03 01:48:22.51 /4niW42M0.net
tesseract-ocrの認識率を下げないための工夫
tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、
1.スキャンする時に解像度300dpi以上の.tiff形式で行う
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。
所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。
ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする=CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする=CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。
どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。
なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。
18:名無しさん@お腹いっぱい。
17/01/03 02:13:20.84 R8/S2ECj0.net
>>16
いやtesseractは認識精度低いから・・・
Cloud Vision使えよ
高画質画像もいらないから
19:名無しさん@お腹いっぱい。
17/01/04 00:37:05.30 orymQRzs0.net
>>16
こういう検証報告はすごい有り難いね
参考にします
20:名無しさん@お腹いっぱい。
17/01/05 20:18:24.04 8PejRFef0.net
ちなみに>16でスキャンする元ネタをjpeg→tiffに変更してどのくらい変わったかというと、
文中の“由美子”というヒロインの名前が、from-jpegスキャンからだと、
由美F 由美汗 由芙干 山芙杆 …芙杆
由美P 由美浙 由芙折 山芙F …芙浙
由美f 由美肝 由芙於 山芙f …芙肝
由美そ 由美託 由芙旛 山芙そ …芙託
由美ア 由美醇 由芙杆 山芙ヂ …美F
由美チ 由美干 由芙浙 山芙浙 …美f
由美ヂ 由美折 由芙F 山芙肝 …美肝
由美モ 由美杆 由芙f 山芙軒 …美チ
由美丑 由美壬 由芙肝 …芙F …美竚
由美予 由芙チ 山美折 …芙P …美升
由美争 由芙ヂ 山美肝 …芙f …美壬
由美十 由芙丑 山美託 …芙チ …美折
由美千 由芙予 山美升 …芙升
由美升 由芙十 山芙丑 …芙折
由美寶 由芙升 山芙十 …芙旛
これだけ豊富なバリエーション()が発生しましたが、from-tiffスキャンからだとほぼブレ
ることなく“由美子”になったので、
「こ、これはハトを殺されたタイソン並みにスゴいのではないか?」と
tesseract-ocrの秘めた実力に驚愕したものでした。
つまり条件さえ揃えばtesseract-ocrの認識率はけして悪くないというか、むしろ認識結果が
思わしくない場合は何らかの事情でスキャンする際にスポイルされた可能性があると考えて、
条件を変えてスキャンしてみるのもひとつの手かもしれません。
21:名無しさん@お腹いっぱい。
17/01/05 20:59:02.85 8PejRFef0.net
続・tesseract-ocrの認識率を下げないための工夫
2.不要な認識候補文字をブラックリストで指定して排除する
※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。
以前tesseract-ocr以外のOCRソフトを使ったときのこと。帳票というか、罫線の中に数字と
カンマとピリオドしかないペーパーをスキャンして取り込むために認識候補を『英数のみ』に
設定してOCRを実行したのですが、
「なんで 2 じゃなくて Z って認識するワケ? 候補を数字だけに絞れば良さそうなのに、
なんでできないの? バカなの? 死ぬの?」
と思ったことがありました。
tesseract-ocrにはホワイトリストとブラックリストというオプションを指定することで、
認識候補文字を制限することができます。
ホワイトリスト=認識候補文字を指定した文字だけに限定する
先程の帳票認識時の様に、認識候補文字を『 0123456789., 』以内に限定したいときに
使いますが、縦書き日本語の自炊目的には使わないので今は捨て置きます。
ブラックリスト=認識候補文字を指定した文字以外に限定する
↑ちょっと変な日本語になってますが、要するに「縦書き日本語の小説にフツーはこんな記号や
文字は出てこないんだから、候補から外せば正解率上んじゃね?」ってことです。
で、実際指定したら間違いのブレ幅が確実に少なくなるので一括置換で修正もやり易くなる
のですが、tesseract-ocr blacklist で検索しても、何故かほとんどヒットしませんでした。
22:名無しさん@お腹いっぱい。
17/01/05 22:06:35.47 8PejRFef0.net
ブラックリストの指定の仕方は行頭に、
tessedit_char_blacklist
と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。
↓ブラックリストのサンプル(実際は1行に繋がっています)
tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/\〆ゝゞヾ,.;=^~'`"[]{}<>〈〉〔〕《》『』【】〝〟†‡°
・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される
なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。
上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点(。)として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。
(例)
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。
(間違い)
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。
(エラー)
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。
23:名無しさん@お腹いっぱい。
17/01/06 17:28:28.61 1hEabIWn0.net
今どきディープラーニングも使わないtesseractじゃね・・・。
自作アプリに組み込んだが、
認識精度は低かったぞ。
24:名無しさん@お腹いっぱい。
17/01/06 20:13:04.83 4Q+G11jJ0.net
さて、それなりに吟味して作ったブラックリストの内容を記述したファイルをとりあえず
black.conf
とでも名づけて保存しておきます。
当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。
あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。
以下点線の内側をシェルスクリプト ocr.sh として保存します。
----------------
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す
for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done
25:名無しさん@お腹いっぱい。
17/01/06 20:48:52.00 4Q+G11jJ0.net
ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
(裏を返すとファイルパスを指定することで全然別のところからも参照できます)
・OCR元のtiff画像ファイル(1009.tif~1360.tif)
・シェルスクリプトファイル(ocr.sh)
・ブラックリストファイル(black.conf)
tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル(ページ番号)と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。
シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt~1360.txt
(連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中)
なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。
26:名無しさん@お腹いっぱい。
17/01/07 01:26:07.83 EIbs2jCQ0.net
>17
まあそう急くなて。
>13にもチラと書いたけど、Google Cloud Vision APIってプログラムとかアプリそのもの
じゃないから、『使え』といわれて使えるひとって既にエンドユーザーじゃないし。
そりゃ話聞くとGoogle Cloud Vision APIって、良い意味で『コレ世に出していいの?』
レベルらしいし、ある日を境に木製複葉機が一斉に時代遅れになったのも知ってるけど、
ジャンルによらず古典に親しむのは大事なことだし、何より初手からそんな最先端使って
ったら、ディープラーニング様の有り難みが感じられないじゃないですか。
変速機のないギヤ比固定のママチャリで坂道を登った経験があるからこそ、人は変速機
付きの自転車に感謝できるのだとは思いません?
で、その一方で変速機ナシの自転車でもギアを交換して坂道を登り易くすることはできない
ことじゃないんだけど、いかんせんこのtesseractってチャリは情報が少なくてね。
tesseract-ocrでどこまで行けるのか、もう少し先まで見てみたいんですよ。
クレジットカードもいらないしね。
27:名無しさん@お腹いっぱい。
17/01/07 01:50:26.86 EIbs2jCQ0.net
「うわっはっはっ、何を言い出すかと思えば、所詮はクレジットカード一枚作ることが
できない自宅警備員のたわごとではないか。カード一枚と引きかえに最先端のAIや
ディープラーニングが手に入る時代に、tesseract-ocrなどという旧態依然のフリーソフト
にこだわるなどとは笑止千万。本当の最先端が今やどんな高みにまで昇りつめているか、
この私がお目にかけよう」
と、白髪混じりのオールバック美食家なスーパーハカーが登場して、エンドユーザー
にもやさしく解説してくれるなら、アタシは黙って身を引くわ……。
28:名無しさん@お腹いっぱい。
17/01/11 03:41:06.92 v+HPhSP90.net
OCRについて検証したり語らったりできる場所ってここくらいしかないし
tesseract-ocrもなんでも小さな情報でもどんなことでも俺はウェルカムだよー
使い方見たり知ったりすればそれを生かす機会が来るときもあるかもしれないからね
29:名無しさん@お腹いっぱい。
17/01/12 00:57:18.93 DZC5mCXO0.net
tesseract-ocrの識字率を上げるためにスキャン画像から学習ファイルを作る手口は、
検索でヒットする幾多のサイトで指南されています。
さながら刀匠のごとく、コマンドを重ねて玉鋼から刀身を作るように順繰りに加工していく
訳ですが、Linux版tesseract-ocrのver.3.03だと途中の unicharset というコマンドが
なぜか実行できず(『そんなプログラムありません』でエラーになる)、ubuntu16.04LTS
(16年4月製長期サポート版の意)でver.3.04を試したらやっと最後の jpn.traineddata
ファイルの生成まで辿り着けたのですが、実はこれと同じ名前のファイルはすでに
アプリケーション側の設定フォルダにあります。
元の jpn.traineddata は30MB超えの、テキストエディタでも開けないようなゴツい代物で、
対する新jpn.traineddata は1MB足らず。ならばあとは旧ファイルの認識がおかしい部分に
新ファイルをマージすれば良さそうですが、その手段が何故か何処の指南役サイトにも書いて
ありません。
旧ファイルに匹敵するサイズの新ファイルをゼロから作るのは現実的ではないと思われますが、
先達がこの辺をどうしているのかは不明。
ちなみにWindows版tesseract-ocrには tesseract-box-editor というMicrosoft .Net
Framework 4.0で動作するアドオンだかがあって、それを使うと新旧ファイルをマージできる
らしいです。
「ネットに載っていないblacklistファイルまで自力で辿り着けたのはなかなかだが、jpn.traineddataが元のままなのはいただけないな」
「!」
「一週間お待ちください。本物のtesseract-ocrの実力をお目にかけますよ」
井上和彦の声で喋るオールバックのスーパーハカーの登場をお待ちしています。切実に。
30:名無しさん@お腹いっぱい。
17/01/12 01:00:28.61 DZC5mCXO0.net
tesseract-ocrの、30MB超えで開くことすら困難な設定ファイル jpn.traineddata。
この中には日本語認識する際のルール・ファイルが各種入っているようですが、
開けないファイルからどうやって取り出すのか、長らく謎でした。
とりあえず認識結果後の変換マッピングを司る jpn.unicharambigs に関しては、
このコマンドで掘り出して、
$ combine_tessdata -e tessdata/jpn.traineddata jpn.unicharambigs
別ファイル化して修正したのち、このコマンドで再度埋め戻せることが分かりました。
$ combine_tessdata -o tessdata/jpn.traineddata jpn.unicharambigs
tesseract-ocrはver.3.04になって認識率がやや向上し、3.03では
並
ョ
と二文字の並びと見なされていた縦書きの 普 がキチンと一文字と認識されます。
それでも縦書きで三点リーダーが二個(……)並ぶのは不得手らしく、認識結果は
ナカグロが六個(・・・・・・)並びます。
もっとも blacklist で認識候補の記号を制限する前は、羅列するのもバカらしいですが
順列組み合わせで200パターン以上になっていたので、それを思えば検索置換一発で修正
できるようになったのは、楽なものです。
でももっと楽になりたくて、『・ が三個連続したら、問答無用で、… 一個にする』
という修正パターンを書いてマージしたのですが、何故か反映されませんでした。
何がいけないというのでしょう?
3 ・・・ 1 … 1
2 並ョ 1 普 1 (←3.03の場合はこう書けば一文字になると思われる)
31:名無しさん@お腹いっぱい。
17/01/20 21:05:57.72 gQQqe6X80.net
無料で
数式OCRできる方法教えてくれ
32:名無しさん@お腹いっぱい。
17/01/22 22:25:34.24 /FwmeFUS0.net
日本語化スレにも書きましたが、
【 名 称 】Capture2Text
【 バージョン 】3.9
【 概 要 】PC画面やポップアップウィンドウなどの文字列取り込み
【 ライセンス 】フリーウェア
【 ウェブサイト 】URLリンク(capture2text.sourceforge.net)
【多言語化対応】不明
を使っている人いますか?
日本語化はありますか?
33:名無しさん@お腹いっぱい。
17/03/05 14:45:05.40 UtesglO/0.net
googleのはなあ…
こいつらに情報渡したくないからいくら良くても使えないわ
34:名無しさん@お腹いっぱい。
17/03/14 21:45:43.63 Qc719WwL0.net
逆に言えば渡していい情報ならいくらでも使える。
スマホやタブでスキャンして、資格試験の暗記問題なんかをタイプウェル用のテキストにしようと
思って、試行錯誤した結果googleに落ち着いた。
なんとなくここに来たら、やっぱ同じ結論か。
あとはコンデジ使うかスマホ使うか
35:名無しさん@お腹いっぱい。
17/08/20 10:28:25.56 Y2wo7t9E0.net
自炊板に書いたけど、こっちにも置いておくかな。
88 名前:名無しさん@お腹いっぱい。 [sage] :2017/08/20(日) 10:04:39.07 ID:2KZZB/L/
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…
URLリンク(github.com)
Linux用。Bash on Windowsでも使える。
36:名無しさん@そうだ選挙に行こう
17/10/22 16:02:47.94 QfM7pntrG
スマホの OCR アプリ「Textスキャナ」を使って、
「日本語コメント付きのソースコード」
を読み取ろうとしたけど、全然ダメだった。
日本語はほぼ読み取れてるけど、
「'」(シングルコーテーション)は全部消えてしまうし、
アルファベットでかかれたソースコードは、
ところどころ文字が消えてしまった。
日本語を含んだソースコードを読むのに適した OCR ってないかな・・・
「OCR ソースコード」で検索すると、
オープンソースの OCR がヒットしてしまって
うまく検索できない。
37:名無しさん@お腹いっぱい。
18/03/04 10:09:31.44 FYRZq+9m0.net
自炊版てどこですか
38:名無しさん@お腹いっぱい。
18/03/04 10:19:37.65 NfprRM100.net
たぶん電子書籍板のことかと
39:名無しさん@お腹いっぱい。
18/03/05 07:26:58.53 wBe53wun0.net
ありがとうございます
40:名無しさん@お腹いっぱい。
18/04/07 07:35:39.83 H8LepRyi0.net
所見
サンプルの画像に対してOCRかけて
「この画像に○○のソフトでOCRかけてかけるとこういう風になりました」
ってのないの?
さすがに言葉だけじゃ微妙な感じが全然伝わらないから
41:ハカーを待ちながら
18/04/07 22:12:54.68 j2p9bLt50.net
>>39
自炊技術総合25@電子書籍板のレス番#906に、Windows版VietOCR(=ベトナム語用OCRソフト)を
使った結果のスクリーンショット画像が載ってる。
URLリンク(i.imgur.com)
OCRエンジンは毎度おなじみオープンソースのtesseract-ocrを使ってて、VietOCRは
窓口だけのはずなのに、認識した文字列の正解率が横書きのみとはいえ何故か異様に高い。
Linux版は、インストールしてみたけど間違え方が違う程度で、Windows版には及ばなかった。
Windows環境で横書き文書をOCRしたい人は試して欲しい。
#Linux+tesseract-ocrの結果サンプル画像はもう少し待ってくれ
42:名無しさん@お腹いっぱい。
18/04/08 00:17:10.29 OEAttGvE0.net
cloudvisionは?
43:名無しさん@お腹いっぱい。
18/04/08 00:40:34.26 q/iTgbtt0.net
>>40
確かにそれは参考情報と言われれば参考情報だけど
原本が都合よすぎるだろ?
言ってみれば、OCRソフトにとって最も力が発揮出来る状況=ベストエフォート?を示しただけに過ぎないって言うか。
その原本は文字オンリーで図も表もグラフも無くて、しかも1つ1つの文字が人間にとっても明確に視認出来るから。
自炊してる人にとっちゃ家庭用スキャナでスキャンしたものはその原本までハッキリ・くっきりじゃないし、図・表・グラフ・写真・数式あるし
44:名無しさん@お腹いっぱい。
18/04/08 00:49:22.65 VYgJDjR/0.net
Ubuntuで最新tesseractビルドでも高精度認識できたよー
とりあえずスクショだけ
URLリンク(i.imgur.com)
URLリンク(i.imgur.com)
ビルドのやり方とかは希望あればまとめます
45:名無しさん@お腹いっぱい。
18/04/08 01:18:01.31 q/iTgbtt0.net
>>43
そっちの方が参考になった
やっぱり文章レイアウトの認識はあんまりみたいだな
46:名無しさん@お腹いっぱい。
18/04/08 01:19:35.90 q/iTgbtt0.net
OCR認識に満足してる人
数式・化学式が沢山ある理科系のページをOCRかけてごらん
グチャグチャになるよ
47:ハカーを待ちながら
18/04/08 01:53:17.65 I+ikD/OI0.net
>>43
すげえ!! 神が降臨した。
ビルドのやり方ぜひ! まとめて下さい。
>>45
うーん、気持ちは分かるんだけど縦書きの日本語小説だけがターゲットの者にとっては、
レイアウト情報以前に少しでも正確なプレーンテキストを得られそうなことが凄いのよ。
まあでもAIが正確なテキストを作ることに飽きたら、今度は正確なレイアウト情報の
再現に、ほっといても邁進してくれることでしょう。
48:名無しさん@お腹いっぱい。
18/04/08 02:20:22.39 VYgJDjR/0.net
了解です
ちとまとめるので時間ください
>>44
いやこれただのテキストデータなんでレイアウト情報は元々ない
認識文字の見比べしやすいようにテキストエディタで擬似的に縦書きや段組っぽく見せてるだけ
PDF出力すれば透明テキストはちゃんと画像の文字の上に被さるけどね
数式に関してはあれは図と同じだと思いなせえ
そもそも平テキストだけで表現できずLaTeXなどの組版処理が必要なカテゴリですやん
もともとOCRでどうこうできるものではない
49:42
18/04/12 00:27:46.59 EyDdIten0.net
遅くなってすまん
まとめるとか偉そうに言ったけどほぼに↓の通りにやっただけ
URLリンク(ameblo.jp)
1. コンパイルに必要なライブラリのインストール
2. Leptonicaのコンパイルとインストール
3. tesseract-ocr 4.0.0β のコンパイルとインストール
4. 言語データtessdataのダウンロード
5. サンプル画像でOCRのテスト
注意点としては
2.Leptonicaは公式でtar.gz貰ってくるとconfigureで引っかかるので
githubから最新ソース落としてmakeする
$ git clone --depth 1 URLリンク(github.com)
$ cd leptonica
$ ./autobuild
$ ./configure
$ make
$ sudo make install
4.言語データは すべて tessdata_fast (URLリンク(github.com))を使う
jpnとjpn_vert両方入れるのが胆
5.サンプル出力 ver.4では--oem 0と2のオプションはエラーになるので使わない
言語指定は -l jpn+jpn_vert が一番精度良くなるよ
50:42
18/04/12 00:28:08.34 EyDdIten0.net
他所の環境でちゃんと動くかは分からないけど
コンパイル手順を自動化したスクリプトとビルド済みパッケージ置いときます
作成&テスト環境
windows10 WSL Ubuntu 16.04.4 LTS
vagrant ubuntu/xenial64 (vurtualbox)
ビルド自動スクリプト --> URLリンク(www.axfc.net)
ビルド済パッケージ(.deb) -> URLリンク(www.axfc.net)
51:ハカーを待ちながら
18/04/12 23:19:55.32 vCwgAmwn0.net
>>48
まとめ作成お疲れ様です。
tesseract-ocr4.00αをインストールするとき、自分も当時同じサイトを参考に
しましたけど、Leptonicaもtesseract-ocrもそれぞれバージョンが上がってたのね。
とはいえ最新ソースからmakeするとか言語ファイルをtessdata_fastから取ってくるとか、
自分ひとりでは絶対思いつかないし、あまつさえインストール用のシェルスクリプト
(Windowsでいうバッチファイルみたいなもの)まで作ってくれて、どうもありがとう。
既存環境との衝突防止対策するより、バージョン違いのWineとのからみもあるので、
MicroSDカード上にクリーンなxubuntu環境を作って、そこにインストールしようかな。
当方32GBのMicroSDHCをUSBに変換するアダプタに挿して、切り替えボタン付きのUSBハブから
ブートさせてxubuntuを使っているので、複数のMicroSD+USBアダプタさえ用意すれば異なる
Linux環境をUSBハブのボタンひとつで使い分けられて、そこそこ便利です。
でも同じOSをインストールしているはずなのに、出来上がった挙動やファイル構成が微妙に
違うのは、再インストールしたWindowsと似たようなもんかしら。
52:ハカーを待ちながら
18/04/16 16:40:46.99 jfy34C3d0.net
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。
以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。
オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
URLリンク(imgur.com)
以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく(だからテキスト化するのだが)、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。
最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
URLリンク(imgur.com)
[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。
最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
URLリンク(imgur.com)
後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。
53:ハカーを待ちながら
18/04/16 17:33:07.75 jfy34C3d0.net
最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
URLリンク(imgur.com)
jpnだけだと半角スペースが入りまくりだが、jpn+jpn_vertで見事に消える。
認識結果を一つ前のと比較すると、全体に大振り気味で当たれば見事ホームランだが外すと
余計な文字が混入する感じ。『ピーキーなチューニング』とでもいうべきか。
--oem オプションで0を選択できない(=複数のOCRエンジンを使用)せいか、CPUパワーの
消
54:費が三倍くらい増える。
55:名無しさん@お腹いっぱい。
18/04/16 19:06:06.80 53RTfDRz0.net
ルビが入った時の処理が気になる
ソフトによっては一行とみなして空白だらけの一行ができたり、完全に無視して勝手に除去したりするから
後者も問題だけど、前者の場合手動修正の手間が相当増える
ルビを含めて1字として処理して、認識不能を返すのは論外
56:ハカーを待ちながら
18/04/16 19:28:05.86 jfy34C3d0.net
ふと「ノイズの極少ない元画像からならどこまでやれるのか?」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。
22ポで画面上に再現した擬似元画像
URLリンク(imgur.com)
それをOCRした結果のスクリーンショット
URLリンク(imgur.com)
つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。
ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか? になっていくのでしょうか。
57:名無しさん@お腹いっぱい。
18/04/16 20:17:56.21 0tAKuDhz0.net
>>51のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。
URLリンク(imgur.com)
58:名無しさん@お腹いっぱい。
18/04/16 20:42:37.96 JXJw+uBT0.net
CloudVisionはOCR性能は抜群なんだけど縦書きの属性情報は返してくれないみたいで
>>34の方法で透明テキスト付PDF作るとき難が出るんだよね
惜しい
URLリンク(github.com)
59:名無しさん@お腹いっぱい。
18/04/16 20:49:18.86 0tAKuDhz0.net
>>56のgithubに投稿した者だけど、hocr-toolsでpdf生成に使っているPythonのreportlibが日本語縦書きをサポートしてないことまではわかりましたw
reportlibを弄るのは手に余るので、求むハカー!ですw
60:名無しさん@お腹いっぱい。
18/04/16 20:56:21.22 0tAKuDhz0.net
ただ、GCVのjson出力は文字の座標を返すので、次の文字の座標を考慮すれば縦横判定はできるかもしれない。
あと、縦横混在はさすがにきつい。
事前に画像を切り出しておくと大丈夫だけど。
レイアウトを考慮するオプションが英文だとあるけど、日本語はまだみたいw
61:ハカーを待ちながら
18/04/16 23:01:41.54 jfy34C3d0.net
>>55
同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
URLリンク(imgur.com)
改行コードが半角スペースにされているので、置換するとほぼ原文に正確な
認識結果が得られているのが分かる。
とはいえいくら優れたOCRとはいえ、誰がやっているのか分からないネットの
向こう側に金玉を握られているような状態ってのはやっぱ釈然としないのよ。
自炊行為の是非以外にも内部の文書をネットに放流するリスクとかもあるし、
Google Cloud Vision APIがとてつもなく優れているのはよく分かるんだけど、
エンドユーザーにAPIとやらを扱うのは簡単じゃないし、ネットに繋がないと
結果が得られないなら、いっそスタンドアロンのお手元のハコの中でなんとか
できる範囲で改良を……と、もう少しtesseract-ocrをいじっていたい。
最新のマシーンZが優れているのは分かるけど、共に死線をくぐってきた
ロボットマンにこだわりたかったあきらくんのように。
(コミック版「ミクロマン」はいいぞ)
まあ結局は乗り換えたんですけどね。
62:名無しさん@お腹いっぱい。
18/04/16 23:39:00.31 JXJw+uBT0.net
>>57
gcv2hocrの作者様ですね。有用なツール開発ありがとうございます
縦書きPDFの出力は tesseract 4.0 や OCRmyPDFがが実現してるので
pdfrenderer.cpp あたりの出力部分だけ切り出して何とかならないのかなあ、なんて
なんつって自分はソース見ても全然理解できなかったですが
json座標から縦横判定のほうが厳しそう
googleさんは解析時に縦横分かってるわけだし今後のアプデでオプション増えるのを期待
個人的に自炊PDF(OCRなしで画像のみ)を画像劣化なしでサーチャブルにするツールが欲しくて調べてた
・OCRmyPDF (tesseractエンジン 元々そういう用途向き)
・tesseract 4.0 → 画像を含まない透明テキストのみのPDFが作れる (-c textonly_pdf=1)
・gcv2hocr + hocr-tools →フォーク版で画像を含まない透明テキストのみのPDFが作れる(--nodraw)
URLリンク(github.com)
→ pdftk の multibackground オプションで画像pdfと透明テキストpdfを重ねる
pdftk images.pdf multibackground text.pdf output full.pdf
Win使いがAcrobatだのe.Typistでコレジャナイ感味わい続けてる間に
linux界隈ではとっくにできるようになってたという…
exe化して1パッケージにまとめればWinの自炊者にも需要あると思うわこれ
63:名無しさん@お腹いっぱい。
18/04/17 00:21:57.55 QTvH3ncM0.net
>>54
補正に関しては自炊ノウハウも確立してるので自分はわりと楽観してるわ
自力で納得のいく補正かけた後に任意のタイミングで
OCRかけられてPDFにできるというアドバンテージは大きい
程度の低い話ですまんがWindowsでOCR付き自炊PDF作ろうとすると
スキャン時にPDFで保存するか(黄ばみや斜行がひどくても後修正が困難)
後からAcrobatなどの有料ツールでPDF化するか(せっかく補正しても画質劣化する上に認識率も超残念)
ポピュラーな方法がこの2者だったのよね
64:名無しさん@お腹いっぱい。
18/04/17 05:54:08.82 .net
画像アップするなら .jpg まで付けてリンク張ってくれ
一々リンク先まで飛ぶのが面倒
65:名無しさん@お腹いっぱい。
18/04/17 10:22:08.67 HdViBi2B0.net
>51
> オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
URLリンク(i.imgur.com)
> 最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
> 最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
URLリンク(i.imgur.com)
>52
> 最新版のtesseract-ocr4.0β+jpn+jpn_vertでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
>54
> 22ポで画面上に再現した擬似元画像
URLリンク(i.imgur.com)
> それをOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
>59
> 同じ元ネタ画像をonlineOCRというサイトに投げてみた結果。
URLリンク(i.imgur.com)
泥タブから見たらimgurモバイル版が勝手にjpg変換するもんで酷い有様になっとった
直リン&専ブラのサムネ表示の重要性を痛感するわ
66:名無しさん@お腹いっぱい。
18/04/18 11:26:59.67 .net
>>63
さっそく拡張子付けてくれたね
67:ハカーを待ちながら
18/04/18 21:35:49.78 cpORIMNk0.net
>>63
どなたか存じませんが、代わりにお手数ありがとうございます。
この手のサイトにアップロード自体初めてで、ボツ画像を何倍もアップしたのは内緒。
画像上→右クリックで拡張子込みのアドレスが得られるのね。次回があればそうします。
68:ハカーを待ちながら
18/04/20 23:15:45.08 Vm4QLpiQ0.net
最新版tesseract-ocrの認識スコアが最後まで前回レベルで持続できていたら問題はない
のですが、残念ながら大振りゆえブレ幅が大きく、外したときは「なんでこうなるの?」
という結果になってしまいます。。
300dpiでスキャンした元tiff画像
URLリンク(i.imgur.com)
69:0.png 上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット https://i.imgur.com/eBH0JQn.png 上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット https://i.imgur.com/buq3aE5.png これだと旧バージョンの方が間違える幅が小さいと感じられるのではないでしょうか。 では元画像をチューニングすることでもう少し何とかできないか? Linux界にはImageMagick というコマンドラインから使う画像変換ツールがあるので、ぼかしオプションを適用して もう少し滑らかな曲線に近づけてからOCRしてみました。 元tiff画像をImageMagickで-blur(ぼかし)オプションを施して太く滑らかにした画像 https://i.imgur.com/AQey4zb.png 上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット https://i.imgur.com/TK4GNwm.png 上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット https://i.imgur.com/Mr61je5.png 果たしてOCRには画像がどう見えているのか? 結果は変われどあさっての方に振っています。
70:ハカーを待ちながら
18/04/20 23:23:17.07 Vm4QLpiQ0.net
しつこく今度はノイズ除去オプションを使ってみます。
元tiff画像をImageMagickで-despeckle(ノイズ除去)オプションを施して滑らかにした画像
URLリンク(i.imgur.com)
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
どうも何というか、こじらせているというか、なかなか言うことを聞いてくれないですね。
71:名無しさん@お腹いっぱい。
18/04/21 10:32:53.20 TzRxXe7t0.net
ディティールの失われてる2値画像を後から弄ってもどうにもならんよ
検証用の画像はグレースケールかフルカラーでスキャンしたものを用意する
(業務用複合機だとデフォルト値が輪郭強調の超圧縮モードなのでオプション設定には注意が必要)
過去のものは従来tessaですでにデータ化済んでるんだろうし
今から再OCRのために骨折ってもしょうがない
完全移行の方向でなく単に検証のためにやってるならなおさら
紙原稿残ってるなら再スキャンしてやり直しもいいけどね
72:名無しさん@お腹いっぱい。
18/04/21 14:10:45.01 TzRxXe7t0.net
あー… よく見たら2値画像をカラータイプ変換も拡大もしないで補正かけてんのね
これはヒゲ増えただけでボケてないしOCR的にどうとかいう以前に補正かけた意味がない
URLリンク(i.imgur.com)
画像に関してある程度のフォーマット知識と目視で判断できる眼や環境がないと
検証に値する画は作れないと思う
これでは勤勉な無能者状態で、申し訳ないが何の参考にもならないし誰の得にもならない
コマンドラインでがんばりたい縛り?なのか知れんけど
まずはGIMPなりでプレビュー見ながら調整して設定詰めて方針が固まったら
本運用時にImageMagickにメモっといたパラメータで流し込むとか手順踏んだほうがよくない?
73:ハカーを待ちながら
18/04/23 01:44:27.61 ATRq3RKx0.net
>>68
>>69
高度なアドバイスをありがとう。ご存知の通り画像処理はやったことないし、知識もない。
出がらし状態の死体にいくら細胞活性剤を注入したところで生き返る訳がないのは当然だけど、
せめてゾンビ程度に動けるようにできないかなと、今度はInkscapeを使ってビットマップを
ベクターデータに変換したものを再度pngにしてみたよ。
肉眼にはノイズが減ってクッキリとしたように見えるが、さてOCRからはどう見えるか。
URLリンク(i.imgur.com)
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
URLリンク(i.imgur.com)
……やはり修正しやすさからいうと、一つ前のtesseract-ocrかな。
不完全なテキストを校正するには、sedによるフィルター処理で複数箇所の一括置換を
やってるんだけど、途中でもっと良いやり方がないかと思って何度もOCRからやり直す
もんだから、文庫や新書をひらきにしたスキャン画像は十冊分くらいあるんだけど、
テキストデータの校正を終わらせて完品にまで至ったのは実はないんだわ。
何度も繰り返すうちにちょっとずつ正解率も向上してはいるんだけど、今度は再スキャンも
検討してみます。
74:sage
18/04/23 15:36:58.50 3ep7Hu9S0.net
OCRで、ごくまれになのだけど、な-た の誤読があって。
これにまいったのが遠い思い出。されたい されない というのは
あまりに神経を使うので、自分で校正するのを諦めた。
75:名無しさん@お腹いっぱい。
18/04/26 02:18:58.59 dUhJb3xD0.net
されたい と されない をどうやって校正してたんですか?
76:sage
18/04/26 11:36:23.50 ek6J62ek0.net
突き合わせ。それしかないだろう。みつけるのは、文脈。
77:名無しさん@お腹いっぱい。
18/04/26 21:38:26.21 dUhJb3xD0.net
さすがに肉眼じゃなくて、検索/置換とかgrep的なツールを使ってサーチ、ですよね?
78:名無しさん@お腹いっぱい。
18/04/28 22:11:29.01 bWQs2w/K0.net
あのね、ほんの30年前までは万葉集の中に「●」という文字が
何か所使われているか、一晩徹夜で5回最初から最後までめくって
書き出してリストを作ってたの。
79:名無しさん@お腹いっぱい。
18/06/01 10:48:04.16 Qi+8uYQ40.net
同好の士がいるみたいなので私のやり方の一つを紹介
縦書き小説のテキスト化限定
段組み無しか2段組み程度のレイアウトの単純なもの限定
読取革命使用前提
スシャン画像の傾き補正余白除去など画像処理を程々にする
処理した画像を横に8ページ分つなげる(2段組みの場合は縦に6ページ)※これが校正作業効率化の肝
つなげた画像を読み込ませて読取革命で作業
認識率アップは程々に
校正作業効率アップの方が気楽
80:名無しさん@お腹いっぱい。
18/06/01 10:50:24.17 Qi+8uYQ40.net
スキャン画像・・・
81:名無しさん@お腹いっぱい。
18/06/01 11:02:23.02 Qi+8uYQ40.net
もう一つ
校正前のテキストをワードで開く
原本のページ体裁出来るだけワードで再現する
(用紙サイズ、字数、行数、字間、行間など)
ウインドウ透明化ソフトでワードを半透明化最前面
元画像をにワードを重ねる(行間に重ねたり)
比較校正作業
82:名無しさん@お腹いっぱい。
18/06/07 22:56:25.84 oM4s8ZW30.net
ルビが扱いたいと結局e.Typistしか選択肢がない感じがあるけど
e.Typistは―とか・・・・・・にすごく弱い感じがする
ーや1として認識されるならまだいい方で
空白を認識する設定にすれば空白として出力してくれるけど
逆に言えば文字としては認識されてないことが多いので修正も不能で困る
83:ハカーを待ちながら
18/06/15 21:07:25.53 lat6DNLI0.net
>>76-78
新たなノウハウの提供ありがとうございます。
OCRからの校正作業は未踏の部分が多いし、未だ正解がある訳でもないですから、
こうして持ち寄ったノウハウが少しでも蓄積していくと良いですね。
透過して元画像とテキストを重ねるってのは自分も一度は考えたけど、当時
Linuxでまともに縦書き表示のできるテキストエディタとかワープロはなかった
ので、結局縦書きの元画像と横書きのOCR化テキストを横に並べて見比べるしかなかった。
まあでもLinuxも悪いところばかりじゃなく、1ページずつ200件超えに分割されたまま
一冊分のテキストファイルをタブで全部開き(ページの移動はタブ上でスクロール)、
開いた全ページに跨って検索/置換ができるBluefish(本来はHTMLエディタ)とか
Geany(本来はIDE)が使えるので、Meryやotbedit時代のように検索/置換のために
ひとつのファイルに結合してから校正という手段を取らなくて済むのは良かった。
(好みというか選択肢の問題ね)
今は元画像とテキストファイルを一対一で、突き合わせが終わった分だけ閉じています。
ただ何故かLinuxのエディタって行間を広げるオプションがないのが多くて、仕方なく
ttfname3.exeを用いて(Wineで実行)フォント側で行間を広げる加工をしたのは余談。
84:名無しさん@お腹いっぱい。
18/06/16 09:37:39.11 TK7ks+ws0.net
長文駄レスは過疎の元
自分語りは程々に
85:名無しさん@お腹いっぱい。
18/06/16 13:35:14.61 7Ojo0RlC0.net
スレの性質上、情報提供は歓迎
長くても読みとれる情報はある
脳のOCR機能を鍛えるべき
86:名無しさん@お腹いっぱい。
18/06/16 14:01:15.28 TK7ks+ws0.net
情報提供レスが長文になるからこそ雑談は短文で抑えるべき
要点の無い長文日記と入り混じるとどれが重要なレスなのかわからなくなる
この手のスレは情報収集&提供目的を主として見に来る人がほとんどだし
匿名掲示板で名無し書込みする人間の多くは(特定のコテハンとの)
「過度」の慣れ合いは求めてない、ということを念頭に入れましょう
winユーザーにlinuxでの苦労話で返すようなのは相手の目線に立ってるとも言い難い
雑談するにしても簡潔に
87:名無しさん@お腹いっぱい。
18/06/16 17:16:54.01 DpwT78Ra0.net
長文駄レスやめーや
88:名無しさん@お腹いっぱい。
18/06/17 14:51:45.64 UW0RCtPR0.net
そんなルールはないぞ
89:名無しさん@お腹いっぱい。
18/06/20 00:23:42.81 4KCvLiUk0.net
MSのOCRはどうなんかね?
URLリンク(docs.microsoft.com)
90:ハカーを待ちながら
18/07/10 16:36:25.03 oMs2MPt30.net
>>83
うーん、>>80を『Linuxの苦労話』としか読んでもらえなかったのは残念だな。
後半の「おかげでWindowsだけ使っていた頃にはできなかった
・200件超えのテキストファイルを一度に開ける
・開いている複数のファイルに跨って検索/置換ができる
ことができるソフトに出会えた」ってのがキモなので(だから固有名詞を出してる)、
期待していたレスは『○○というエディタならWindowsでも同じことができますよ』
だったんだけどね。
実際「Windowsで(上記2点)ができるエディタを教えてください」って質問を投げれば
一行で済むけど、経験上質問を一行しか書かない奴って返答してもダンマリだし、人様の
知見をお借りする前に自分でどこまで試したか? を加えて書き直すと、
「Meryやotbeditではできない(上記2点)ができるエディタを教えてください」
『そんなことできるのか?』というツッコミがあるかもしれないので、自分なりの
知見を追加して更に書き直すと、
「Meryやotbeditではできない(上記2点)ができるエディタを教えてください。ちなみに
LinuxではBluefish(本来はHTMLエディタ)とGeany(本来はIDE)ではできました」
これを自分なりに雑談めかして書くと >>80になるのだが、内容がつまらないと言われると
申し訳ないとしか言えないけどね。
で「Windowsで(上記2点)ができるエディタ」について何かご存じない?>>all
91:名無しさん@お腹いっぱい。
18/07/10 16:44:44.78 DcKO8Dw00.net
長い
要点3行でまとめて
92:名無しさん@お腹いっぱい。
18/07/11 00:52:02.90 xEXPfRdD0.net
画像背景のエディタはAA用のがあったと思うけど縦書きには対応してないと思う。
MS WORD には、画像背景として重ねて文字を入力できる機能があった気がするけど
HTMLなら透過レベル指定できると思う。
HTMLでも writing-mode vertical-rl で縦書きできるんだな。
93:名無しさん@お腹いっぱい。
18/07/11 11:08:12.89 oaLZdIB/0.net
Linuxなんてただで手に入るし、情報の入手が簡単な現代では小学生でも導入できます。
94:名無しさん@お腹いっぱい。
18/07/11 11:36:57.04 exMQ5TB90.net
いろいろずれているな
95:名無しさん@お腹いっぱい。
18/07/11 11:59:37.61 gc/ZijI10.net
ぶっちゃけOCRの用途はPDFに透明テキスト埋め込むのが目的な人が多いだろうし
それは置いとくとしてもテキストエディタ云々はもうOCR関係なくない?
200pを各ページごとにファイル分けて全部一遍に開きたいというのは運用としても特殊すぎる
Grepで横断検索できてピンポイントでファイル開ければ
同時オープンファイル数は20もあれば充分だと思うが
96:名無しさん@お腹いっぱい。
18/07/11 16:59:13.66 exMQ5TB90.net
完全なテキスト化を目指す人にしてみればそっちも重要
97:名無しさん@お腹いっぱい。
18/07/11 17:04:31.64 exMQ5TB90.net
校正作業効率化 その3
複数ファイル複数条件一括置換ソフト
「TextSS.net]
いろいろ捗る
98:名無しさん@お腹いっぱい。
18/07/25 21:52:36.75 u4/38rAZ0.net
>>92
まあ確かに完全テキスト至上派といえども、200ページ以上にまたがった
要・校正テキストファイルをイッキに処理できる集中力の持ち主なんてのは
完璧超人か紙一重だろうから、常人は真似できないしするべきでもないし、
確かに実際は一度に20件も開ければ十分だろう。
ただ、できるけどしない と できないからやれない とは違うから、
ツールの限界は少ないほうがいいし、選択肢は多いほうがいいと思うぞ。
せめてタブで開いた複数のファイルに対して一度に検索/置換できた方が
便利だと思うが、Windows用でご存じないか?
ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も
実はある。
99:名無しさん@お腹いっぱい。
18/07/25 22:14:26.85 u4/38rAZ0.net
#折角なので乗っかる
校正作業効率化 その4
対象がフォルダでもファイルでも検索して、置換もできるツール
Devas
すでに開発は終了したようだが、Wineを介せばLinux上でも動作するのが◎。
検索結果の文字がセンタリングされて上下でビシッと揃うので視認性も◎。
検索結果を好みのエディタで開けるように設定できるのも◎。
100:名無しさん@お腹いっぱい。
18/07/26 00:25:51.34 ehCn6mO80.net
ファイル開いてなくてもgrepで一括検索も置換もできるし
200ファイル開いて操作するほうが大変なのでできないよりできたほうがいいとも思わない
が
>ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も実はある。
ならそれ使えばいいんじゃないですかね
無理難題系をわざわざ人に聴かなくても自分で出来るソフト知ってるならさー
101:名無しさん@お腹いっぱい。
18/07/31 00:40:51.95 XFv/+RTU0.net
>>97
>ファイル開いてなくてもgrepで一括検索も置換もできるし
>200ファイル開いて操作するほうが大変なのでできないよりできたほうがいいとも思わない
―そんなふうに考えていた時期が、俺にもありました。
確かにファイルを開かずともgrepやsedで検索/置換はできるけど、修正すべき間違いを見つけるには
結局一件ずつファイルを捲って見つけなきゃならなかったのよ。
勿論こういう作業に正解がある訳もなく、己の趣味とか流儀に従って粛々と各自でやっていくしか
ないけど、多様性の確保のためにも自分の流儀にかなわない手法を否定してほしくはないけどね。
>>ちなみにBluefishもGeanyもオープンソースなソフトだから、Windows版も実はある。
>ならそれ使えばいいんじゃないですかね
>無理難題系をわざわざ人に聴かなくても自分で出来るソフト知ってるならさー
ィャ自分が知らないだけで世の中にはもっと優れたソフトがあるかもしれないから、
それを知りたくて、知ってる誰かに会えるかもしれないから、ひとはこうして掲示板に
集うんじゃないの?
102:名無しさん@お腹いっぱい。
18/09/13 11:21:16.21 E3IKZGva0.net
3年ぶりに覗きに来たけど読み取り革命まだバージョン上がってないんか。
250dpiぐらいの低解像度のOCR得意なオススメありませんか?
103:名無しさん@お腹いっぱい。
18/09/13 12:21:48.97 MMXNUVI90.net
>>99
苦手なのは国会図書館から提携図書館に送ってもらったコピー。
認識率が悪いときはコントラストとガンマ値を調整すると、それなりに読める。
104:名無しさん@お腹いっぱい。
18/09/13 12:22:24.02 MMXNUVI90.net
>>100
2年前から読み取り革命を使ってます。
105:名無しさん@お腹いっぱい。
18/09/13 20:22:21.28 fiE6t4/U0.net
日本語音声入力と日本語OCRの停滞ぶりは凄いよね。日本語というのは損な言語なんだね。
106:名無しさん@お腹いっぱい。
18/09/13 21:27:50.69 /U9Rgttz0.net
>>102
需要が一段落したのでは?
新しい文書は電子化されてるし、主要な活字本はOCRで取り込んだ。
次のターゲットは、手書き、特に古文書だろうけど、あまりにもニッチ。
107:名無しさん@お腹いっぱい。
18/09/23 22:14:27.95 6ExiKjjd0.net
>>103
ぜんぜん電子化されてないじゃん。いまだに断裁しているよ。紙の本は滅びて欲しいわ。
108:名無しさん@お腹いっぱい。
18/09/23 23:33:25.62 zSxXIagU0.net
とりあえず>102がGCV使ったことないのは分かった
googleさんはここ数年でむっちゃ進化すすめてるやろ
109:名無しさん@お腹いっぱい。
18/09/23 23:48:00.36 SMtG23ki0.net
GoogleのCloud Visionでアプリ作ったものですが
これをWindows向けに開発して
リリースしたら需要あるみたいですね?
まぁGCV自体従量制なんで、
ポイント式にしないと危ないですが
Windowsでも出来たかなぁ
110:名無しさん@お腹いっぱい。
18/09/24 02:04:54.60 7ukO3Jjb0.net
手書きとか写真からの文字抽出とかは進化してるけど、
スキャン文書の99.9%の認識率を99.99%に上げるような進化はしてないよ
ーー(二重ダッシュ)がかすれ扱いされて消されたり
ルビを巻き込んで盛大にグチャるのも10年前から変わらん
111:名無しさん@お腹いっぱい。
18/09/24 09:48:02.72 rfZDVbAs0.net
そりゃどこまで行ったって100%完璧にはならんだろ
それを停滞というのならもうOCRは諦めろとしか
>>106
ユーザーが自分のAPIキーを設定できるようにしてくれるとありがたい
もちろんGCP使えるエンドユーザーは限られるだろうからソフト内の課金制度も
平行して必要だとは思うけど
112:名無しさん@お腹いっぱい。
18/09/24 12:06:18.22 7VNGbKqX0.net
>>105
本当に?じゃあ使ってみるわ。俺はメディアドライブとかAdobeとかXEROXのOCRを使って毎日ゲンナリしています。
113:名無しさん@お腹いっぱい。
18/09/25 13:21:20.30 1YzzlqqB0.net
>>108
返信ありがとう。
APIキーと課金両方つけるアイディアはいいね。
114:名無しさん@お腹いっぱい。
18/09/25 20:38:03.49 z28g25+q0.net
良かったら作ったOCRアプリの名前教えてほしい
せっかくだから試してみたい
115:名無しさん@お腹いっぱい。
18/09/25 21:00:00.34 1YzzlqqB0.net
>>111
興味を持っていただきありがとうございます。
ClipOCRというアプリです
iOSで出してます
116:名無しさん@お腹いっぱい。
18/09/26 02:36:36.23 Z9NJjTaq0.net
iosかあ残念持ってないや
GCV使用だからって泥アプリとは限んないやね
117:名無しさん@お腹いっぱい。
18/09/26 15:32:33.40 3VULbJ260.net
Windowsアプリ興味あるんで
OCRアプリ作ってみようかなと思います。
今ゲームアプリ作ってるんで
平行しながらになるとは思いますが。
118:名無しさん@お腹いっぱい。
18/09/26 15:46:44.32 6shTwqUF0.net
がんばれー
119:名無しさん@お腹いっぱい。
18/10/18 06:31:56.70 xqmBS9U/0.net
ocrで自炊完全テキスト化なんて幻だろ
自炊本全部リフローにしたい野望はみんな一度は夢見るが現実はまだ無理
120:名無しさん@お腹いっぱい。
18/10/21 21:47:44.30 J8kL1sRl0.net
「できらあ!」
と言いたいところだけど、現実は
「(時間と手間さえかければ)できらあ……」
くらいしか言えないけど、それじゃイヤなんだよね?
スキャンするなり即修正無しで使えるようでないと。
121:名無しさん@そうだ選挙に行こう! Go to vote!
18/10/22 08:29:07.17 lKYGaXGm0.net
AI のできしだいだろうなぁ
122:名無しさん@お腹いっぱい。
18/10/22 11:56:35.83 9+FR8jVB0.net
結局のところ、googleのエンジンが一番優秀ということ?
そうなら、googleエンジンを組み込んでる市販ソフト買えば使えるね。
123:名無しさん@お腹いっぱい。
18/10/29 16:05:36.04 URrtjB+G0.net
Google様でも手書き文字は全然ダメだね。
国内メーカーの企業向けのOCRって月ん百万取ってるけど、
Googleエンジンより出来が良いのだろうか?
124:名無しさん@お腹いっぱい。
18/10/29 17:58:02.72 cRbXFyKJ0.net
>>120
そんな事はないが、Googleだって企業向けは当たり前に金取るから。
一日中検索してたらGoogleから50万円だったか請求する画面出て来たよ。免除してもらったが。
125:名無しさん@お腹いっぱい。
18/11/05 18:13:32.12 18FQZOi80.net
業務向け(BtoB)で高額でも、出来が良いとは限らない
>>112 が無料でリリースしてるOCRにも劣る大手企業のソフトなんて普通に有りそう
126:名無しさん@お腹いっぱい。
18/11/05 18:17:14.26 0FMJmniL0.net
すげー処理が遅くなると思うけど、レイアウト認識・文字の切り取り・文字認識 等、各プロセスで得た複数の候補を(結果的に膨大な候補になる)、すべて辞書と照らし合わせるみたいな、
ディープラーニング(自分門外漢なので言葉の使い方に不安)みたいな事をやってくれるソフトは無いものか。
計算資源をバカ食いする点以外は、技術的にはそれほど難しくないとおもうけど。
127:名無しさん@お腹いっぱい。
18/11/05 18:21:01.26 0FMJmniL0.net
連投すまない。補足。既存の技術の組み合わせで出来るのではという意味。
128:名無しさん@お腹いっぱい。
18/11/05 18:28:05.57 /T2ZmVqB0.net
>>123
レイアウト認識と文字の切り出しを別のステップに分けるのが案外、難しい。
人間なら簡単に認識できるけど機械には難しい画像を利用したのがCAPTCHA
129:名無しさん@お腹いっぱい。
18/11/05 20:57:32.60 0FMJmniL0.net
>>125
返信ありがとう。
レイアウト認識の段階で誤りがあるとその次のステップに進んでも答えに辿り着けないという事でしょうか?
自分もそれについては全く同意見なのですが、前段階での認識候補を複数出し、その次でのステップでも、前段階で上がった複数候補を愚直にすべて処理し、各候補ごとに更に複数候補を‥というのを続け、
ネズミ算的に膨れ上がった候補から辞書を使って答を探る事は出来ないのかなと思ってます。
そうではなくて言葉通り”レイアウト認識と文字の切り出しを別のステップに分けるのが難しい”という意味でしたらすみません。
130:名無しさん@お腹いっぱい。
19/01/24 02:28:33.48 q/RnbuRc0.net
喰いが止まってるので投下。
校正作業効率化 その5
「ScanTailor」
えるち某みたいなのがLinux陣営にも欲しいものだと思っていたら
ちゃんとあった。Windows版も。
画像フォルダを丸ごと読み込んで、
・見開き画像を左右に分割
・傾きを補正
・トリミング
・余白付加
・ゴミ取り
・dpi変更
・濃度調整
上記を複数頁に対して一括自動実行して、新たな画像が作られる。
使ってみたがOCRのヒット率は向上したような気がするし、少なくとも
生スキャン画像にありがちな上下左右への偏りを除去できるから、
ビュアーでペラペラめくるときに同じ位置に揃うので見やすくはなる。
惜しむらくはノンブルを自動除去できないのと、上下に分割はできない
こと(二段組の小説とかで)だな。
131:名無しさん@お腹いっぱい。
19/01/24 18:19:29.58 ltsIJbyU0.net
>>127
なかなか良さそう。帰ったら試してみる。
もっとも、本当に欲しい機能は、
GoogleのOCRの前処理で
1. ノンブルを含む余白の自動カット と、
2. 縦複数段組の自動分割 なので、
かゆいところには手が届かない、かな。
132:名無しさん@お腹いっぱい。
19/01/24 20:58:14.74 oC0eBe300.net
エチル、読取革命時代からなんも進歩してないじゃねえか
133:名無しさん@お腹いっぱい。
19/01/28 19:33:43.72 YbE5uvwR0.net
ScanTailorはだいぶ前から全然アップデートされてないと思ってたら、別の所にScanTailor Advancedなんてのが出てるんだな。
まだ普通に検索しても一発で出てこない。
ScanTailor Advanced
URLリンク(github.com)
134:名無しさん@お腹いっぱい。
19/04/22 13:29:43.28 EQQ1i8Cu0.net
LINE(PC版とAndroid版)の新機能がOCRの文字起こし機能をいつのまにか搭載してたようだよ
Googleやtesseractと比べてどうなのかな?
こうなってくるとLINEの友達にOCR変換投げつけ用アカウントの人が必要だw
135:名無しさん@お腹いっぱい。
19/04/23 03:18:57.23 f3SIBRKk0.net
レシート読み取りに関してはレシーピが最高。
グラム(g)を9と読み取るためにおかしくなる以外は濁音半濁音を間違う程度で正確に読み取る。
濁音半濁音は出来るだけ画面いっぱいで手振れ無しで撮らないとよくミスる。
グラム(g)とか数字+改行とかは修正ペンで消してから撮影すれば、金額はほぼ100%正確に読み取ってくれるんで修正が必要ない。
割引もマイナス値で読み取ってくれる。
136:名無しさん@お腹いっぱい。
19/04/24 17:27:12.85 H2ck4f350.net
OCRする前に、原稿が上下逆かどうかを自動判別する手法、何か無いですか?
Linuxで使える物で
137:名無しさん@お腹いっぱい。
19/04/24 23:45:13.63 3bEMxS/C0.net
普通に考えて「OCRする前に」は無理だろう。
138:名無しさん@お腹いっぱい。
19/04/26 21:22:29.83 AqpcAtpT0.net
そのままOCRをして。上下逆にしてOCRして、
2種類の日本語の単語数を数えて、(どんな方法かは分からない)
多い方を正解にするとかは?
139:名無しさん@お腹いっぱい。
19/04/29 11:28:12.88 0UVs2aXB0.net
>>133
ドキュメントスキャナには上下を自動的に判別する機能があるよね。ドライバを解析すればわかるかもね。
140:名無しさん@お腹いっぱい。
19/05/01 07:14:36.04 ACgFkkVG0.net
>>133
領域を9等分して、明るさを数値化する。明るい区画は空白が多いという事だから、下になる。
領域を細かく分ければ精度が上がる。
141:名無しさん@お腹いっぱい。
19/05/04 09:49:33.30 G0ocSySL0.net
>>137
なるほど。ありがとうございます。
これだと、言語を問わず判定出来そう。
142:名無しさん@お腹いっぱい。
19/05/04 15:42:35.53 mwZ9gCOS0.net
>>138
横書きなら右に空白が増え、
縦書きなら下に空白が増え、
同じ横書きでもアラビア語みたいに右から書くと左に空白が増える。
この方法を使うためには、縦書きか横書きかを決めておく必要があるのでは?
143:名無しさん@お腹いっぱい。
19/05/08 21:36:16.90 mvroD7C30.net
>>76 に追加
読取革命でほとんどのエラー(フリーズ、エンドレス処理など)は
属性変更→認識→文字種→
で「記号」のチェックを外すことで回避できる
必要な記号は「ユーザー定義」欄に入れる
「」『』()、。ー…・!?々 など
ようやく気付けた・・・
私の環境だけ?
144:名無しさん@お腹いっぱい。
19/05/29 07:43:25.13 AmFhZwjQ0.net
tesseractでそれぞれの文字の一致率が何%だったのか取得することってできない?
もしくは高性能なOCRソフトで一致率が何%だったのか取得できるものない?
145:名無しさん@お腹いっぱい。
19/05/29 17:19:09.12 b/cfiGBx0.net
論理矛盾と言うか哲学的な質問だな
146:140
19/06/01 06:03:42.02 i2RMvlxm0.net
わかりにくくてすまん tesseractにある字体データと対象の文字の一致率って意味
URLリンク(tesseract.patagames.com)
このサイトにある ↓0.125って数字は一致率0.875以上だった場合、Good Matchを返すって意味だと思う
matcher_good_threshold 0.125 Good Match (0-1)
matcher_perfect_threshold 0.02 Perfect Match (0-1)
やりたいことはこの一致率が指定した値以下だった場合、テキストファイルになにも書き込まないという処理をしたい 読み込む画像はすべて1行
一致率を取得できればほかのプログラムと組み合わせてできるようになる
もしくはこのサイトの関数をうまく使えばできそう
それっぽいのをいじってみたけどうまくいかなかった
147:名無しさん@お腹いっぱい。
19/06/23 10:49:31.56 RXmepqIZ0.net
まぁtesseractは精度悪くはないけど
実用には値しないよなぁ
148:名無しさん@お腹いっぱい。
19/06/23 11:32:22.27 cmA3lp6Y0.net
何を持って実用というかによると思うが
tesseractエンジンのCapture2Textにはずいぶんお世話になってる
149:名無しさん@お腹いっぱい。
19/06/23 15:55:40.30 oeEPZCVa0.net
tesseractって認識精度はともかく校正はどうやんの?
なんかいいツールある?
150:名無しさん@お腹いっぱい。
19/06/24 00:53:07.52 GF5eEgcd0.net
テキストエディタで認識結果のファイルを開いて、
誤認識している文字列を肉眼で拾ったら、
Grepツールに渡してフォルダごと全ページを正規表現検索して、
ヒットしたら正しい文字列に置換。
の繰り返しが基本。
最初にやるのは、まず一行の文字数を揃えること。
一行40文字で組まれているのに、それ以上あればその行はどこか
間違っている。
例:一行41文字以上で行末が句読点ではない文字列を検索する正規表現
^(.{41,}[^、。]$
151:名無しさん@お腹いっぱい。
19/06/26 20:48:52.13 VPvPk7G50.net
仕事で手書きのファックスがバンバンきて、金額いれて計算して合計送り返す昭和なことしてるんだけど、
pc.スマホでスキャンしてエクセルで自動計算するには何が良いですかね?pc買い替え?タブレット購入?
ちなみに得意先のファックスの連打はパソコン持ってない奴らがほとんどでそちらの改善はほぼ無理
152:名無しさん@お腹いっぱい。
19/06/28 09:45:39.33 WMaziBi/0.net
最近の手書きOCRは優秀らしいぞ。
でも、ソリユーション価格だから数百万円とかなんだろうな
153:名無しさん@お腹いっぱい。
19/07/05 13:04:14.42 8rCNDdqb0.net
C2Tの翻訳結果に変な文字列↓が挟まるようになったけど、何ぞこれ
ce4eb3e12fa6d7940ab33a38d4d816ab
文章の終端にくっついてるみたいだから、改行記号か何かが化けてるんだろうか
154:名無しさん@お腹いっぱい。
19/07/17 14:53:00.47 fjEXnK4S0.net
>>150
tesseract-ocrでOCRすると、たしかテキストの末尾に何か挟まってることが多いね。
Meryだと一文字の記号で[FF]と表示されるけど、同じものかしら。
検索/置換で真っ先に削除するから実害は感じないけど。
155:名無しさん@お腹いっぱい。
19/09/15 22:59:06.77 KlCpzq3m0.net
MicrosoftのLensを使って、FAXで送られた書類をスマホで撮影して取り込んだけど
文字小さいから全然読み込めなかったわ
156:名無しさん@お腹いっぱい。
19/09/15 22:59:40.51 KlCpzq3m0.net
あげ
157:名無しさん@お腹いっぱい。
19/09/23 22:23:53.52 E/6na/zQ0.net
Capture2Text使ってたら突然翻訳されなくなりました
英語と日本語で上下に別れていた枠が上の英語のみ
再翻訳のボタンも消えました
設定見直してもまったく変わっておらず
対処方検索してみてもみつからないです
158:名無しさん@お腹いっぱい。
19/10/16 04:14:51.41 v6/B1Ui70.net
>>144
tesseractの最大の欠点は、認識できなかった文字を無かったことにして何も出力しないこと。
認識できなかったら変な文字でよいから出力すべき。これだと後から目で見て気付きやすい。
159:名無しさん@お腹いっぱい。
19/10/16 04:18:09.12 v6/B1Ui70.net
>>147
おっしゃるとおり。
この方法の最大の欠点は、少しずつOCRに掛けながら校正出来ないこと。
最初に全部をOCRに掛けてから、全部を校正するしかない。
160:B
19/10/16 07:25:42.98 v6/B1Ui70.net
>>155
tesseract --print-parameters
A list of useful control parameters
URLリンク(github.com)
認識に自信が無くても何かの文字を出力するようなパラメータが見つけられません。
161:名無しさん@お腹いっぱい。
19/10/16 08:24:23.64 LNV65aKZ0.net
いつまでたっても小説テキスト化位では
eTilTran 読取革命の組み合わせが最強だな
進歩なし
winでは
162:名無しさん@お腹いっぱい。
19/11/05 18:14:11.50 cSgW8apd0.net
Capture2TextのCLI版で日本語をスキャンして結果をコマンドプロンプトに出力すると
文字化けするのですが対処法はありませんでしょうか
オプションで--clipboardをつけてクリップボードを経由すると文字化けなしで結果が取得出来るのですが
クリップボードを汚したくないので文字化け無しで出力したいです
OCR実行前にコマンドプロンプトの文字コードを変えても効果がありませんでした
163:名無しさん@お腹いっぱい。
19/12/10 01:29:48 sT0hUZAS0.net
つい最近OCRソフト探し始めたんだけど、日本じゃ結構前から開発してるとこ無いと知って唖然。
ネットで検索すると丁寧に比較解説してるサイトがすぐ見つかるけど、そこによるとパナの読取革命が一番高性能みたいだね。
ただ長らくバージョンアップしてないしこれからもする事はないみたいだ。
その点アドビは性能面ではパナに劣るけどこれからも開発続けてくし何よりOCR化した時のサイズが小さい。
パナのほうは最大10倍近く膨れ上がるしどうにかならんかの
164:名無しさん@お腹いっぱい。
19/12/10 03:32:57.63 UgLmsfEi0.net
>>160
読取革命でOCR透明テキストを足してからAcrobatで圧縮
165:名無しさん@お腹いっぱい。
19/12/10 03:36:47 UgLmsfEi0.net
>>160
DeepLearningに期待しよう。まず手書き文字認識と、版木本の古文書文字認識から始めて、手書き古文書文字認識が目標。
166:名無しさん@お腹いっぱい。
19/12/10 06:54:24 tVn6fHFe0.net
Adobeの認識エンジンは自社開発ではなかったような。
今は違うのかな。
GoogleのAPIが実用的になってきている。
あとフロントエンドのGUIさえあれば良いのだが。
167:名無しさん@お腹いっぱい。
19/12/11 06:28:23.68 XqwDZL500.net
PDFelementtってやつ買おうと思ってるんだが、これも結局パナソニックのシステム利用してるんかね。
買い切りでPDFも編集も出来るからいいのかなって思って。
168:名無しさん@お腹いっぱい。
19/12/11 08:50:49.67 djMuwAyz0.net
>>161
横からだけどこれで圧縮可能なのか
試してみるわ
ありがとね
169:名無しさん@お腹いっぱい。
19/12/13 14:39:43.81 9aicjBgH0.net
結局のところ修正作業がしやすいのが一番
なんなら必ず同じ読み取りミスをするならそのほうがいいくらい
あとルビ対応が少なすぎる
170:名無しさん@お腹いっぱい。
19/12/22 14:43:51.13 ri547sjN0.net
e.Typist使ってるが
透明テキストPDFにするなら修正しないし、
txt化するなら良くある読み取りミスを一括で置き換えてそれだけになっちまうわ
ルビはレイアウトを誤認識することがあるから無視してる
高圧縮のPDFの出来がAcrobatより良いんでそこは良い
171:名無しさん@お腹いっぱい。
19/12/25 11:59:05.90 w0pZX05+0.net
縦書きの透明テキスト付きpdfで
読取革命超える認識率のOCRって無いんかな?
Google Cloud Visionで出来れば最高なのになぁ
172:名無しさん@お腹いっぱい。
20/01/04 06:33:55.83 oSFqms1b0.net
正月休みでGoogle Compute VisionのOCRで透明テキスト付pdf作るの作ったけど需要ある?
現状バグあり、Google API Key必要。
Windows用、複数ページは連番のjpgファイルをあらかじめ作ること。
日曜に削除予定。githubに置こうと思う。
URLリンク(1drv.ms)
173:名無しさん@お腹いっぱい。
20/01/04 06:38:57.88 oSFqms1b0.net
あとpython入ってないと動かないかもしれんw
174:168
20/01/04 20:16:15.28 oSFqms1b0.net
Python入れなくても動くようにした。
URLリンク(1drv.ms)
需要ないのかなw
175:160
20/01/04 20:28:29.43 oSFqms1b0.net
バグってたので差し替えw
URLリンク(1drv.ms)
176:名無しさん@お腹いっぱい。
20/01/04 21:08:20.99 a6yqrZ840.net
正月明け土曜じゃリアルが忙しくて5ch見てる暇ない人も多いんじゃない?
見てても今時はスマホの専ブラだし
ていうか家帰ったらPCから落とすからちょっと待って
177:名無しさん@お腹いっぱい。
20/01/04 21:16:47.30 oSFqms1b0.net
ありがとうー
そっちでも動くといいなw
178:名無しさん@お腹いっぱい。
20/01/04 23:54:22.70 a6yqrZ840.net
試してみました
gcv2hocrの作者さんですかな、ご苦労様です
win環境でexe実行するもエラーで動かず
WSLでsrcを直接実行してみようとしたけど無理でした。
(なおWSL環境下では従来のgcv2hocrのmakepdf.shからの検索PDFは作成できてます)
WSLでgcvocr.py実行したときのメッセージ
$ python ./gcvocr.py ./page001.jpg "API key"
Traceback (most recent call last):
File "./gcvocr.py", line 8, in <module>
from requests import Request, Session
ImportError: No module named requests
つづく
179:名無しさん@お腹いっぱい。
20/01/04 23:59:20.20 a6yqrZ840.net
winからmakepdfgui.exeを直接実行したときのメッセージ(長いので1枚分だけ)
google OCR page002.jpg
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 588, in urlopen
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 248, in _get_conn
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 816, in _new_conn
urllib3.exceptions.SSLError: Can't connect to HTTPS URL because the SSL module is not available.
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\requests\adapters.py", line 439, in send
File "E:\tmp\makepdfGUI\makepdf\urllib3\connectionpool.py", line 637, in urlopen
File "E:\tmp\makepdfGUI\makepdf\urllib3\util\retry.py", line 399, in increment
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='vision.googleapis.com', port=443):
Max retries exceeded with url: /v1/images:annotate?key="APIキー"
(Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available."))
During handling of the above exception, another exception occurred:
つづく
180:名無しさん@お腹いっぱい。
20/01/05 00:00:30.96 zsNxjzf10.net
つづき
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\gcvocr.py", line 63, in <module>
File "E:\tmp\makepdfGUI\makepdf\gcvocr.py", line 50, in recognize_image
File "E:\tmp\makepdfGUI\makepdf\requests\sessions.py", line 646, in send
File "E:\tmp\makepdfGUI\makepdf\requests\adapters.py", line 514, in send
requests.exceptions.SSLError: HTTPSConnectionPool(host='vision.googleapis.com', port=443): Max retries exceeded with
url: /v1/images:annotate?key="APIキー" (Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available."))
Convert page002.jpg to hocr
No input file.
Generating out.pdf
Traceback (most recent call last):
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 171, in <module>
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 74, in export_pdf
File "E:\tmp\makepdfGUI\makepdf\hocr-pdf.py", line 84, in add_text_layer
File "src\lxml\etree.pyx", line 3469, in lxml.etree.parse
File "src\lxml\parser.pxi", line 1839, in lxml.etree._parseDocument
File "src\lxml\parser.pxi", line 1865, in lxml.etree._parseDocumentFromURL
File "src\lxml\parser.pxi", line 1769, in lxml.etree._parseDocFromFile
File "src\lxml\parser.pxi", line 1163, in lxml.etree._BaseParser._parseDocFromFile
File "src\lxml\parser.pxi", line 601, in lxml.etree._ParserContext._handleParseResultDoc
File "src\lxml\parser.pxi", line 711, in lxml.etree._handleParseResult
File "src\lxml\parser.pxi", line 638, in lxml.etree._raiseParseError
OSError: Error reading file 'E:/tmp\page002.hocr': failed to load external entity "file:/E:/tmp/page002.hocr"
Done!
181:名無しさん@お腹いっぱい。
20/01/05 00:03:08.67 8D3ry83X0.net
すまぬ、dllがいくつか足らないようです。
チョット調べてみます。
182:名無しさん@お腹いっぱい。
20/01/05 00:11:55.50 8D3ry83X0.net
ちなみにWinで動かした時、ウインドウは出ますか?
WSLの時は、モジュールが足らないのでpip installが必要かもです。
183:名無しさん@お腹いっぱい。
20/01/05 00:22:37.06 8D3ry83X0.net
実行するのは4つexeがあるうち、makepdfgui.exeです。これをダブルクリックしてみてください。
184:名無しさん@お腹いっぱい。
20/01/05 00:28:58.36 zsNxjzf10.net
プロンプトとボタンが3つあるGUIが別窓で出てます
WSLではghostscriptとhocr-toolsが使ってるライブラリ(Pillow / lxml / reportlab)はインストールしましたが
後は何が必要か分からなくて入れてないです
185:名無しさん@お腹いっぱい。
20/01/05 00:37:03.33 8D3ry83X0.net
ありがとうございます。
今dllを全部入れたのを作ってますのでしばしお待ち下さい。
186:名無しさん@お腹いっぱい。
20/01/05 00:44:00.95 8D3ry83X0.net
再アップしました。お試しいただければ幸いです。
URLリンク(1drv.ms)
187:名無しさん@お腹いっぱい。
20/01/05 01:00:42.23 8D3ry83X0.net
Linux版はこちらです。WSLで動くかもしれません。
URLリンク(1drv.ms)
188:名無しさん@お腹いっぱい。
20/01/05 21:43:56.51 zsNxjzf10.net
>>183
修正ありがとうございます 無事動きました
makepdfgui.exeは簡易的なフロントエンドという感じですが
gcv2hocr / gcvocr / hocr-pdf をそれぞれexe化されたものが同梱されているので
各プログラムのコマンドライン解説があればバッチ処理で連続実行させられそうですね
あと個人的には出力パス(PDFファイル名)と中間ファイルのテンポラリパスも指定して画像ソースできればいいなと思いました
まあそのあたりはせっかくソース同梱ですし.pyが動かせれば自分で改変できるので
おま環で実行環境づくりに試行錯誤してました
WSLはPython2.7のままだったのでTkinterでハマって一旦断念
dosプロンプト+miniconda でパッケージにrequestsを足してなんとか
```
conda create -n makepdf python=3.7 Pillow lxml reportlab requests
conda activate makepdf
python makepdfGUI.py
```
なお os.path.dirname(__file__) は os.path.dirname(os.path.abspath(sys.argv[0])) に書き換える必要がありました
189:名無しさん@お腹いっぱい。
20/01/05 21:46:07.12 zsNxjzf10.net
×画像ソースできればいいなと思いました
〇画像ソースと分離できればいいなと思いました
190:名無しさん@お腹いっぱい。
20/01/05 22:01:04.34 8D3ry83X0.net
ありがとうございます!
動いてよかったです。
来週にでもgithubに上げますのでforkするなりなんなり宜しくお願いします。
Windows版は.pyファイルのコンパイルにnuitkaを使ってます。コンパイルオプションが長いのでそれも併せてアップします。
Windowsで使えれば少し拡がるかな、と思ってますw
191:名無しさん@お腹いっぱい。
20/01/05 22:19:24.41 8D3ry83X0.net
python由来のexeファイル(gcvocr.exe, hocr-pdf.exe)は単体での起動ができなくて、一緒にたくさん入っている
共有ライブラリが必要になります。
gcv2hocrはMingw64でコンパイルしているので、単体で動作すると思います。
大したものでもないですが、誰かに使ってもらえると嬉しいものです。
ありがとうございます。
192:名無しさん@お腹いっぱい。
20/01/05 22:43:03.98 zsNxjzf10.net
こちらこそ有用なものを上げていただいてありがとうございます
自分もgcv2hocrをexe化できないかなあと思って弄ってた時期もあったんですがニワカ知識だとなかなか
winだとサーチャブルPDFをスキャン時ではなく後から作ろうと思うと
いまだにAcrobatか旧来の有料OCRソフトかみたいな感じでなかなか歯がゆいとこあります
193:名無しさん@お腹いっぱい。
20/01/06 11:35:46.65 d6RRHgpx0.net
とりあえずGithubにあげました。
URLリンク(github.com)
194:名無しさん@お腹いっぱい。
20/01/06 22:22:51.95 Bwv2TAsT0.net
★入れときました
195:名無しさん@お腹いっぱい。
20/01/07 05:50:46.58 iiqYEYaM0.net
ありがとうー
196:名無しさん@お腹いっぱい。
20/01/08 19:11:22.77 c/82od5M0.net
出力pdfを任意の場所に置けるようにしました。
上のgithubのページにダウンロードのリンクがあります。
中間ファイルは別フォルダに置くようにしました。
197:名無しさん@お腹いっぱい。
20/01/09 10:44:21 92Qt7qR00.net
実行時にコンソールウインドウが出ないようにしました。
198:名無しさん@お腹いっぱい。
20/01/09 23:57:29.83 +fFF3jY40.net
改良乙
199:名無しさん@お腹いっぱい。
20/01/10 00:17:04.04 omx2TQEU0.net
乙
200:名無しさん@お腹いっぱい。
20/02/04 10:31:25.64 /JmtElp90.net
Googleドライブに入れてGoogleドキュメントで開いて…のOCRって、使用量に
何か制限があるのかねえ?
1枚に2000文字程度書かれたビットマップファイルを1800枚ほどOCRしてたら、
途中なぜかGoogleに繋がらなくなった。(googleトップページにも繋がらない・
Google以外は問題なく繋がるので回線の問題では無い)
怪しい利用者と思われ、ロックアウトされたのかねえ?
色々やってたら(20分ぐらい?)復活したが・・・
最初e.TypistOneを使ったが、誤認識があまりにも多く断念。
プログラミングのスキルがあれば Google Cloud Vision API を使うアプリ
を作るのだが、無いのでGoogleドライブ経由で利用。
一旦全てのビットマップをGoogleDriveに入れ、ブラウザ上で、
(1) ビットマップファイルをGoogleドキュメントで開く
(2) 書式無しテキストでダウンロード&閉じる
(3) 処理の終わったファイルをDriveから削除
という一連のマウス操作を、UWSCというアプリを使って記録、繰り返し再生し
てる。(1枚約1分)
201:名無しさん@お腹いっぱい。
20/02/04 12:00:35.26 vX8l0M8h0.net
Google DriveでのOCRで上限を感じたことはない。
でも1800枚は時間なり量なりの制限にかかるのかもね。
同じ作業をPowershellのスクリプトで行っているが、
無料のGoogle Driveと有料のCloud VisionAPIとでは
認識結果が異なり、精度は意外にも前者が高く、
処理速度は後者が速い。ゆえに使い分けている。
202:名無しさん@お腹いっぱい。
20/02/04 13:11:16.64 /JmtElp90.net
>>198
>無料のGoogle Driveと有料のCloud VisionAPIとでは
>認識結果が異なり、精度は意外にも前者が高く、
これは意外&嬉しい情報です。 ありがとうございます。
まだ細かくは見ていませんが、Google DriveでのOCR結果は満足いく物のようです。
203:名無しさん@お腹いっぱい。
20/02/04 20:20:23 vX8l0M8h0.net
UWSCは自分も使っている。良いソフトだね。
でもUWSCのスクリプトが組めるならば、
PythonなりPowershellなりへの移行も容易では?
速度が当社比10倍にはなると予想。
204:名無しさん@お腹いっぱい。
20/02/04 21:22:14.83 q1VdwANZ0.net
OK
205:名無しさん@お腹いっぱい。
20/02/04 22:00:57 PXcUvqQM0.net
この辺?
URLリンク(qiita.com)
206:名無しさん@お腹いっぱい。
20/02/04 22:06:17 PXcUvqQM0.net
URLリンク(github.com)
207:名無しさん@お腹いっぱい。
20/02/05 11:23:36 XnWtIzCm0.net
>>200
とりあえず今回は、Google-Drive+UWSCでTEXT化を終えました。
次回があればCloud VisionAPIも検討します。
(何もインストールせずに使えるということで、とりあえずPowerShellで
「Hallo World!」を表示させてみた)
参考に教えて頂きたいのですが、>>198でGoogle Driveより精度が低かっ
たと書かれているCloud VisionAPIは DOCUMENT_TEXT_DETECTION か
TEXT_DETECTION のどちらでしょうか?
208:名無しさん@お腹いっぱい。
20/02/06 15:41:42 6cev/IWh0.net
Foxit PDF は英語と日本語を混ぜてスキャンするとエラーになる?
209:名無しさん@お腹いっぱい。
20/02/16 22:18:12 jLFeBzYu0.net
>>190
ありがとうございます
1200dpiのスキャナー欲しくなりましたw
210:名無しさん@お腹いっぱい。
20/02/29 06:41:24 JcjcxIj30.net
昭和40年頃の手書き青焼きのコピー(A4 23行×100P以上)をテキスト化したいんですが
そういう悪条件につよいソフトって家庭用で存在しますか。
ゴミ、旧漢字、略字・・・ 「多」の上が「ヨ」だったり
211:◆JAVA/drQNg
20/02/29 08:46:14 zMAPSh9k0.net
Adobe Acrobat はバージョンが上がるごとにOCR精度は向上しますか?
212:名無しさん@お腹いっぱい。
20/03/04 10:38:36.74 a2j2NwzM0.net
とりあえず「Capture2Text」使ってみたんだけど、まったく使えなかった…
これ常用してる人いる?
213:名無しさん@お腹いっぱい。
20/03/10 07:56:51.41 m0UgLSDQ0.net
そんな使えないの誰もいないでしょ
214:名無しさん@お腹いっぱい。
20/03/10 09:51:38 5unq0kZC0.net
使いこなせないアホなどいないと言いたいのか
使えないから常用者がいないと言いたいのか
215:名無しさん@お腹いっぱい。
20/03/10 18:32:34.56 s+annSAc0.net
Capture2Textはtesseract & Google翻訳のフロントエンドとしては有能だぞ
基本よその国のマンガやゲームのフキダシを母国語に翻訳しながら読む用途向けなので長文は苦手だが
tessdataをtessdata_fastと入れ替え jpn_vert.traineddataも足せばOCR精度は多少マシになる
あとググってたら Capture2TextみたいなのをGoogle OCR でやってるツールもあった
SSTRとかいうの
要GCPキーだがクソ速い
216:名無しさん@お腹いっぱい。
20/04/16 08:24:43 .net
さっきPDF-XChange Editorの最新版(フリー)を入れたんだが、これめっちゃ機能多いな
無料版だから殆ど使えないけど、こんな機能豊富なアプリ見せられたら買いたくなってくるんだが、
実際はどうなんかな?
5000円ぐらい何だが、買う価値ある?
自炊愛好家にとっては画像圧縮とOCRの機能がどの程度なんかが超重要なんだが、有料版使ってる奴居たら意見聞きたい
217:名無しさん@お腹いっぱい。
20/04/18 09:56:41.39 GR24ABzs0.net
あるある。絶対買うべし
218:名無しさん@お腹いっぱい。
20/04/20 18:31:31.52 tcsUxc360.net
小説テキストデータ化の最終工程で
>>78の通りやってるんだけど
スキャンした元画像の行間がいまいち狭くてやり辛い
スキャンしたテキスト画像の「行間だけ』を広げることのできるソフトはないもんだろうか
(当然用紙の横幅が広がるのは問題なし)
メチルでできるかと思って設定をいろいろいじくりまわしてるんだけどうまくできない
219:名無しさん@お腹いっぱい。
20/04/25 22:50:37.58 AhIDEN180.net
( ´・ω・) 民珍♪
220:名無しさん@お腹いっぱい。
20/04/26 15:34:50.65 rCDPnaLP0.net
>>207
昭和44年の手書き謄写版印刷物をスキャンして試してみました。
Googleドライブにアップロードして、Googleドキュメントにすると、認識率9割以上でした。
221:名無しさん@お腹いっぱい。
20/05/06 21:23:20 nnBg0Ieg0.net
スキャン後のPDFファイルに透過ocrテキストを組み込むことや削除をすることはできますか?
スキャン代行600dpi+ocrをつけて依頼しようかと思っています。
透過ocrテキストが不満な場合、後日(~数年後等)に発売されるかもしれないocrソフトやgoogle等のocrでpdfファイルに
透過テキストを組み込みこんだり削除したいです。
やったことがなく、詳しい人いましたら教えてください。
222:名無しさん@お腹いっぱい。
20/06/22 20:49:34.26 2bHPYWAT0.net
自分用に作ってみました。
良かったらどうぞ。
URLリンク(eznavi.net)
223:名無しさん@お腹いっぱい。
20/07/13 21:18:26.68 gPuYxjHp0.net
質問です。
OCR化ソフト:読取革命
音声出力アプリ:EZ PDF reader
1ページのうち複数のパートに分かれたものをOCR化した順にスマホで音声読み上げしたいのですが、
読取革命側で順番を指定してOCR化しても、スマホアプリ側で音声出力の際に最初のパート以外の順番がバラバラになってしまいます。
おそらくアプリ側の問題なのでPDF読み上げの新しいアプリを探しているのですが中々見つからず、おすすめを教えてほしいです。
MOON proは音声出力時にエラーで強制終了でした。。
224:名無しさん@お腹いっぱい。
20/07/14 04:07:13.49 btizt7Lj0.net
>>220
読取革命が読み取った結果をPDFに出力するのは何故?
Textファイルに出力したら?
225:名無しさん@お腹いっぱい。
20/07/14 19:02:18 qgULxFnG0.net
>>221
テキストファイル出力での読み上げアプリも2つ試したのですが、
文字化けや改行の挿入、いったんアプリを閉じて再度開いた際に前回の再生位置から開始が出来ないなど、
文庫サイズのテキストを読む際での不都合が多かったです。
PDFアプリの方も現在使用しているez pdf reader以上に動作の安定したアプリが中々見つからず、
スレチで申し訳ないのですがスマホ端末での音声出力メインでOCR化されてる方がいれば、、と思い質問させて頂いた次第です。
226:名無しさん@お腹いっぱい。
20/07/15 10:23:16.57 +UBXBhCo0.net
>>222
Androidは、使用してないので分かりませんが
iPhoneならVoice Dream Readerがオススメです。個人的に。
227:名無しさん@お腹いっぱい。
20/07/17 10:09:33.44 Lff+9EMv0.net
>>223
試してみます。有難うございます。
228:名無しさん@お腹いっぱい。
20/07/17 19
229::57:43.35 ID:CK7EEHYK0.net
230:名無しさん@お腹いっぱい。
20/07/18 22:53:37.67 VCDm/xwf0.net
qiitaでOCRを検索したら、日本語に対応したオリジナルのOCRが公開されていた。
フリーの日本語OCR(と学習済みのモデル)を公開しています。
URLリンク(qiita.com)
日本語OCRを作ったので解説してみる
URLリンク(qiita.com)
GitHub
URLリンク(github.com)
すげい良さげなのでインストールしてみたのだが、GPUがないせいかどうなのか、
うちの環境ではPytorchとかCUDAのインストールがうまくいかなかった。
Linuxを使える誰か、試してみてはくれまいか。
231:名無しさん@お腹いっぱい。
20/07/18 22:59:29.26 eAsZD6lp0.net
GPUなしでも動かせるみたいだしWSL入れたらwin10でもいけんじゃね
232:名無しさん@お腹いっぱい。
20/07/20 11:49:35.26 ND5jwxL20.net
tegakiとか簡単に開発できるらしいけどフリーだと無いよな
233:名無しさん@お腹いっぱい。
20/07/20 12:23:14.92 zpjC4PpP0.net
一太郎PADはどうなの?
234:名無しさん@お腹いっぱい。
20/07/20 17:58:40.44 3FOd3QJF0.net
>>213
plusだかなんだかつけて使ってます
大満足だけど、日本語ocrはクソ
手持ちの他のソフトを使うしかないです
235:名無しさん@お腹いっぱい。
20/08/06 08:43:22.36 +Ik17kWF0.net
個人向け日本語ocrはここ10年くらい進歩なし?
236:名無しさん@お腹いっぱい。
20/08/06 09:24:03.23 P4KKN9Zk0.net
>>231
読取革命をつかってるけど、そろそろバージョンアップして欲しい
237:名無しさん@お腹いっぱい。
20/08/06 21:43:22 FpfhWXHQ0.net
Shift-JISだけってのはキツいよな。
URLリンク(www.panasonic.com)
【大切なお知らせ】販売終了および今後の読取革命の販売について
2012年9月より販売を行ってまいりました、日本語・英語活字カラーOCRソフト「読取革命Ver.15」に関しまして、誠に勝手ながら2020年8月31日をもちまして、製品版・バージョンアップ版の販売および開発を終了させていただきます。また、2020年9月30日をもちまして、ライセンス版・ダウンロード版の販売も終了させていただきます。
長らくご愛顧いただき、誠にありがとうございました。
読取革命の開発および販売はソースネクスト株式会社へ移管し、2020年10月7日に新バージョンを発売いたします。
238:名無しさん@お腹いっぱい。
20/08/07 06:23:07.23 n5TZuf+60.net
AIOCRが金出せば結構優秀になったしな
239:名無しさん@お腹いっぱい。
20/09/26 01:42:56.36 ysgjBmc10.net
ラノベ自炊して文字認識で全ページテキスト化して有償の美少女声音声読み上げソフト使って
自作のAudibleみたいなのを作るって現実的か?
この方法ならラノベが読めない俺でもラノベの内容追える気がする
作業用BGMが欲しい
240:名無しさん@お腹いっぱい。
20/09/26 05:37:16.00 CGZLoSUz0.net
と或るラノベ7巻、文字認識したことあるが、
認識ミス取りきれてない気がするよ。
もう二度とやらん。めんどくさ過ぎる。
縦書きって誤認識高くね?気のせいか。
設定資料集やりたいのがあるんだけど、気力がわかない。。。
241:名無しさん@お腹いっぱい。
20/09/26 06:35:51.85 ysgjBmc10.net
うーん 即レスで体験談ありがとう
ソフトとアプデ次第でどうにかなってほしいものだ
242:名無しさん@お腹いっぱい。
20/09/26 07:20:30.92 aByTBdbp0.net
校正作業をどれだけ効率的にできるか、そのノウハウを持っているかどうかによる
243:名無しさん@お腹いっぱい。
20/09/26 13:24:06.12 wTRatOkO0.net
自分で読み上げて音声入力してみたことがある
244:名無しさん@お腹いっぱい。
20/09/26 14:06:45.13 6iAINLva0.net
100%完璧にって言ったら泥沼だろうが、ある程度妥協できるなら問題ない
誤認識もパターン決まってるのも多いから、一括で置き換え出来るし
OCR前にChainLPとかで下準備するのも忘れずに。認識精度が全然変わるから
読み上げソフトも読み上げソフトで癖があるから、読み上げソフトでキチンと読めるように修正する必要もあるけどね(これも妥協次第だけど)
245:名無しさん@お腹いっぱい。
20/09/26 22:20:38.16 MWrmVjkB0.net
ブラザーの複合機でスキャンして付属のOCRで売上表を読み取ってるけど
数字だけなら99%読み取れてるよ。
表には合計値もあるんでExcelで合計計算して合計値が一致してれば全部読み取れてるってチェックができる。
合計値が合わないときはExcelの読み上げボタンで読み上げつつ紙の表に目を通してチェック。
ミスは大体ゴミを小数点として読み取ったり、
ゴミのせいで6が8になったり
かすれて8が6になったり
スペースが入って分割されたり。
スキャン前にゴミを除去するのが重要。
スキャン後は空白の固まりにマウスで矩形領域作ってタブを挿入した後で全ての空白を置換で除去。
これでほぼ正しくタブ区切りになるんでExcelにぺたっと貼り付け。
スキャンの設定は300dpiのグレー諧調で読み取ることが重要。
カラーで保存したい場合は画像用にカラーでスキャンしてOCR用にグレーでスキャンするとかしたらいいと思う。
カラーをうまく処理できるOCRソフトならカラーの方がいいと思うけど
レシートの赤いやつがあると読み取ってくれないレシーピってアプリもある。最近赤い奴に対応したっけな。
246:名無しさん@お腹いっぱい。
20/09/26 22:30:50.03 MWrmVjkB0.net
書き忘れ。
数字の表を読み取るときは英数で読み取るんで日本語はめちゃくちゃ。
日本語だと表を表として読み取ってくれないし、数字もまともに読み取れない。
英数でも表として読み取ってるわけじゃないけど、間に空白がたくさん入るからなんとなく表っぽくなってる。
OCRの作業はひと手間かかるけど、空白除去とかに慣れれば入力するよりかなり早い。
日本語の場合は読み上げさせつつミスがある部分だけ入力していけばいい。
直接変更するのは追いつかないだろうから別の行に書いておいてあとでくっつけるとか。
〇〇〇〇〇〇〇〇〇×〇〇〇〇〇〇〇〇××〇〇〇〇〇〇〇
まる まるまる ←聞きながら入力
↓
〇〇〇〇〇〇〇〇〇まる〇〇〇〇〇〇〇〇まるまる〇〇〇〇〇〇〇 ←あとで合成
マイクロソフトのINKとか言うソフトで蛍光色で色をつけられたりするから
ミスってるところに色を塗っておいて後で正しいのを入力するって方法もあるかも。
247:名無しさん@お腹いっぱい。
20/10/07 20:53:42.38 sG0Mx6Ff0.net
読取革命Ver.16が出た
248:名無しさん@お腹いっぱい。
20/10/08 00:38:44.34 oaaQrpI40.net
英語認識に強くなる予定があるのとUIが変わってるらしい?
なんにせよルビ対応してくれないことには個人的な選択肢が増えない
249:名無しさん@お腹いっぱい。
20/10/08 21:58:57.57 pCm7hS0+0.net
e.Typist使ってるけど、ルビは無視する設定だわ
250:名無しさん@お腹いっぱい。
20/10/13 10:17:34.27 1IwVSGYF0.net
読取革命Ver.16
まだ縦書きの文字修正の時
横倒しになるのかな
251:名無しさん@お腹いっぱい。
20/10/18 02:15:16.51 knd4dkpa0.net
読取革命 Ver16 新規機能ひとつもないな。
不具合も直ってなさそう。
252:名無しさん@お腹いっぱい。
20/10/19 00:44:45.61 CyNFZXML0.net
どうせAcrobatのCleanscanしか使わないからいいや
253:名無しさん@お腹いっぱい。
20/11/01 15:10:52.46 OE4w3Cb/0.net
- 電通による日本人民族浄化計画の手口 -
①日本人の精神を腐敗・堕落させ愚民化させろ
②日本人の女を集中的に狙い洗脳しろ
③ネトウヨ、ヘイトスピーチ、レイシスト等の言葉を浸透させ、同胞への批判を封じろ。
④韓国人識者に政治的意見を言わせ、御意見番化させろ
⑤「同性婚・LGBTを全面肯定しない者は差別主義者だ!」という雰囲気を作れ。
⑥海外セレブやハーフモデルをもてはやし、「日本人は劣等人種だ!」と植えつけろ。
⑦「未だにガラケーの奴は笑い者」という雰囲気を作れ。
⑧「LINEに入らない奴は仲間外れ」という雰囲気を作れ。
⑨「日本人の男VS日本人の女」の対立を煽り、分断しろ
⑩日本人同士で恋愛・結婚させない、子供を生ませないよう誘導しろ
⑪日本同士で結婚していたら離婚させる方向に仕向けろ。
⑫女が活躍するドラマばかり作れ。男は無能な役、笑われ役にしろ。
⑬イケメンブームを定着化させ、「男は外見が全てだ!」と洗脳しろ。
- ソース -
電通グループ会長 成田豊は朝鮮半島生まれ
URLリンク(ja.wikipedia.org)
254:名無しさん@お腹いっぱい。
20/11/03 09:13:18.83 rTcXesbq0.net
Win95のときからつかってるけど
ocrソフトなんてなんの進化もしてない
255:名無しさん@お腹いっぱい。
20/11/04 08:06:13.96 2CPZw8590.net
進化の余地はありそうなんだけどね。
個人用途では需要がないか。
そこそこ有名なフリーソフトレベルの操作性や、設定の自由度ぐらいは欲しい。
256:名無しさん@お腹いっぱい。
20/11/04 11:19:49.67 uNywO3dP0.net
Eightとかその他の名刺認識アプリ
グーグルドキュメントで画像を読み込んだときの自動OCR
これらのほうが段違いに認識がスムーズ
奴らはデータを吸い上げようという魂胆なんだろうが
認識が本業の有料ソフトが副業の奴らに負けてどうする
20年以上検索認識エンジン大きな変化なしとか腐っとるな