[OCR] 画像→テキスト化総合

[OCR] 画像→テキスト化総合at SOFTWARE

[OCR] 画像→テキスト化総合 - 暇つぶし2ch809:名無しさん＠お腹いっぱい。
08/11/02 17:28:07 cwzkfA700
>>805
kwsk

810:名無しさん＠お腹いっぱい。
08/11/02 17:31:04 poJP7dLr0
>>809
いや駄目だろ、それは

811:名無しさん＠お腹いっぱい。
08/11/08 08:38:05 ZMhDwSXi0
素人ですみません。
ＯＣＲソフトを探しています。
透明テキストの機能を使って、文書の全文検索に使えるようにしたいと考えています。
ＰＤＦに変換してから、ちょこちょこといじりたいのですが、acrobatのＯＣＲ機能ってどうなんでしょうか？
ＯＣＲ機能の点からみたacroatのメリット・デメリットは、>>763以外になにかありますか？（認識率が格段に低いなど）
ＳｍａｒｔＯＣＲは現在のＯＣＲのシェアウェアやacrobatよりもどんな点で劣る（あるいは優れている）か教えてください。

812:名無しさん＠お腹いっぱい。
08/11/09 12:45:08 EZAsVtJx0
PDFのOCR機能は画像OCRの付け焼き

813:名無しさん＠お腹いっぱい。
08/11/12 02:08:52 6OQUopCS0
>>805
差分ファイルで

814:名無しさん＠お腹いっぱい。
08/11/16 04:24:48 4vajSCcA0
読んde!!ココの次期バージョンは当分ないのだろうか？
ブラザーA3複合機買ったんだけど、OCRソフトは何買ったらいいか迷う。
Acrobat8持ってるから充分なのか、読んde!!ココ 13にアップグレードするか。
それともe.Typistを使ってみるか。
最終出力はテキスト付きPDFにしたいんだけど。
イチオシのワークフローあるかな？

815:名無しさん＠お腹いっぱい。
08/11/16 05:27:56 0tZlWar00
あ

816:名無しさん＠お腹いっぱい。
08/11/16 06:36:32 0tZlWar00
あ

817:名無しさん＠お腹いっぱい。
08/11/16 15:06:04 kMc8Bxa00
読取革命12体験版を使ってみたんだが・・・・。
表編集モードにおいて、誤認識された罫線の削除のコツがよくわからない。
はさみのアイコンでなぞっても、消えない事が圧倒的に多い。
まるで出来ないかというとそうでもなく、あーでもないこーでもないとやっているといきなり消えることもある。
エロイ人、どうかこつを教えてくれ。

818:名無しさん＠お腹いっぱい。
08/11/23 14:26:28 vpMal3Xl0
「本格読取 2」と「本格読取 2 Deluxe」って
何が違うんですか？

819:名無しさん＠お腹いっぱい。
08/12/01 15:15:27 LWVSjDCk0
これまで何の疑問もなく「読んde!!ココ」のバージョン10.01を使ってきた。
バージョン上げると読み取り精度は上がるのだろうか？
俺が使うのは英文ばかりだけどfの読み取りが悪くてイライラ。

820:名無しさん＠お腹いっぱい。
08/12/02 11:26:40 j5O/upWL0
英文ならomnipageとか使え

821:名無しさん＠お腹いっぱい。
08/12/02 14:14:45 u3ql/6+p0
FineReaderの最新版は抜群の精度

822:名無しさん＠お腹いっぱい。
08/12/03 01:16:37 tni9wAEC0
>>817
ハサミの左の先端で消したい罫線をなぞると良いよ。

ってもう試用期間終わってるかな？

823:名無しさん＠お腹いっぱい。
08/12/03 14:02:21 7DjjIJfp0
>>818
回答こないね

824:jrOORvtvExkE
08/12/04 06:23:20 eYjGu4xE0
Useful info about <a href="URLﾘﾝｸ(mesothelioma-disease.blog.ca)">mesothelioma cancer</a>
URLﾘﾝｸ(mesothelioma-disease.blog.ca)
[URL=URLﾘﾝｸ(mesothelioma-disease.blog.ca) cancer[/URL]

825:BPCEZIWpAquwwspfZk
08/12/04 06:23:22 VbG12Y6T0
Useful info about <a href="URLﾘﾝｸ(mesothelioma-disease.blog.ca)">mesothelioma cancer</a>
URLﾘﾝｸ(mesothelioma-disease.blog.ca)
[URL=URLﾘﾝｸ(mesothelioma-disease.blog.ca) cancer[/URL]

826:名無しさん＠お腹いっぱい。
08/12/15 08:02:30 3Dr8GKKG0
読んでココv13の質問なんですが、
認識結果を修正するとき、候補文字から選択するとどんどんユーザー辞書に追加されていきます。
初期状態は、追加するかどうか、確認画面が出てたのですが、確認しないをチェックしてしまいました。
これを元に戻したい（確認画面が出て、不必要な辞書登録をしない）のですが、どこにその設定があるのか分かりません。
かなり探したのですが・・・何処に隠れてるのでしょう？ご存知の方教えてください。

827:名無しさん＠お腹いっぱい。
08/12/15 23:31:57 SxBJUL7R0
自己解決しました。
で
別の問題が出てきました。
同じく、認識結果を修正中に、
候補文字から選択すると、半角指定してるはずの記号が全て全角になってしまいます。
仕事場と自宅で別々の読んでココを使ってるのですが、
仕事場のほうは半角で出てくるのですが、自宅は全角です。
環境設定とか同じはずなんだけどなあ・・・
ユーザー辞書が違うからかな？

828:名無しさん＠お腹いっぱい。
08/12/16 12:37:06 62OVPLgO0
ユーザー辞書を移植したら、同じように半角で出てくるようになった・・・・
・・・・が、
今度は、移植した辞書に新しい字を追加しようとしたらエラーが出て落ちてしまう・・・orz
なんなんだ？
デフォだとユーザー辞書は隠しファイルになってるし、ダミーが置いてあったりするし、
移植したファイルは読めても書けない仕様なのか？
隠しファイル領域に入れないと駄目なのかね？
ヘルプ読むと、場所は何処に置いても良さそうなこと書いてるが。
俺みたいに2台のPCで場所変えて作業してる人のために、
設定や辞書の共有が出来るような仕組み無いのかね？

829:名無しさん＠お腹いっぱい。
08/12/16 16:09:26 MKgRiCmn0
お前はマニュアルを読んでここ

830:名無しさん＠お腹いっぱい。
08/12/16 17:02:09 /jtierzP0
ヘルプのマニュアルは一応読んでるよ。
でも読み落としてるかもしれないから、何処に載ってるか教えてくれよ。
ただの煽りなら引っ込んでろ。

831:名無しさん＠お腹いっぱい。
08/12/16 18:33:15 ir5gL59l0
>>830
おまえ人に聞く態度か、ドアホ～
おまえ頭悪いんじゃ　自覚せい　消えろ～
買ったところから聞け　たわけ～

832:名無しさん＠お腹いっぱい。
08/12/16 19:21:17 +a6zF2z/0
　　　∩＿＿＿∩ 　　　　　 |
　　　 | ノ＼　　 ,＿ヽ　　　　　　|
　　　/　　●゛　　● | 　　　　 |
　　 |　∪　　( _●_)　ミ　　　(>>830)　
　　彡､　　　|∪|　　 |　　　　　J
　/　　　　 ∩ノ ⊃　ヽ
　(　＼　／＿ノ　|　 |
　＼　 "　／　　｜　|
　　　＼／￣￣￣／

833:名無しさん＠お腹いっぱい。
08/12/16 20:59:44 1zLemMeh0
やれやれ・・・釣り扱いかよ。
自己解決しますた。
ユーザー辞書の移植は、読み取りだけならdicファイルだけでいいけど、
書き込むにはコントロールファイルもいるんだな。
マニュアルには載ってないようだけど、

834:名無しさん＠お腹いっぱい。
09/01/10 08:16:09 eYWtFstc0
あぁ、1TBHDDが安くなりすぎてテキスト化しなくてもいいと思い始めた。

835:名無しさん＠お腹いっぱい。
09/01/10 13:00:54 TYnOKpqB0
↑いやいや、検索するって役割があるでしょ。

質問です。
e.Typistをインストールすると、mediadriveというフォルダが、Documentsフォルダに作られますが、移動するにはどうすればよいですか。
これ非常に不便なのですが・・・

836:名無しさん＠お腹いっぱい。
09/01/10 15:12:22 IPOI/TmT0
透明PDFにpngが使えないので萎えた
lzwのtiffでも数倍でかくなる

837:名無しさん＠お腹いっぱい。
09/01/10 16:30:03 LjtLb05Y0
OCRソフトってPDFの扱いが弱すぎるよね

838:名無しさん＠お腹いっぱい。
09/01/11 00:40:51 iuR1Bu1I0
そもそもPDFっていらないしな。

839:名無しさん＠お腹いっぱい。
09/01/11 02:42:06 sd43c4tCP
いやいやいや、今んところ透明テキストつきPDF以上に、
バランスの取れた形式ってないんじゃないのか？

OCR変換したテキストデータのみを使うとか正気の沙汰じゃないけど、
文字列検索ができるのはただの画像データにはないメリットだし、
何よりも可搬性が高いというメリットもあり。

>>838はこのスレでPDFいらないっていうことは
全部テキストデータで保存してるのか？

840:名無しさん＠お腹いっぱい。
09/01/11 02:46:38 iuR1Bu1I0
検索しないから。一度読んだらだいたいの場所は頭に入ってる。
読むの速いし、パラパラ高速でめくれないPDFは論外。

841:名無しさん＠お腹いっぱい。
09/01/11 02:59:40 sd43c4tCP
まぁ、検索するかどうかは確かに使い方次第かもしれないな。
でもPDFがパラパラ高速でめくれない、ってそれは単純に
PCのスペックによるものなんじゃね？

300ページくらいの本をスキャンして30MBくらいで保存してるけど、
Adobe Readerで見開き2ページ表示にしてもさくさくPageUp/Downできるけどなぁ。

842:名無しさん＠お腹いっぱい。
09/01/11 03:12:05 iuR1Bu1I0
読むの遅いんじゃね？

843:名無しさん＠お腹いっぱい。
09/01/11 03:16:50 sd43c4tCP
いやいやｗｗｗ
PageDown押しっぱなしで300ページ見開き表示（150面）
の冒頭から最後まで15秒もかからないんだけど、
どんな速読マスターでもさすがにこのスピードは無理じゃないのか？

ということで脱線してきたのでもうレスはつけない。
スレ汚しすまない。

844:名無しさん＠お腹いっぱい。
09/01/11 04:09:13 /tuIuVbi0
検索を使わなくてすむような使いかたしかしてない時点で

845:名無しさん＠お腹いっぱい。
09/01/11 10:08:10 osstJUh50
小説とか？にしか使ってないのかな？
学術書や研究書をデータ化して検索可能にすると全然
違ってくるんだよね

読むときに単語ひとつひとつにまで注意は払えないけど
後から違うテキストにある単語の用法を検索するとか
単語が使われる頻度を調べるとかさ

846:名無しさん＠お腹いっぱい。
09/01/11 16:45:17 iuR1Bu1I0
頭に入ってない、知らないかから検索しなきゃいけないんだろ。要はただの馬鹿。
統計とるのにOCRで作った修正処理してない、合ってるか間違ってるか
分からない透明テキストPDF使うなんて研究者失格だな。
専門分野なら頭に簡単に入るだろ。stockの知識は暗記しろ。

847:名無しさん＠お腹いっぱい。
09/01/11 19:07:28 N53izUZ70
>>846
よう、天才。
あんた、なんでこのスレに粘着してんだ？

848:名無しさん＠お腹いっぱい。
09/01/11 19:18:36 /tuIuVbi0
まじ天才。

俺の大学では会議はまだプリントされた紙を配る。
邪魔だから、ＰＤＦで保存。紙は捨てる。
学内自転車置き場に置かれた放置自転車の問題とか
入学試験の試験監督とか

これ結構な量なんだよ。
まれにこれが必要になるから困る。

でこんなものも全部頭に入れてるの？
俺なんて会議中熟睡だぜ

ありえんな。研究者とか書いてるが
ただのニートと見た。

849:名無しさん＠お腹いっぱい。
09/01/11 22:52:25 xF2BYn5G0
インド人じゃないの？
向こうのエリ－トは2時間くらいの会議ならその会議での会話をそらで再現出来る頭だって。

850:名無しさん＠お腹いっぱい。
09/01/12 01:47:20 n3qvCL0O0
SVGがもうすこしがんばってくれれば、、、

851:名無しさん＠お腹いっぱい。
09/01/12 02:07:33 SDQi6vqPO
おまえらレベル低いな。俺の国では読む前から本の内容くらい完璧に再現できないようなら落ちこぼれだから。

852:名無しさん＠お腹いっぱい。
09/01/12 10:44:58 iaaaILbh0
テキスト化スレでなんでPDFを称賛してんだ？
スレ違いだ。

853:名無しさん＠お腹いっぱい。
09/01/12 10:52:21 Z3wpMu5b0
>>852
ID:iuR1Bu1I0は、テキスト化すら必要なさそうだが。

854:名無しさん＠お腹いっぱい。
09/01/12 10:53:10 n3qvCL0O0
つ透明テキスト付きPDF

855:名無しさん＠お腹いっぱい。
09/01/12 10:56:31 iaaaILbh0
誘導 >> PDFの素晴らしさ話題はこちらへ

PDF作成・変換ソフト。Part 5
ｽﾚﾘﾝｸ(software板)

856:名無しさん＠お腹いっぱい。
09/01/12 12:38:29 ZsusePTR0
透明テキスト付きPDFさえスレ違い認定してる奴って
なんなんだろう？

手元に元資料なくなったら読取り間違いを見つけるのに
PDFの画像だけが頼りじゃん

完全にテキストデータしか残さないの？

857:名無しさん＠お腹いっぱい。
09/01/12 13:24:35 hw4QZewC0
>>849
そんなわけないだろｗ

12年と235日前の会議でもすべて覚えてるんかいｗ

858:名無しさん＠お腹いっぱい。
09/01/12 13:26:19 AdJ5kc2+0
>>849
インド人の友達いるけど、みんな馬鹿だよ

859:名無しさん＠お腹いっぱい。
09/01/12 16:56:21 KqRtE+b10
>857が馬鹿なだけだと思うよ。
子供の反論だな。
「何時何分何秒に～」w
まさか成人じゃないよね？

860:名無しさん＠お腹いっぱい。
09/01/13 01:49:48 Ck0kGCM30
何時何分ってアホ？

検索する必要もない奴がテキスト化してパソコンに保存？
もっとアホだな
テキスト化してパソコンに保存する時間が無駄だろうがｗ
その間にどれだけの文章を頭の中に入れれるの？天才君

861:名無しさん＠お腹いっぱい。
09/01/13 11:24:35 EXPdIEAt0
WinReaderPro買うかどうか迷っている。
お前らどう思う？
用途は10万枚のxdwファイルの検索目的。

862:名無しさん＠お腹いっぱい。
09/01/13 15:36:04 uERZu1aC0
xdwってそのまままじゃ検索できないんだ
へー

863:KYjGIJJNILUJsLT
09/01/13 15:38:01 ZVGLIrsS0
URLﾘﾝｸ(naierrybou.awardspace.com) tna victory road stream
URLﾘﾝｸ(ontoned.awardspace.com) rumer willis photo

864:名無しさん＠お腹いっぱい。
09/01/14 01:19:58 L5omtrlo0
こんなスレに天才君がごろごろしてるとは・・・・・

865:名無しさん＠お腹いっぱい。
09/01/14 02:10:19 0z5ueTXF0
>>862
scanした原稿とかは無理だよ。

866:名無しさん＠お腹いっぱい。
09/01/15 03:47:41 ooQikYrc0
透明テキスト付きPDFの話なんてどうでもいいんだけど。
透明テキスト付きPDFで、テキストに変換した内容をチェックする馬鹿はいないんだから。
ここでは議論が成り立たない。

867:名無しさん＠お腹いっぱい。
09/01/15 08:28:25 pt+iPJxK0
>>866
出たな、天才。

868:名無しさん＠お腹いっぱい。
09/01/15 11:27:58 U2eiW9BI0
学術論文データベースでダウンロードできるファイルは
ほとんどが透明テキスト付きPDFでございますｗ

869:名無しさん＠お腹いっぱい。
09/01/15 12:58:17 Coc/BK/S0
>>868
医学論文はスキャンされたPDFが郵送とFAXとかダウンロードできるだけというのが全てかも。
俺が入会している論文屋はそうだね。日本では業界最大手だと思うけど。
それに本をばらしてscanしまくっているから透明テキストは自分でつけないといけない。

870:名無しさん＠お腹いっぱい。
09/01/15 13:31:32 /jTW0YpK0
あ

871:名無しさん＠お腹いっぱい。
09/01/15 18:17:23 ooQikYrc0
>>868
だからスレ違いじゃん。
論文作った人がPDFにしてテキストつけてるのに画像→テキスト化のこのスレに何の関係あるんだよ？

872:名無しさん＠お腹いっぱい。
09/01/15 18:38:34 TDkR8k5P0
たしかに（DAIGO)
論文書いたならワードとかだろうからそこからpdfに変換したら
文字化けもなにもないな
最初から文字としてpdfに埋め込まれてるだろう

873:名無しさん＠お腹いっぱい。
09/01/15 21:52:56 0k7MXLGD0
論文データベースで提供される最近の論文なら学術誌の
ページまんまの普通にフォント込みのPDF
昔のものはスキャンされて透明テキスト付きPDF

同じように自分でスキャンした論文や本も透明テキスト付きで
残しておいて管理したいってわけ

しつこく透明テキスト付きPDFを排除しようとしてる人は
こういう用途を理解できないのかな？自分に関わりのない
用途だからって排除するってのはどうかと思うよ

874:名無しさん＠お腹いっぱい。
09/01/15 23:51:54 pTl37oBI0
２名くらいが言い合ってるんだろうが
そろそろメールででもやれｗ

875:名無しさん＠お腹いっぱい。
09/01/16 02:04:18 o0QiI79a0
読んでここと読み取り革命とe.typist
全部使ってみたけど
読んでここが一番まともだった

876:名無しさん＠お腹いっぱい。
09/01/16 04:31:05 j5jbP+DhP
一番妙な名前のが一番まともっぽいんだよな。
でもどこも煮詰ってきちゃって停滞してる感じもする。

877:名無しさん＠お腹いっぱい。
09/01/16 07:10:00 kAwCRT9v0
>>873
うざいからPDFスレでやれ。

878:名無しさん＠お腹いっぱい。
09/01/16 07:13:05 YFgvyqNy0
よんでここ良いかあ？
typistだろ

879:名無しさん＠お腹いっぱい。
09/01/16 08:54:17 KNjWFBiV0
>>878
中の人、乙

880:名無しさん＠お腹いっぱい。
09/01/16 12:34:31 ar3mUcAl0
で、WinReaderProを使った奴はいるか？おれはｘｄｗでscanした文章が20Gくらいあるんだよ。
DocuWorks内蔵のOCRも悪くないけど、更に精度が上がるなら20万出してもいいかなと思うのだが。
俺が人柱になるしかないのか？

881:名無しさん＠お腹いっぱい。
09/01/16 19:19:39 u6xluZvZ0
そうだね

882:名無しさん＠お腹いっぱい。
09/01/17 12:03:50 q4cOoTS30
構って君登場ｗ

883:名無しさん＠お腹いっぱい。
09/01/17 13:22:33 8LomD8UX0
くそ。
お前らがそういう態度なら絶対に書いてやらない。
WinReaderProで得た経験を誰にも教えないぞ。

884:名無しさん＠お腹いっぱい。
09/01/17 13:36:24 ajPyCMtQ0
精度なんて似たり寄ったり。重要なのは確認、修正作業のし易さ。

885:名無しさん＠お腹いっぱい。
09/01/17 13:44:11 8LomD8UX0
まじかよ。そんなことしていられないよ。
検索で引っ掛けるのが目的だし。
20万円の価値は無いのか。

886:名無しさん＠お腹いっぱい。
09/01/17 17:14:11 3jWVocFV0
買えば済むのに

887:名無しさん＠お腹いっぱい。
09/01/17 21:05:47 q4cOoTS30
URLﾘﾝｸ(ssl.mediadrive.jp)
ほんとに買う気なら体験版をとりあえず申し込むべし。

888:名無しさん＠お腹いっぱい。
09/01/20 16:59:05 Ez5R3CRM0
読取革命大好き

889:名無しさん＠お腹いっぱい。
09/01/21 02:20:01 nux6CWbW0
>>887
申し込みます。DocuWorksのVer6とVer7と比較してよければ買います。
全文検索は行方不明書類を捜す唯一の手段だからな。
行方不明書類ってどうしても発生するんだよね。
Scan時の重送で検出漏れもあるしね。

890:VdTyVIXmByCFJdJ
09/01/21 02:28:08 27CcxXma0
3ofhNQ <a href="URLﾘﾝｸ(jicyqypxfieh.com)">jicyqypxfieh</a>, [url=URLﾘﾝｸ(tdeqcqoimwwk.com) [link=URLﾘﾝｸ(qykftmbejfxg.com) URLﾘﾝｸ(nriidvmyuevw.com)

891:名無しさん＠お腹いっぱい。
09/01/21 17:02:44 1Yv8qxGD0
>>873
>同じように自分でスキャンした論文や本も透明テキスト付きで
>残しておいて管理したいってわけ

同じく。最新のAcrobatでも表があるページだと表部分だけでなく本文部分
の透明テキスト化も玉砕するんで困ってます。表が入っててもそこそこの
OCR化をしてくれて透明テキストとして出力してくれるソフトってあるの
でしょうか？

892:名無しさん＠お腹いっぱい。
09/01/21 21:37:36 NwoVvKSk0
E.TYPISTでいいんじゃないの？

893:名無しさん＠お腹いっぱい。
09/01/21 21:40:41 ze4pJbzr0
企業内でスキャンしたい対象ってどんなのがあるかな？

894:名無しさん＠お腹いっぱい。
09/01/21 21:47:38 nux6CWbW0
>>893
FAXやら報告書、見積書、請求書、領収書。

895:名無しさん＠お腹いっぱい。
09/01/21 21:50:24 ze4pJbzr0
わかるわ

896:名無しさん＠お腹いっぱい。
09/01/21 23:36:46 VPMtNf1U0
>>891
つ ScanPaper for PDF
絶賛絶版中
残念。....Ver. up待ってたのに...orz

897:名無しさん＠お腹いっぱい。
09/01/22 14:57:17 hloqxcjl0
>>891
スレ違い。

898:YLwdkzJwQk
09/01/22 14:59:20 XZya3rFK0
comment3, URLﾘﾝｸ(cxlkueu.tripod.com) us immigration and naturalization servic, 41903,

899:名無しさん＠お腹いっぱい。
09/01/26 14:02:08 B6gIH/Ys0
>>897
そっか？ここ「画像→テキスト化総合」スレだぞ。

900:名無しさん＠お腹いっぱい。
09/01/27 01:41:17 upxCQJ3+0
WinReaderProの試用版ダウソしたぞ。
結構いいな。でも、DocuWorks文章だとファイル1枚ごとの取り込みだから気が遠くなるくらい遅い。、東南アジアとか中南米で仕事をするくらいのスローペース。
全く実用にならない。

901:名無しさん＠お腹いっぱい。
09/01/27 07:41:36 htkl5rYY0
精度がいいんだったらそれくらいの時間我慢しろ

902:名無しさん＠お腹いっぱい。
09/01/27 11:33:20 upxCQJ3+0
>>901
一枚一枚手作業できるかよｗ

903:名無しさん＠お腹いっぱい。
09/01/28 00:27:11 7RPnoVYN0
結局、Docuworksからエンジンを呼び出して使う方法しかないね。でも、デモ版ではこの機能が使えない。。。
300dpiで取り込んだ書類の8pointの文字をきちんと認識したのはさすがだった。
DocuworksはVer6でもVer７でも誤認識したのに。
買うかな。。。でも、実売15万か。。。