09/04/15 09:23:07
>>474
・全文検索ソフトは何を使っているの?
まだ何も使っていません。「全文検索」という言葉の意味もよく分かってないレベルです
・画像はPDFとかxdwにしてないの?
ネットのフェチ写真と同じ状態で拡大縮小ができるだけです(嘆)
JPGとかのまま?
477:名無しさん@そうだ選挙にいこう
09/04/15 09:28:25
>>476
JPGのままじゃどうにもならないでしょう。
478:名無しさん@そうだ選挙にいこう
09/04/15 09:59:52
>>473
官庁が配るような超シンプルな感じの文書型の目次だったらOCRほぼ効くよ。
ファッション雑誌みたいな懲りまくったレイアウトとか背景色や背景に画像があると苦手だけど。
検索はOSにもよるけどSpotlight知らないようだからWindowsかな?
Google Desktop使えばいいんじゃね?
479:467
09/04/15 10:38:11
URLリンク(yfrog.com)
スキャンした結果、パソコンの中には上のような写真として保管されています。
これをどうしたら文字検索できるようになるか、って問題なのですが。
>検索はOSにもよるけどSpotlight知らないようだからWindowsかな?
Google Desktop使えばいいんじゃね?
ぐぐって見ます
480:名無しさん@そうだ選挙にいこう
09/04/15 12:39:40
>>479
縦組みとか、怪しげなフォントを使ってるとか想像していたけど、
これならOCRで楽勝(たぶん)。
テキストの順番で死んでもいいなら、Adobe Readerでも。
481:名無しさん@そうだ選挙にいこう
09/04/16 22:39:51
>>479
ちょっくらeTypistでテストしてみたよ~
URLリンク(www.restspace.jp)
ほとんどレイアウトチューンせずにOCRした結果。
eTypistは前後の行より大きな文字とか文字間が大きな行が苦手なので見出しの類いがかなり弱い。
(神 と ネ甲 みたいなもんかと。たぶん1行/2行なのか1文字/2文字なのかわからなくなるんだと思う)。
テストして見た感じだと、毎号このようなレイアウトって決まってるんだったら
それを記憶させておけば毎回手動でレイアウトを調整してやる手間はかなりはぶけると思う。
本当はPDFで書き出したけど、うpロダがPDFを拒否ったので
zipに固めた上で拡張子を.pngにしたもはこっち。
URLリンク(www.restspace.jp)
PDFならファイル開いたらAcrobatなどでテキスト検索できるし、Google Desktopでも検索できるはず。
目次だけだったら1ファイルにページを追加していってPDFファイル内で検索した方がいいかも。
482:479
09/04/16 23:21:01
>>481
URLリンク(img57.imageshack.us)
483:名無しさん@そうだ選挙にいこう
09/04/17 02:01:39
>>482
ワラタ
こういうのは初めて見たw
484:名無しさん@そうだ選挙にいこう
09/04/17 08:37:27
482に観月ありさという称号を与えたたえたいと思う
485:名無しさん@そうだ選挙にいこう
09/04/17 09:07:31
Windows用eTypist12.0で、なーんも考えずに解析させテキストに書き出してみた。
(年に数回使うだけなので辞書が鍛えられてないです)
PhotoshpやeTypistでノイズを取ったり、シャープにしたりすると多少は変わるけど、
そんな手間をかけて(ry
事痔愛特爆一轡事鮒’嘩
第69回皐月賞2
データカプセル(この10年の成績と傾向)6
東西スタッフの狙い馬8
出走予定馬の厩舎レポート10
クラシック血統アカデミー14
有力馬の考課表と完全データ15
..中出特溺、;i
京葉S卯月S鹿野山特別袖ヶ浦特別23
第11回中山グランドジャンプ
総武S鹿島特別山藤賞1
今週の狙い馬46
...眠神特別1
魏葛撫『カップ塗娼
淀屋橋S山陽特別はなみずき賞
今週の狙い馬67
福島特別}…
ラジオ福島賞米沢特別雪うさぎ賞70
奥の細道特別医王寺特別桑折特別
読物。_?「「一、、一.。.、.li
八方破れVol・719かなざわいっせい94
おもひでの名勝負・皐月賞阿部珠樹96
競走馬の心技体第66回平賀敦98
競馬ことのはVol・60島田明宏『’100
---------------------[End of Page 1]---------------------
486:479
09/04/17 10:54:29
みなさん いろいろ有難うございます
>>485
こちらの成果を拝見して思いますに、わたくしの場合は
目次の中の全項目が必要ではないので、チェックと修正の手間を
考えますと、やはり毎週の手入力にてデータ化するのが良さそうです。
それについても、思いますに、ネットで様々な文書資料をサーフィン
しておりますが、あれらも、みな どなたかが最初に手入力して下さった
恩恵なのですね。
OCRの更なる向上が待たれます
487:名無しさん@そうだ選挙にいこう
09/04/17 23:22:07
>>486
まさかと思うが、その雑誌、Webに毎号の目次だけでも掲載されてないか?
だったらそれをそのままPDF化して(ry
488:486
09/04/19 00:40:15
>>487 あったまいいですね~!
489:486
09/04/19 22:34:08
>>487 ありましたよ~! ただ大分大まかな記載なので自分で足すことに
なりますが、それでも大変作業が軽減されました。感謝です!
490:名無しさん@そうだ選挙にいこう
09/05/24 00:00:21
OCRじゃないけどpdftotext惜しい・・
adobeはなぜコマンド提供しないのか
491:名無しさん@そうだ選挙にいこう
09/05/24 02:21:27
OCRって誤認識あるから
使いどころが難しいな。。。
なんかいい使い道ない?
492:名無しさん@そうだ選挙にいこう
09/05/24 03:26:27
>>491
政治家の著作を引用するときとか
493:名無しさん@そうだ選挙にいこう
09/05/28 00:00:41
OMR
494:名無しさん@そうだ選挙にいこう
09/06/02 23:26:46
キャノンの複合機 MP-610 に付属の 読取革命 Lite から、製品版にアップグレードできるみたいなので、読取革命 Ver.13 のバージョンアップ版を買おうと思う。
今は、読んdeココ Ver.13 を使ってて特に問題ないんだが、エーアイソフトを吸収したエプソンは読んdeココをバージョンアップする気はないみたいだから、これからのことも考えてね。
5千円ちょっとで買えるしね。
495:名無しさん@そうだ選挙にいこう
09/06/02 23:27:34
予言しとくと
まちがいなく後悔する!!
496:名無しさん@そうだ選挙にいこう
09/06/07 08:00:13
読み取り革命って悪くないよ