【文字認識】OCRソフト（3文字目）【自炊】

【文字認識】OCRソフト（3文字目）【自炊】at SOFTWARE

【文字認識】OCRソフト（3文字目）【自炊】 - 暇つぶし2ch887:名無しさん＠お腹いっぱい。
26/06/02 20:21:33.85 haE6UAe70.net
>>886
それをきちんとやろうとしたら全角半角以外でもフォントのサイズやイタリックやボールドなど他の字形要素でも同じ問題が起きるので
「OCRでテキストだけじゃなく各文字の使用フォントとサイズまで識別する。透明テキストを埋め込む際に同じフォントとサイズで埋め込む」までやらないといけない

フォント識別してもそのフォント持ってない問題とかもあって、裏技としてはOCRしながら画像から新しくフォントを生成してそのフォントで埋め込むみたいなのもできるんだろうけど普通はコストに見合わない

888:名無しさん＠お腹いっぱい。
26/06/02 20:31:29.21 64umnu5E0.net
英文専用OCRではイタリックやボールド、飾り文字も認識出来るのがあったかと

889:名無しさん＠お腹いっぱい。
26/06/03 09:16:04.40 /Nv6QzpK0.net
>>887
Document intelligence ではフォントとスタイル認識できるからやってみてるけど、あっちはあっちでポリゴンが実際の文字の位置とちょっとずれてるっぽくて面倒くさいのよね

890:名無しさん＠お腹いっぱい。
26/06/03 10:16:52.63 FUE8x4HF0.net
NDLOCR-Lite v.1.2.1 で本に載っているC言語系のソースコードを OCR でテキストファイルに出すと関数の終わりのカッコ } で謎の数字が入っている。
記号やプログラムで使われる特定のキーワードだと、プログラム的に解釈して、その時持っている変数をOCRの結果に出してそう。
変換精度は満足。
1と小文字Lを間違えるのと、スペース区切りを間違えるのは仕方がない。

891:名無しさん＠お腹いっぱい。
26/06/04 00:05:48.27 rR1rcJJ70.net
中国語日本語の専門用語辞典をNDLにかけてみたら時々謎の英語ぽい無意味なアルファベット文字列が出力されてた

892:名無しさん＠お腹いっぱい。
26/06/06 22:42:05.88 yoBQqSOK0.net
ndlocr-liteにプレビューとして1.2.2が出ていた
PDFの透明テキストの位置が改善されていた
PDFの画像は今まで可逆のFlateエンコードだったのが品質75のDCTエンコードに変えられた
初期版の時のようにASCIIのPDFになってしまったのでcpdf -squeezeとかしないとサイズがでかい

893:名無しさん＠お腹いっぱい。
26/06/07 14:00:09.86 RxhR464W0.net
OCRが作成するPDFの画像を差し替えるために透明テキストを抽出してみた
URLﾘﾝｸ(yoshitan98.github.io)
既成プログラムしか使わないバッチファイル

894:名無しさん＠お腹いっぱい。
26/06/24 20:27:39.88 sYZuehuq0.net
NDLOCR-Liteを使おうと思ったら起動してすぐ落ちるんですが
必要スペックってどれくらいですか？

895:名無しさん＠お腹いっぱい。
26/06/25 13:17:16.23 Td1e6OTl0.net
Macでも余裕なので本当にスペック不足ならすぐに捨てて買い換えるべき

896:名無しさん＠お腹いっぱい。
26/06/25 14:38:24.14 E7sAMfse0.net
読み込むファイルの解像度が高すぎるんじゃないの

897:名無しさん＠お腹いっぱい。
26/06/26 07:48:28.41 XhhUmr6/0.net
Windows11じゃない起動できないんですかね

898:名無しさん＠お腹いっぱい。
26/06/26 19:31:51.09 x0rt6wrK0.net
んなこたあねぇだろ
Linuxでしか使ってないから知らんけど
Sandy Bridge世代の産廃でも余裕で動く
流石にメモリは12Gあるが
メモリ少なすぎるんちゃう？

899:名無しさん＠お腹いっぱい。
26/06/26 19:59:41.70 XhhUmr6/0.net
自分もSandy Bridgeでメモリは16GBです
AIにはスペックかWIN10だからと言われましたがどうやら違うんですね

900:名無しさん＠お腹いっぱい。
26/06/26 20:35:31.28 XhhUmr6/0.net
ググってみたらフォルダの場所でエラーがおきるみたいで
試しにCドライブ直下にフォルダを展開したら起動できました

901:名無しさん＠お腹いっぱい。
26/07/02 20:11:24.91 ETa5le330.net
Rust_DN_SuperBook_PDF_Converter　の環境構築をもう一度頑張ってみたい。
俺の環境はWindows11
情報系学部2年生レベル向けの解説を希望。

環境構築の完全解決につながる回答には仮想通貨で200円分払ってもいいです。

902:名無しさん＠お腹いっぱい。
26/07/02 20:50:36.69 ETa5le330.net
AIに聞きながらやってるんだが、何の説明もなくあれこれコマンドを実行させたり、アプリを次から次へとインストさせようとしててマジで不信感しかわかん。

903:名無しさん＠お腹いっぱい。
26/07/03 18:03:19.53 f9zVjJ/00.net
もしかして世に言うAI格差ってやつですか

904:名無しさん＠お腹いっぱい。
26/07/03 20:24:52.32 dNk8jiy60.net
>>901
これがAIに代替される人材ｗ

905:名無しさん＠お腹いっぱい。
26/07/03 20:29:52.87 bMazsbXR0.net
Windows2000版とWin98版
希望です

906:名無しさん＠お腹いっぱい。
26/07/04 11:52:41.41 FrArTNcC0.net
ググっても、DN_SuperBook_PDF_Converterの環境構築のブログはヒットしても、Rust_DN_SuperBook_PDF_Converterの環境構築についてはヒットしない

マジで誰か初心者向けの解説記事書いてくれ。数百円程度なら課金するから

907:名無しさん＠お腹いっぱい。
26/07/04 20:41:27.90 gbsX50I70.net
OCRのソフトって、いくらで売るべきなのかね？