26/04/24 09:58:37.62 B2jNbBOS0.net
Win+Shift+Tの画面OCRは自動で縦中横認識出来る
851:名無しさん@お腹いっぱい。
26/04/28 12:27:01.92 Xjje+GWF0.net
というか横しか対応してないオチとか
852:名無しさん@お腹いっぱい。
26/04/30 11:59:11.44 oA/GtW7W0.net
bunkoOCRはテキストの行が入れ替わるだけでなく、テキストのブロックが丸々抜けてしまうことがあり、
そういう時にはjsonにもそのテキストのブロックは記録されていない
それでも文字は全部精度よく記録されているのでjsonでPDFも作っておくのがよさそう
853:名無しさん@お腹いっぱい。
26/04/30 12:17:40.74 SNaEtCHY0.net
>>852
あれやこれや処理してる時にバグが取れてなくて飛ぶことがあるので、失敗する画像例を作者に送りつけてくれると
バグの発見が速くなるのでもしよければ送っておいてください。
だいぶ直したけど、まだリリースできてなくてすみません
854:名無しさん@お腹いっぱい。
26/04/30 17:41:58.41 oA/GtW7W0.net
>>853
作者様に以前メールでお送りしたブロック順がメチャクチャになり横を縦と認識された部分もあるサンプル
URLリンク(i.imgur.com)
でPDFを作ってみました
「テキストのブロックが丸々抜けてしまう」は見間違いでした すみません
SumatraPDFはページまたぎ検索もできてでPDFでもリフローテキストと同様に使えますがこの例では
bunkoOCRでの誤認識と同じく「竹藁」と「原料となっている。竹紙は」がヒットしてしまいました
「竹」と「藁」がつながってしまうのは理解できますが、「原料となっている。」と「竹紙は」が
つながってしまうのはちょっと不思議です
855:名無しさん@お腹いっぱい。
26/04/30 18:06:54.07 oA/GtW7W0.net
透明テキストを可視化したものを一応アップします
URLリンク(3.gigafile.nu)
856:名無しさん@お腹いっぱい。
26/04/30 19:27:32.05 SNaEtCHY0.net
>>854
あれかー。めちゃ難易度高いやつで、まだ完全にはクリアできてないです。
近い所を連結するようにしてるのが悪さしてるんですよね。
表っぽい、枠線がないやつは順序が難しい
いまのところこれくらい
URLリンク(120.gigafile.nu)
857:名無しさん@お腹いっぱい。
26/04/30 22:51:34.32 oA/GtW7W0.net
bunkoOCRの書き出したテキストが、
「・・・現在、日本紙幣の主原料となっているほか、ティーバッグ、掃除機の紙パック
の原料となっている。
竹紙は、中国で唐時代(7世紀)から作られ、宋時代(10世紀以降)には竹が紙
の主原料となった。・・・」
となっていますが、1文字ずつ書き込んだだけのPDFをどうテキストとしてつなげるかはリーダーの判断だと思うのですが、
OCRテキストとSumatraのどちらも「原料となっている。」と「竹紙は」がつながっていたのがどうしてかなと思いました
レイアウトを維持しようという意図のないNDLOCRはテキストの順序だけは正しいですね
文字化けもいくつかあるしbunkoOCRに期待しています
858:名無しさん@お腹いっぱい。
26/05/01 01:06:36.59 RQBXBvV60.net
内部的に、「竹」と「藁」のタイトルの後の空白が、段落の区切れと誤認していて
「竹 藁」で一つにしちゃってて、その後ろの本文が、空行区切りで連続している本文とみなして
繋げて出力してしまっています。
URLリンク(i.imgur.com)
これを解決するには、表のヘッダーと本文の部分に分けて認識できる構文解析が必要なので
結構難しい
859:名無しさん@お腹いっぱい。
26/05/01 04:38:23.22 4dgFFWM80.net
普段ほとんど見ないようなレアな漢字や段組みまでケアした完璧なものよりも
普通の文庫やハードカバーのOCRなら問題なく出来る程度のバージョンでもいいので出してほしいです
860:名無しさん@お腹いっぱい。
26/05/01 06:09:03.28 Paf9p86Q0.net
それな
いいとこ取りしてndlocrliteにレイアウトまかせて、文字認識はbunkoocrとか出来ない?のが残念
861:名無しさん@お腹いっぱい。
26/05/01 09:43:33.87 RQBXBvV60.net
普通の文庫というか、私が今読んでる文庫本の小説を読みながら、ミスってるところを修正してるので
読書の時間が律速過程になっているという。
自分で読む本くらいちゃんとスキャンできないと意味がないのでな
ndlocrliteのやってるPARSeqと、bunkoOCRで使ってるfindtextCenterNetは、文字のデコードの仕方が異なるので
なかなか合わせにくい
PARSeqの方式は、先に文字列のあるBoxを見つけておいて、短冊状の文字列の画像をテキストにするやり方。
findtextCenterNetの方式は、文字の座標とその連結方向を見つけておいて、文字を順番に連結してテキストにするやり方。
PARSeqはTransformer系なので、文字を落としたりする。
findtextCenterNetは文字ごとにデコードするので、あとから文脈で補正できるようにTransformerで修正してる。
862:名無しさん@お腹いっぱい。
26/05/01 20:27:42.78 5O1n87Gj0.net
bunkoOCR作者に画像送るURLがサーバーエラーになってない?
863:名無しさん@お腹いっぱい。
26/05/01 20:50:14.32 RQBXBvV60.net
>>862
ほんまや。直しておきます
864:名無しさん@お腹いっぱい。
26/05/01 21:11:16.37 RQBXBvV60.net
動くようになったです。だいぶ止まってたっぽ
865:名無しさん@お腹いっぱい。
26/05/01 21:34:02.95 5O1n87Gj0.net
対応ありがとうございます
漢字の一が認識されないのがちょいちょいあったので送っときました
866:名無しさん@お腹いっぱい。
26/05/01 21:40:33.64 RQBXBvV60.net
>>865
ありがとうございます。
手元の最新の開発版では上手くいけているので、バグがあったのがどこかで直ったっぽいです。
現在の修正が一段落ついたらリリースしたいと思います。
867:名無しさん@お腹いっぱい。
26/05/01 21:51:46.87 K98nN0p10.net
漢数字の「一」と同様にカタカナの「ー」も欠落することがありますね
868:名無しさん@お腹いっぱい。
26/05/01 21:53:35.94 BDPCeRc20.net
横だけどテスト画像提供者が作者最新版でのテスト結果を受け取れるように
画像のハッシュ値か何かをキーとしてダウンロード出来る仕組みがあったら良いのに
と思いました。
869:名無しさん@お腹いっぱい。
26/05/02 12:00:33.04 A2FGbi8r0.net
確かに。こっちから結果送りたい時に困ってたんですよね。
仕組み考えておきます。
870:名無しさん@お腹いっぱい。
26/05/03 13:10:57.10 dpfsbASQ0.net
gemma4試したけどマルチモーダルのLLMがOCRで座標返すのが意味わからなすぎる
E4Bはスマホで動かしたけど一つ上をパソコンで動かしかったが30GBとかとびすぎやろ