【文字認識】OCRソフト【 自炊 】at SOFTWARE
【文字認識】OCRソフト【 自炊 】 - 暇つぶし2ch56:ハカーを待ちながら
18/04/16 19:28:05.86 jfy34C3d0.net
ふと「ノイズの極少ない元画像からならどこまでやれるのか?」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。
22ポで画面上に再現した擬似元画像
URLリンク(imgur.com)
それをOCRした結果のスクリーンショット
URLリンク(imgur.com)
つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。
ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか? になっていくのでしょうか。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch