プリンタ型のスキャナが…006【ScanSnap!】at PRINTER
プリンタ型のスキャナが…006【ScanSnap!】 - 暇つぶし2ch459:名無しさん@お腹いっぱい。
08/09/12 00:44:41 eQwtkwEG
待ちに待ったオープンソースの日本語OCR「NHocr」
URLリンク(feeds.feedburner.jp)

OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。
しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。

しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。
今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。
Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、
デモサービスは公開されている。デモサービスでは、BMP/JPEG/PBM/PGM/PPMの
ファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を
日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが
判別可能になっている。

読み取らせた画像 手書き文字であっても認識率はそこそこ高い。
正式リリースがまだという段階にあっては十分高いと思われる。
現在は一行の文章しか読み取れない、周囲にゴミや罫線があると認識率が下がるとのことだが、
期待値はいやがおうにも高まってしまう。これがあればどんなサービスが考えられるだろうか。
オンラインで名刺を認識したり、画像にある文字列を読み取ったりもできる。
携帯電話で撮った写真を送れば何かを処理して返す…みたいなものも作りやすくなるだろう。
OCRはこれからもっと需要が高まっていくのは間違いない。NHocrへかかる期待は大きいだろう。
読み取り結果。「で」は難しいようだ(筆者の字が汚いだけという意見も)それ以外は良好。


次ページ
続きを表示
1を表示
最新レス表示
レスジャンプ
類似スレ一覧
スレッドの検索
話題のニュース
おまかせリスト
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch