17/01/06 20:13:04.83 4Q+G11jJ0.net
さて、それなりに吟味して作ったブラックリストの内容を記述したファイルをとりあえず
black.conf
とでも名づけて保存しておきます。
当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。
あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。
以下点線の内側をシェルスクリプト ocr.sh として保存します。
----------------
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す
for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done