08/07/25 15:21:53
>>139
うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)
なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。
新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
すまん、かえって混乱させてるかも。。
というか、自分混乱してる。