0906名無しさん@お腹いっぱい。
2018/03/30(金) 19:05:21.87ID:93BxV1mXそうでしたか了解です、無理言ってすみませんでした。
ググってて hocr2pdf というのも出てきたけど透明テキストじゃなくてテキストに置き換えるっぽい?
とりあえずhocr-pdfの代替には無理みたい
調べる過程でtesseract-ocr ってフリーのOCRツールを知ったんですが
これ、素のtesseractのWindows用バイナリ(ver4α)だと残念な感じだったのに
フロントエンド被せてある VietOCR がGoogleさんもびっくりな認識率で驚いた
カスタマイズで相当辞書を鍛えてるっぽい?
https://i.imgur.com/tj1ARCW.png
tesseract.exeでは1ページずつだけどOCRからPDF出力までできるのでVietOCR同梱のほうで
tesseract.exe -l jpn hoge.jpg hoge pdf
バッチ組んであとでgsとかで纏めればローカル環境だけでそこそこ精度のPDFが作れてしまう予感