>>933
VietOCR-5α用の縦書きモジュールjpn_vert.traineddataの検証、サンクス。
tessdata_fastとか、英語のソースから見つけ出せるってすごいな。

早速xubuntu16.04上のVietOCR-5αでjpn_vert.traineddataを試してみた
ところ、横書き用のとは共存できないのか、リネームしてjpn.traineddataの
ふりをさせることで、半角スペースまみれとはいえ、縦書きの画像から見事
それなりの認識結果が得られた。

正直、正解率からいえばblacklistでNG文字を設定し、jpn.unicharambigs
を改造して後処理パターンを修正したjpn.traineddataを使用した現行環境
の方がややマシだった。

とはいえ選択肢が増えるのは良いことなので、メニュー→コマンド→一括OCR
でフォルダ内のtiff画像200件超えを連続処理させてみたところ、相変わらず
020.tif辺りから開始して、最後まで行ってから001.tifに戻ってOCRする
謎行動だったが、何故かjpn_vert.traineddataではない方を使った時と同じ、
日本語になっていない認識結果が得られた(泣)

認識後の後処理に正規表現を使ったリストが使えるらしいのは魅力だが、
残念ながらLinux上ではまだVietOCR-5αは使えないようだ。

あと素のtesseract-ocr4.00αにjpn_vert.traineddataを食わせてみたが、
リネームしようが、jpn+jpn_vertに指定しようが、エラーになって使えなかった。