2013年、最強のOCRは?

0001名無しさん@お腹いっぱい。2013/07/31(水) NY:AN:NY.ANID:wsG9QjLf
読取革命
e.typist
Adobe Acrobat
PDF Xchange Viewer
読んde!!ココ
ScanSnap Organizer
とか

電子化する大きなメリットとなる検索可能な自炊本にするためのOCR情報スレdeath

0053名無しさん@お腹いっぱい。2013/12/09(月) 16:57:57.89ID:sxshqx1w
e.typistのpdf出力の画質って設定で変えられるのね。
使えないと思ってたのが使えるようになったわ。
まったく、何でデフォルトが最低画質なんだか、、、

0054名無しさん@お腹いっぱい。2013/12/09(月) 19:59:41.86ID:YK1q4d3s
e.typist使ってるけど、ルビまでいい感じで読み取るけど?
そのまま青空形式でルビを書き込むようにしてる。

0055名無しさん@お腹いっぱい。2013/12/09(月) 21:40:25.53ID:nWZ+r3Cm
>>54
え、それほんと?
初耳

電子インクの電子書籍端末がいい感じで普及してきたのに、ルビつきのepubが簡単に自炊できるソフトがないことが最大のネックになってた

0056名無しさん@お腹いっぱい。2013/12/10(火) 00:11:47.09ID:ZC2PoFMy
e.typist neoの出荷メール来た
読取と両方試用版試したけど決め手はルビ出力の可否
認識率は本文より低い感じだけど二重山カッコでくくってくれるので
底本参照の校正がはかどるのではないかと思いまして

とは言え認識率が100パーで無い限り底本突合せで間違い探しする訳で根気ないと無理ですねこれは
どうしても残したく且つ電書化の可能性が限りなく低そうな手持ちの本限定…って感じです

0057名無しさん@お腹いっぱい。2013/12/10(火) 00:22:53.69ID:u4muTkK4
青空形式のルビ《 》もルビ開始位置の|も指定できるけど、本文でさえ校正が大変なのにルビまでは出来んわ

0058名無しさん@お腹いっぱい。2013/12/20(金) 19:26:33.98ID:YWA5PXvs
未だにsmartOCRをDLできる国外サイトいっぱいあるけど
あれって英数字だけだと月並み。
結局利用者は大概日本人か

0059名無しさん@お腹いっぱい。2013/12/23(月) 20:43:32.27ID:c3bY1Jmf
OCRは、高圧縮pdfを吐かせるためで
誤認識は気にしない、だいたい認識してくれれば検索も役には立つ
と割り切って無修正で使っている

0060名無しさん@お腹いっぱい。2014/01/28(火) 12:26:31.55ID:ncWCbP7Q
google docsが最強だろjk
しかも無料だし

0061名無しさん@お腹いっぱい。2014/04/21(月) 21:56:35.66ID:FL5+PVqW
OCRするとき、下準備やった方が良いのかな?
ChainLPでレベル補正とガンマ補正したら認識率上がるような?

0062名無しさん@お腹いっぱい。2014/06/01(日) 13:41:10.19ID:gZHlEIFi
>>61
上がるよ、フォトショで背景全部飛ばして文字の太さやらも調整する

0063名無しさん@お腹いっぱい。2014/06/01(日) 13:44:08.20ID:4XblVqBZ
>>62
ホントにホントに?

0064名無しさん@お腹いっぱい。2014/06/05(木) 10:44:39.50ID:5NUrKheB
書籍は画像で保存していて、
OCRかけて検索可能PDFにするのは自分は諦めてるんだけど、
画像内の文字列をちょこっと選択して、
Google検索だけしたいとはよく思う。

0065名無しさん@お腹いっぱい。2014/08/07(木) 08:08:09.99ID:nQfWpHNh
ビューアでそんなの出てほしいな
手動で範囲選択してそこだけOCRかけてweb検索やら辞書検索やらする

0066名無しさん@お腹いっぱい。2014/12/25(木) 21:01:09.03ID:5hKxSpYV
読取革命のアクチベーションはどのバージョンからですか?

0067名無しさん@お腹いっぱい。2015/03/24(火) 00:36:12.86ID:4AGjMhFZ
うちの文鳥は特別に可愛い
たぶん他のところのより可愛い
そうとしか思えないくらい可愛い

でもそう思っている飼い主ってけっこう多い?

0068ギンコ ◆BonGinkoCc 2015/05/01(金) 05:36:53.74ID:iCfLgs4D
読んde!!ココ パーソナル(エプソン版)

画像の読み込みは白黒でしか対応していないため、
モノクロビットマップに変換してやる必要がある。
※元ファイルを消してしまわないため、コピーを別ディレクトリに保存した方が安全。

とりあえず光学文字認識をしてしまい、あとは愛用のエディタを用い、
元ファイルの画面を参照しながら手作業で直していく。
自動文章認識機能に頼りきっていては、なめらかな文字認識ができないため、
きめ細かな修正はやはりオペレーター(ユーザー)が行うしか無いのだ。

Google翻訳で日本語から英語へ翻訳する際、長文のニュースサイト、
論文とかは翻訳にあたってのコツはいちいち使えませんよね。
そこで、Google翻訳ツールセットを用い、おかしな翻訳は
ユーザーが手作業で修正する。それと同じ。

0069名無しさん@お腹いっぱい。2015/05/17(日) 21:46:03.08ID:tp97P1Sy
パナソニックの体験版ずっと前に使ったらしく
テスト出来なかったので
とりあえず体験版で上手くいったんでe.Typist NEO買っちゃった。
パナのばか野郎

ちゃんと段落指定しないと文字間にスペースが入ったりするからめんどくさいけど
ルビもしっかり読み取るし
右クリックですぐ検索できて素敵なPDFライフ送ってます
スキャンしたjpgファイルのゴミの山が宝の山に化けたぞ!

0070名無しさん@お腹いっぱい。2015/11/11(水) 15:39:24.99ID:CAbtX60K
2010年購入image scanner CanoScan 5600F付属の読取革命Lite v.1.09。
Web pageにあるJPEGなどの画像表示、つまりそのままテキスト文でcopy&paste
できないものをテキストデータに変換したい時がたまにある。
画面キャプチャ(snipping tool)によるclip boardを入力データとして読み
込んで、文字認識させてテキスト文にする。

最近5年ほどでOCR softwareの文字認識能力が格段に向上したというけど、
私の使っているものは読み間違えが多い。
画数の多い漢字は正確に認識しにくいが、英字などで"i"&"l"&"1", "o"&"0"
などは必ず間違っている。

0071名無しさん@お腹いっぱい。2016/01/19(火) 15:11:19.09ID:mq3Mk8xh
etypistがえらい勢いで良くなってるな
読取はルビ読み取れないが eは読む

0072名無しさん@お腹いっぱい。2016/02/02(火) 12:46:48.20ID:8rKEDg16
etypist15の発売日2013年やないか

0073名無しさん@お腹いっぱい。2016/04/06(水) 20:44:12.53ID:0vG9P8H4
☆ 日本の核武装は早急に必須です。☆
総務省の、『憲法改正国民投票法』、でググってみてください。
日本国民の皆様方、2016年7月の『第24回 参議院選挙』で、日本人の悲願である
改憲の成就が決まります。皆様方、必ず投票に自ら足を運んでください。お願い致します。

0074名無しさん@お腹いっぱい。2016/07/29(金) 17:23:08.48ID:chwtCP1b
etypist、性能はいいんだが
読み込み時にいちいちウインドウがアクティブになるので
他の作業が出来なくなるのがうざい
別にアクティブになる必要ないだろ

0075名無しさん@お腹いっぱい。2016/08/02(火) 21:34:27.65ID:xQSe+qqJ
OCRソフトで、原稿のフォントを指定すると
認識精度が上がる機能があればいいのにな
ゴシックと明朝、フトコロの大小だけでも
だいぶ精度が上がりそうなのに

0076名無しさん@お腹いっぱい。2016/08/13(土) 09:58:07.95ID:cdpMErTk
活字なら文字の大きさも一定だし、フォントとか認識できれば、言偏が分解されたりせずに済みそうだよね

0077名無しさん@お腹いっぱい。2016/09/22(木) 00:19:47.24ID:ZZVNIQT0
認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた
https://bita.jp/dml/reactive_int

0078名無しさん@お腹いっぱい。2016/10/06(木) 14:45:13.21ID:skZ2qPPb
体験版で精度をチェックしたいのに製品版と性能が違うのもあるらしいから困る

0079名無しさん@お腹いっぱい。2016/10/07(金) 09:30:18.61ID:jp9s72R4
FineReader買ったけどいいね。

0080名無しさん@お腹いっぱい。2016/10/07(金) 23:42:03.50ID:F621ToTQ
>>79
学習が日本語対応してないのが痛い

0081名無しさん@お腹いっぱい。2016/10/10(月) 07:22:47.51ID:xE3A06X4
>>80
実質、英文のOCR専用でしょう
日本のOCRソフトで英文OCRやってもグダグダなのと同じだと思う
洋書を電子化するにはなかなか良いソフトだと思う

0082名無しさん@お腹いっぱい。2016/10/10(月) 13:04:37.24ID:MNrX4hom
ホームページ見ると英語なら読取革命もABBYY社製エンジンだね
ちなみにe.typistはNuance社製

0083792016/10/11(火) 01:30:01.21ID:eksnS3tm
>>82
俺はhttp://monomania.sblo.jp/article/55737163.htmlで↓を読んでFineReaderを買うことにした。
>>読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。

0084名無しさん@お腹いっぱい。2017/07/08(土) 18:41:50.55ID:xQlgvdQ3
eTypistは認識中にウィンドウがアクティブになるのを防げんのかね

0085名無しさん@お腹いっぱい。2017/07/09(日) 16:06:20.21ID:iESi7AYh
>>84
確かに。読取革命とは対照的に、処理中はPCを
事実上専有されてしまい困るね。

googleのAPIを試してみたら、認識精度は相当良かった。
今は(たぶん)アプリがないので敷居は少し高いが、
将棋といい、今後はAIの方向性になっていくのかな。

0086名無しさん@お腹いっぱい。2017/07/11(火) 00:20:04.02ID:EO4izff5
パナソニックがすでにAIとかディープラーニングを投入した手書き文字
対応の帳票OCRソフトを発売しています

ttp://news.panasonic.com/jp/topics/148335.html

お値段もいいっすね。

・帳票OCR Ver.8 クライアント版:398,000円(税抜)

0087名無しさん@お腹いっぱい。2017/07/12(水) 19:51:06.12ID:yQE9Ft7A
>>86
お値段張りますね。個人にはちょっと手が出ません。

個人的にはGoogle cloud visionで満足ですが、
誤認識のフィードバックや学習機能はないですね。

0088名無しさん@お腹いっぱい。2017/08/20(日) 10:04:39.07ID:2KZZB/L/
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…

https://github.com/dinosauria123/gcv2hocr

Linux用。Bash on Windowsでも使える。

0089名無しさん@お腹いっぱい。2017/08/24(木) 19:50:24.14ID:m5h5ZsxQ
>>88
素のWindows環境なので試せませんが、
検索可能PDFはいい考えですね。

高級言語を何も知らないので、標準のPowershellで
フロントエンド部分のスクリプトを作ってみたら、
Google Cloud Vision、結構いいかも。
文庫本一冊あたり数分でテキスト化できるようになった。

0090名無しさん@お腹いっぱい。2017/08/24(木) 20:11:01.05ID:mY06hxQc
Google Cloud VisonのOCR, いいですよね。

古いカメラ好きで、戦前戦中期のカメラ広告のデータベースを作ろうとしてるのですが、
他のOCRよりかなり良くて重宝してます。

全てが読めるわけではないですが、ものによっては広告の見出しのロゴなども読み取れます。

ちなみにテスト中のサーバーはこちらです。
縦書きがひっくり返ったり、画像が出なかったりとまだうまくいかないのですがw

http://104.197.98.173/

スクリプトは公開されますか?興味ありますw

0091名無しさん@お腹いっぱい。2017/08/24(木) 20:51:11.80ID:mY06hxQc
Google Cloud Visionを使ったOCRソフトが1480円だそうです。いいかも。

http://n.shop.vector.co.jp/service/catalogue/ppocr/

0092名無しさん@お腹いっぱい。2017/08/24(木) 21:10:00.64ID:mY06hxQc
すまん、これTesseractベースらしいw

0093名無しさん@お腹いっぱい。2017/09/21(木) 15:18:37.11ID:oeq2WaFN
Googleドライブのサービスが終わることが決まったらしい

てことはOCR民に重宝されていたGoogleドライブを経由して上げたjpgから文字化するあのシステムも失われてしまうのだろうか

0094名無しさん@お腹いっぱい。2017/09/21(木) 15:29:09.54ID:oeq2WaFN
と思ったけど機能発展かなんかの流れで推移して仕組みが変わるだけでそういったシステムが無くなるわけではないのかな
よくわからんね

0095名無しさん@お腹いっぱい。2017/09/26(火) 18:13:31.59ID:L30pb7J/
手書きOCRの記事をよく読むけど、手書きであの精度がでるなら、活字は100%近い精度が得られそうな気がするけど、どうなんだろうね?

0096名無しさん@お腹いっぱい。2017/09/27(水) 16:30:29.45ID:kyhjOBdx
記事のための

0097名無しさん@お腹いっぱい。2017/12/30(土) 01:13:36.18ID:vWdc5/Pn
☆ 私たち日本人の、日本国憲法を改正しましょう。現在、
衆議員と参議院の両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

0098名無しさん@お腹いっぱい。2018/01/12(金) 08:46:36.99ID:OG0vqAvx
電子書籍のように無料で稼げる方法
グーグル検索⇒『稲本のメツイオウレフフレゼ

Z9GSY

0099名無しさん@お腹いっぱい。2018/02/28(水) 23:51:50.98ID:pigZ9q4r
Google Cloud Vision APIで透明テキストのPDF作ってみたんだけど、abbyy finereaderとか、e-typist、読み取り革命とか、捨ててもいいレベルですね。
何万も掛けて買って、精度の悪さにがっかりしていたのがバカバカしくなるレベル。
Google Cloud Vision APIのOCRはマジでおすすめ。

0100名無しさん@お腹いっぱい。2018/05/29(火) 15:55:16.34ID:20k4ukZr
IDSP8

0101名無しさん@お腹いっぱい。2018/09/30(日) 02:03:47.28ID:7yJ8ed3M

0102名無しさん@お腹いっぱい。2019/04/22(月) 13:32:08.24ID:S+OQcRwJ
LINEの新機能がOCR機能を搭載してたようだよ(現在PC版とAndroid版のみの機能)

Googleやtesseractと比べてどうなのかな?

こうなるとLINEの友達にOCR変換投げつけ用アカウントの人をどこかで用意しなきゃならん

0103名無しさん@お腹いっぱい。2022/12/18(日) 21:05:23.59ID:WQH1nNN9
いちおう保守。

新着レスの表示
レスを投稿する