自炊技術総合26 @電子書籍板
レス数が900を超えています。1000を超えると表示できなくなるよ。
ちなみに
「linuxならフリーで質の高いOCR付きPDFを作ることも可能」
こちら、何かガイドありませんか?興味あるので調べてみたいのですが。。 これから出かけるので今日は詳しく返答できないが
ここの過去ログに詳細がある
もし過去ログ見れる&すぐ知りたいなら探してみて CISのセンサーは読み取り自体300か600でしかしないってことじゃなかったっけ?
一方、縮小光学系CCDの機種だとレンズで調整できる。
出力解像度が1dpiごとでいじれる機種はCCDなことが多いね >>810
過去スレで話出てたからそれ見てわからないなら無理だと思うよ せっかくの2画面でコミック見開きに良いと思ったが、
画面同士の距離が離れすぎだな。
einkってベゼル部分が幅広なのが多いけど、なにかデバイス構造上の都合なのかな? 完全なカラー書籍じゃなくて、白黒+{赤or青or黄色}系の技術書、参考書ってカラーでスキャンするか、白黒でスキャンするか迷うよなw 枠線だけが赤とか青とかのあるもんな
仕方なく〜―にしてる 2色刷りくらいまでならカラーで取ってから色ごとに別々に白飛ばし補正してからあとで重ね合わせてる 中古で本買った時に前に使ってた奴が蛍光ペン等で線引きしてた場合って
カラーでスキャン→画像編集ソフトで特定の色飛ばす
で、本文を害することなく書き込んだものだけ消すって出来るん? 以前「PDFはコンテナだ」みたいな発言あったけど、これってAcrobatで言う所のポートフォリオってやつのことね
機能試してみたけど、コンテナのように画像なりpdfなり束ねるだけの機能だった コンテナだって話が出る場合は、画像型式と誤解してる場合なこと多かったと思う。
例としてzipやらのわかりやすい形式が出ることも多かったが。
単純にまとめたファイルっていうよりも、
中にどんな形式で格納されてるかが重要っていう話だと思うよ。 >>817さん
810です、資料のご提示ありがとうございます。
GCVで認識させて結果のJSONを変換して
PDFに上乗せするイメージですかね。
縦書きの文書にはGCVじゃなくてtesseractを使うのかな。
python動けばよいだけなら、Linux以外でもできる気がしますね。 ポートフォリオとして外部から見えるかどうかとは関係なく
自炊PDFの場合、PDFは画像のコンテナにすぎない
例の人がPDF内の格納画像がTIFF/JPEGであることを理解せずに
"抽出"ではなく"変換"で画像を取り出しておいて加工したら劣化した!と騒ぎ
PDFのまま白黒とグレーを合成できれば劣化は起こらないはず
(だから誰かツール作れ)とか言ってたがもちろん間違い
1ページ内にTIFFとJPEGの画像を混在させられれば可能は可能だが
そういう特殊なレイアウトのPDFはキヤノン機でカラー自動の時に吐き出すPDF以外では見たことがない
後から編集できるソフトも聞いたことがない >>828
汎用ツールの部分は大抵はexe版があるかdosコマンドで代用できるので
シェルスクリプト(sh)の部分をbatなりwshなりahkなりで書き換えてやればいけると思う
ただ実効速度的にはwinだとやっぱ遅いんだよね
導入にwsl入れちゃった後だとそのままそっちでやればいいか、みたいになっちゃう
winの既存ツールとの違いはPDFに格納する画像の形式をわりと自由にできること
JPGの代わりに減色済みの4bitPNGをそのまま入れられるのが嬉しい >>829
それAcrobatのバージョンいくつの話? >>829
んじゃ、例えば1000kbの画像をPDFに“ポートフォリオじゃなく“入れてから、無劣化で元の画像に抽出する方法教えて
当然抽出後も1000kbで 抽出、変換ってのはAcrobat内のメニューの名称じゃないよ
格納されてる形式でそのまま取り出すか(抽出)
指定の方式で書き出すか(変換)
って意味
可逆to可逆ならフォーマットが違ってもdpiや色数変換などが行われない限りは劣化はないが
JPEGto可逆 や 可逆toJPEG の場合は問題になる
Acrobatのメニュー上では違いが分かりづらい
抽出したいときは画像梱包やpdfimagesなどのツールのほうが間違えにくいと思う なんか誤解があるようだが
PDFのファイル形式の話をしているのであってソフトの使い方の話じゃないよ
"Acrobat上でどうやるか" は使ってる人が研究してくれ
自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる スキャンから全部linuxで出来るならバッチ化出来て個人的には捗る >>834
違いが分かりづらいってお前知らんのかい
ゴチャゴチャ下手くそな説明並べて結局それかよ
>>格納されてる形式でそのまま取り出すか(抽出)
>>指定の方式で書き出すか(変換)
当たり前。それ以外の言葉で捉えるワケが無い。お前は根本的に理解が間違ってる。そんな説明は聞いていない
俺が聞いてんのは
Acrobatで抽出できるか
(Acrobatに限らず)できるならその方法は何か?
だよ。
碌に他人様が言ってる説明理解できずに自分の中の程度の低い理解で下手くそなご託を並べろなんて誰も言ってないから
そこの所は誤解無きように
あと付け加えるとAcrobat相手に
>>自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる
って言ってる時点でこいつの頭の程度がだいたい想像つく
それと
>>なんか誤解があるようだが
って言ってるけど、話の発端は>>826 FUJITSU
ScanSnap iX500 FI-IX500A
価格38,600円(うち消費税2,860円)
https://nttxstore.jp/_II_FJ14917770
安い? 『確認の方法を知らない』のはそちら側の問題なので自分には教えてあげなければいけない義理はないし
PDFがコンテナなのも周知の事実なのでこちらで証明方法を説明しなければならない理由もない
やり方は『 PDF 画像 非劣化 抽出 』でググれば方法は見つかるし>834でもソフト名を挙げている
(詳しく書いても良かったが煽って情報を得ようとするスタイルを認知するわけにはいかないので
この返でやめておく)
Acrobatが『分かりづらい』のはユーザーが内部の画像形式を正しく理解して
出力形式を合わせてやらないと『抽出』にならないから
とっくにアンインストしてるので正しい抽出の仕方検証に付き合うつもりもない
> って言ってる時点でこいつの頭の程度がだいたい想像つく
そこはお互い様だね
こっちも毎回君がAcrobatを神のツールのごとく言ってるのを見るたび程度が知れるなって思ってるよ >>831さん
wslっていうのがあるんですね、知らなかったので勉強になりました。
しかしながら、キャノンのスキャナについていたOCRエンジンで結構満足してしまったので、
これ以上探求しないかもしれません、折角教えて頂いたのに申し訳ないですが。。
(でも、いつかpngからPDF作ることがあるかもしれないので
その時に備えて勉強しておくのもいいかも)
ここの皆さんのお陰で楽しい自炊ライフが始められました、感謝です! 減色すること考えたら最初から8bitでPNG取り込みとかできたら素敵なのに。。。 先輩方のお陰で今日自炊デビュー出来たのですが、
自炊wiki 以外に読んでおいた方がよいものってありますでしょうか? CANONのOCRエンジンはスキャナメーカーの中ではかなり優秀なほうだと思う
縦書きもまともに認識してくれる >>844
多分そんなことより
ストレスと妥協に対してどこまでできるかだわ
色線はカラーであれば6割の確立ででるが
容認できるかどうかなど C240選んだ人でしょ?
それほどこだわりを持ってスキャンするような本じゃないだろうし
普通に作業量との戦いじゃないかね。
1年で500は結構きついと思う。 学術系は良書が沢山絶版になってるからアップしてほしいのあるよな 自炊した本に限定した問題なのでここにグチります。
後の手間を考えて裁断するときに結構多めに切り取ってしまうのだけど、
そうするとPDFビューワで見開き表示したときに左右の画像が継がらない。
縁消しで読んたものは、まぁ違和感ないから、左右ページにすきまが充分
あれば、脳内補完されると思う。
Mac用で左右のページの間を広めに表示するビューワを探したんだけど、
他の使い勝手が悪くなるんで、これはというのがない。
表紙だけ1ページの右綴じ表示が出来て、左右の隙間が広いビューワない
ですかねぇ。Windowsにはある? Andoroidのcomittonだと中央余白のオプションあるね。 自炊歴10年でこれまでずっと「ノド」の断裁は10mmを目途にやってきたんだが
昔のマンガも同じ要領でやったらバッサリコンテンツの一部が欠損してしまった
https://i.imgur.com/sNdTf5W.jpg
新書版(てんとう虫コミックスみたいな)がダメみたいだな
B6版ではこんなこと無かった >>853
は???10ミリ?
切りすぎだろw
これ見てみろよ
https://i.imgur.com/4o8G1VV.jpg
https://i.imgur.com/LQ4SOzt.jpg
大型技術書だけど厚いところでも3ミリ無いぞw
本文まで裁断してしまうのが嫌だからこその浅斬りだぞ
左右の余白幅がアンバランスになるのが嫌だってのもあるが。
浅く切ると切った後もまだノリが1割ぐらいのページ残ってしまうが、そこはカッターで切り分けてるわ 親書で10mmは無謀よ
本のサイズでノドの深さも変わるし
文字本はノド/タチキリ共に切れて困るような内容は普通配置されてないので
デザイン重視でなければ深めにカットでも問題ないけど いろいろ妥協して治具作って定量カットしてるけど
直近のゴミを測ってみたら基準値2.5mm、
紙質や厚さで歪んでもせいぜい4mmだった それだと糊残りまくりでスキャン時に地獄を見るんだよな〜
ジャミング連発地獄 >>857
856だけどテレビ見ながらとかペリペリ剥がしてるよ じゃ別にジャミングするスキャナってこともなくない
裁断した後剥がすのをさぼってるだけとか >>857
薄めの裁断だと確かに糊が残ってしまって、そのままスキャンに掛けたら重送が連発するのは確か
だからスキャンの前に残った糊でまだひっついた状態のページ同士をカッターで切る
切る時はこの動画
https://www.youtube.com/watch?v=BJ2yTI1f-IU
みたいな感じで切ると素人でも簡単にひっついたページ同士を切り離せる
ただし、糊そのものはページにへばりついた状態なので切り離した後も残ってるがスキャンには残らない
俺からしたら
裁断動画のサンプル
https://www.youtube.com/watch?v=dDoNqyZ-cDM
の4:18で「ばっさり切れた」と言ってるけど、切りすぎだと感じる
(確かにここまで深く切ったら糊が残らないぐらいにまで十分切ったとは言えるが。) 喉側の欠落を気にするのなら裁断は糊の塊除去くらいの気持ちで行かないとだろう。
解体のメインはその後のページ剥がし作業になる。
でも16ページを折って束ねたタイプの製本だとちょっと大変。
でも裁断でギリギリ狙うくらいなら薬品を検討してみても良いと思うよ。 “背”の部分のcoverを捲って剥き出しにしたら分かるが、500ページ超ぐらいの大著は40〜60ページぐらいを折って
そういう風に冊子状にした物を全体的に纏めて糊で圧着してる。
ホッチキスで留めたタイプの薄い冊子系は裁断が逆に面倒だよな
1部の分厚さ自体が1センチも無いから裁断機で裁断しようにも押さえることが出来なくて、
仕方なしにホッチキスの芯を手で外してから手作業でチマチマカッターで切らなくちゃいけなくなる ホッチキス外す
バサバサっ
クリップで仮止め
断裁機どーん カールのDC-2100-Kって裁断機買ったけど切断面が曲がるな
昔使ってた旧型のDC-210Nはこんなことなかったのに 中とじ本は折り目が正確にページ分轄線どおりとは限らんし
A5以下ならホチキスだけ外して裁断せず2ページ繋がったままスキャンして
補正前に位置見ながらページ分割するほうが失敗がない
ページ順バラバラになるから連番合わせが面倒だがな 専門書を自炊してタブレットで読む
これだけの用途だとタブレットは何を選べばいいですか?
今はKINDLEタブを使っているがosがダサいのが気に入らない
候補としてHuaweiの泥タブを考えているけど、そもそも皆は自炊後どうやって読んでる? >>868
新書・小説サイズはFire6
単行本・教科書サイズ・大型本はFire10
で拡大無しで普通に見れる。画面も綺麗し FHDの普通のPC液晶モニタを90度回してたけどあまり快適じゃないので中華の10インチタブレット買った ワイはoreillyとかのIT系技術書。Sidebooksをつこてる Fire10はこないだのタイムセールで1万くらいで売ってたらしい >>868
普通はiPad
E-inkが良いならKobo aura one+koreaderかBOOX Note辺り >>870
ファーウェイ泥タブでSidebooks >>875
ちなみにHuaweiの何を使ってますか? 8インチタブはコンパクトで良いけど雑誌サイズを読むとき辛いんや タスクマネージャーでのエクスプローラーのメモリ占有量の変化見てて思うんだが、
1ギガ超えるぐらいの巨大PDFファイルを格納してるフォルダを表示してるだけでOSが勝手にガリガリ言いだし始めて
メモリ占有量が1GB→3GBって普通に増えていってるんだが何これ?
5分ぐらい放置してると占有量下がって元に戻るんだが、こんな状態だとカラーでスキャンする度に迷惑被るから何とかしたいんだが? >>879
iPad mini使ってるけど余白カットすれば何とか サムネイル作ろうとしてメモリが足りなくて諦めるを繰り返してるとか? Windows Search か Thumbs.db か SuperFetch か知らんけど
いずれにしろ1G超のPDFじゃ更新に時間かかってもしかたあるまい 一旦作らせれば直るんじゃない?
だめならそのファイルを対象外にするとか、メモリ増設か >>886
ナプキンかタンポンをお持ちしましょうか? >>882
うちは処理が遅くなる原因は
・HDDの空き容量が10%以下の場合
・デスクトップにファイルが大量にあるとき
ソフトの起動やエクスプローラーを開くのがすこぶる遅く
Cドライブ以外のHDDも開くのがなぜか遅くなる ファイルにタグって付けれないのかね?
自炊本を既読と未読で別フォルダに分けてるんだが、既読か未読かってのは俺の個人的な都合であって本の性質とは無関係だから、
本来は自炊ファイルの分類に影響を与えるべきじゃないんだが、未読ってのを一目で分からないと読む時に都合が悪い
ファイル名の末尾に「〜(未読)」なんて一々記入するのも作業的に非効率
何かいい方法ないのかな >>892
NTFSならData Streamsというメタ情報をファイルに追加できる >>892
スクリーンショットをGoogleカレンダーに貼り付けるとか。茶化しじゃなくてマジで。 フォルダ分け管理でいいのなら未読フォルダにシンボリックリンクかショートカットつっこんどいて
読み終わったら削除するでいいのでは
もしくはタグ管理できるビューアを使う
アプリ側の固有情報になるので汎用性はないが windowsだとADS managerつうアプリでalternate data streamsデータの管理検索出来るようよ 少し聞きたいんだが、ChainLPとeTilTranの傾き補正って違うものなのだろうか?
Chainの設定デフォルト+元スケール、傾き補正のみ、eTilの設定はデフォルトで、jpeg出力して、読取革命でocr処理してるんだが、前者は認識しにくい+ファイル大、後者は正確+ファイルサイズは適正になる
理由わかるか、似たような経験したことある人いたりする? 両方ともカスタマイズしてなんぼのソフトだからデフォルトの状態がどうだかわからんけど
Chainはフルオートで、えちるはおかしい箇所を修正しながら使うものなので
実装内容にはかなりの差があったはず 実家で本が屋外の倉庫に追いやられていたので、自炊環境整えてお盆に発掘に行った。
シロアリ大発生で、食いつくされて、本がほぼ大地に帰って泥と化してたorz
表紙は食べないんだな。表紙以外空っぽな本多数。
数百匹蠢いていて、夢に出そうな惨劇だった。
どうやっても手に入らない本を沢山失った。皆さまもお気を付けを。 本読まない人って本の扱いが雑だよね
昔実家に置いていた本全部捨てられて
別に有名な本でもないけど地味に今古書価格で2万円するような本もあった >>899
あるある。アニメージュの創刊号から60冊が洪水でゴミになった。 >>900-901
結構ショッキングだった。親はちょっと責任を感じていたようだけど。
まぁ、こうなるとは誰も分からんですわ。 >>903
それが不安。手遅れかもだけど、対策しないと。築40年だからなぁ。 >>880
フォルダは全て閉じて、フリーのファイラを使ったらどう? 溢れるぐらい本がある奴にお勧めするけど、
写真やカラーグラフみたいな色・濃淡が多様なページを一切含まない文字オンリーの白黒書籍は優先的に自炊した方がいいぞ
文字オンリーだと、ちょっとした設定でもベストと言えるぐらいのスキャンができるし、スキャン、編集、目視チェックがホント早いから作業効率が高い >>906
そうだね。まずは量をこなすこと。本が減ったと実感できると達成感がある。
ただ、そこで安心してるとその先に進まなくなって、いつの間にかまた本の山の中(自重自戒w 600ページオーバーの大型本をグレーでスキャンしたらサイズが2GB超えて、600dpiに圧縮しても700MB(PDFで)あるんだが、
ここまでデカいPDFが将来的に数十個も出来上がったとしたら、タブレットでは扱い悪くなるのかな
1ページ毎の画像ファイルのままタブレットで見れるようにした方がいいのかな
それともPDFポートフォリオとして纏めておくべきなのか…うーん。 ファイル肥大のペースも扱い悪いの基準もわからないと誰も答えられないだろ。
検討材料の情報を提示してもズバリの答えよこせとか言うんだろうし。 レス数が900を超えています。1000を超えると表示できなくなるよ。