自炊技術総合26 @電子書籍板
■ このスレッドは過去ログ倉庫に格納されています
>>797
安中華で紙押さえ機構を2度も壊すほど締め上げてた自分だが、
改良中華で押さえが弱いと感じたことは無いな。
どっちもゴム利用ね。
改良中華で押さえが弱いってのはどこで記事になってた? 799さん、レスありがとうございます。
押さえが弱いというのは、記事だったかこちらの過去ログだったか失念しましたが
書いてあったのをたまたま読みました。
自分としては、ガッツリ押さえて真っすぐ切りたいと思っていたので
なるほどなーと思って記憶の隅にのこしていました。
でも実際は改良中華と変わらないのなら、レバー一発のほうが楽ですよね。
裁断機は改良中華にしとこかな!
あとはスキャナー選び。。。 改良中華は重い上に手指を掛ける場所が無くて持ち上げにくい
なので使わないときは片付けたりするのなら取っ手をつけるなどの工夫をしたほうがいい。
バランスが悪くて持ちにくい24kgは結構くるよ。
スキャナはどれだけ予算があるか次第だけど、初めてだとどこに拘っていいかが
わからないんだよね。
予算と原稿のサイズや印刷や紙質なんかを書くと使ってる人の助言がもらえるかもだけど。
レンタルでいいからとりあえずシートスルースキャナを一度使ってみると良いんじゃないかな。
機材をそろえてでも自炊作業を継続できるのかどうかもわかるしね。
実際の自炊作業は外から聞いて想像する以上にめんどくさいと思うよ。
環境そろえたは良いけど面倒で続かないなんて事もありえるからね。 白黒や3色刷りのB5くらいの技術書(ITとか数学)、ビジネスの新書
カラーは少しだけどデザイン関連の書籍を取り込もうと思っています。
読用にPDF、保存用にPNGとしておけば後からPDF再作成できますよね?
そこで、一度のスキャンでPDFデータ(OCR付与済み)と
PNGを出力したいと思った場合次の機種であっていますか?
・Canon DR-C240(マルチストリーム出力)
・EPSON DS-530(ダブルイメージ出力)
どちらでもできるなら、耐用枚数が多くて
値段も安いDS530を購入しようかと思っています。
速度もさほど変わらないのかなと思っています。
そもそもPNGで保存じゃなくてPDFで保存したほうがいいような気もしていて、、
そのあたりのアドバイスも頂けると嬉しいです。 ↑500冊くらいあるので、1年くらいかけて処理出来たらなと思っています。
読むのには300DPIのPDFで、万が一のための保存用には400DPIのPNGという感じで出来たら嬉しいなと思います。
流石に二回スキャンしないとダメというのなら、手間を考えてPNGは諦めます。 実用系か。
図表を検知して2値化の設定を調整してくれたりするDS530のほうを使ってみたい気はするな。
期待通り検知してくれればだけど。 >>802
>読むのには300DPIのPDFで、万が一のための保存用には400DPIのPNGという感じで
C240ではないがCapturePerfectでマルチストリーム出力を試してみた
設定は可能だしファイルも両方作られる
PDF内の画像はJPEGで格納されるため可逆形式(PNG)で持っておくのはいい
ただ400dpiに意味があるかと言われると正直微妙かな
理由は以下
DR(というかおそらくほとんどのメーカーのADFの場合)、光学的に300dpiの次は600dpiなので
400dpiは300で撮ったものをソフトで拡大するか、600で撮ったものを縮小するかになる
また、DRの600dpiにはモードが二つあって
・速度優先 : 300で撮ったものをソフトで拡大
・画質優先 : 600で撮る
マルチストリームを指定した場合は[画質優先]は選べなかった。
つまり400はもちろん600でも実質的には300dpiでのスキャンになる
オリジナル画像を確保したいということなら400に拡大してしまうのはあまり意味がないのかなと
単にdpiを上げたいという話でも後から必要時にツリーツールなどでやればいいので
ファイルサイズの大きい400で保存して持っておくメリットはないように思う 805さん
教えて下さってありがとうございます。
(知識の深さに敬服です)
400dpiはペパレスというスキャン代行?の会社のお勧め設定だったので
https://pepaless.com/column/171103_01/
なるほど、じゃあ自分もこれで行くかと思った次第です。
でも300を400に引き伸ばしてるだけだと、いいこと何もないですね。。
それに300あればOCRで困ることも無いような記事もみかけるし。
600を400に落としてるならいいのだろうけど、、、それもできないというのなら
300での保存を基準に考えるのがベターということですかね。
DR-C240は自分的には買っても大丈夫な機種と思えました。
DS-530のダブルイメージ出力で同じことができるのなら、こっちにしたいけど、、
他に情報お持ちの方、良かったらご提供願えませんかm(_ _"m) でも考えてみたら、PNGスキャンデータだけ作っといて、
あとでPDF仮想プリンタみたいなものに出力してもいいんですね。
それだとOCRかけられないのか。。。
マルチストリーム出力だとOCR済みのPDFを吐けますかね? ごめん嘘言ったかも
自分が使ってる機種(DR-6010C)だと400dpiは 速度(300)/画質(600)選択式なんだけど
いまマニュアル確認したらDR-C240には画像品質のモードがないっぽい
特に注意書きもないので光学的に400dpiでスキャンできるのかも知れない
>マルチストリーム出力だとOCR済みのPDFを吐けますかね?
吐ける
エプはフラベしか持ってないのでDSのことは分からないが
おそらくwinだとドライバでスキャン時にOCR付PDFにするのが一番楽だと思う
PNG等の画像にあとからOCRかけるのはAcrobatなどの別ソフトがないとできない場合もあるので
(linuxならフリーで質の高いOCR付きPDFを作ることも可能だがちょっと敷居が高い) 808さん、ありがとうございます
いろいろご説明頂いたので、思い切ってDR-C240にしました!
さて、自炊ライフの始まりだー! ちなみに
「linuxならフリーで質の高いOCR付きPDFを作ることも可能」
こちら、何かガイドありませんか?興味あるので調べてみたいのですが。。 これから出かけるので今日は詳しく返答できないが
ここの過去ログに詳細がある
もし過去ログ見れる&すぐ知りたいなら探してみて CISのセンサーは読み取り自体300か600でしかしないってことじゃなかったっけ?
一方、縮小光学系CCDの機種だとレンズで調整できる。
出力解像度が1dpiごとでいじれる機種はCCDなことが多いね >>810
過去スレで話出てたからそれ見てわからないなら無理だと思うよ せっかくの2画面でコミック見開きに良いと思ったが、
画面同士の距離が離れすぎだな。
einkってベゼル部分が幅広なのが多いけど、なにかデバイス構造上の都合なのかな? 完全なカラー書籍じゃなくて、白黒+{赤or青or黄色}系の技術書、参考書ってカラーでスキャンするか、白黒でスキャンするか迷うよなw 枠線だけが赤とか青とかのあるもんな
仕方なく〜―にしてる 2色刷りくらいまでならカラーで取ってから色ごとに別々に白飛ばし補正してからあとで重ね合わせてる 中古で本買った時に前に使ってた奴が蛍光ペン等で線引きしてた場合って
カラーでスキャン→画像編集ソフトで特定の色飛ばす
で、本文を害することなく書き込んだものだけ消すって出来るん? 以前「PDFはコンテナだ」みたいな発言あったけど、これってAcrobatで言う所のポートフォリオってやつのことね
機能試してみたけど、コンテナのように画像なりpdfなり束ねるだけの機能だった コンテナだって話が出る場合は、画像型式と誤解してる場合なこと多かったと思う。
例としてzipやらのわかりやすい形式が出ることも多かったが。
単純にまとめたファイルっていうよりも、
中にどんな形式で格納されてるかが重要っていう話だと思うよ。 >>817さん
810です、資料のご提示ありがとうございます。
GCVで認識させて結果のJSONを変換して
PDFに上乗せするイメージですかね。
縦書きの文書にはGCVじゃなくてtesseractを使うのかな。
python動けばよいだけなら、Linux以外でもできる気がしますね。 ポートフォリオとして外部から見えるかどうかとは関係なく
自炊PDFの場合、PDFは画像のコンテナにすぎない
例の人がPDF内の格納画像がTIFF/JPEGであることを理解せずに
"抽出"ではなく"変換"で画像を取り出しておいて加工したら劣化した!と騒ぎ
PDFのまま白黒とグレーを合成できれば劣化は起こらないはず
(だから誰かツール作れ)とか言ってたがもちろん間違い
1ページ内にTIFFとJPEGの画像を混在させられれば可能は可能だが
そういう特殊なレイアウトのPDFはキヤノン機でカラー自動の時に吐き出すPDF以外では見たことがない
後から編集できるソフトも聞いたことがない >>828
汎用ツールの部分は大抵はexe版があるかdosコマンドで代用できるので
シェルスクリプト(sh)の部分をbatなりwshなりahkなりで書き換えてやればいけると思う
ただ実効速度的にはwinだとやっぱ遅いんだよね
導入にwsl入れちゃった後だとそのままそっちでやればいいか、みたいになっちゃう
winの既存ツールとの違いはPDFに格納する画像の形式をわりと自由にできること
JPGの代わりに減色済みの4bitPNGをそのまま入れられるのが嬉しい >>829
それAcrobatのバージョンいくつの話? >>829
んじゃ、例えば1000kbの画像をPDFに“ポートフォリオじゃなく“入れてから、無劣化で元の画像に抽出する方法教えて
当然抽出後も1000kbで 抽出、変換ってのはAcrobat内のメニューの名称じゃないよ
格納されてる形式でそのまま取り出すか(抽出)
指定の方式で書き出すか(変換)
って意味
可逆to可逆ならフォーマットが違ってもdpiや色数変換などが行われない限りは劣化はないが
JPEGto可逆 や 可逆toJPEG の場合は問題になる
Acrobatのメニュー上では違いが分かりづらい
抽出したいときは画像梱包やpdfimagesなどのツールのほうが間違えにくいと思う なんか誤解があるようだが
PDFのファイル形式の話をしているのであってソフトの使い方の話じゃないよ
"Acrobat上でどうやるか" は使ってる人が研究してくれ
自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる スキャンから全部linuxで出来るならバッチ化出来て個人的には捗る >>834
違いが分かりづらいってお前知らんのかい
ゴチャゴチャ下手くそな説明並べて結局それかよ
>>格納されてる形式でそのまま取り出すか(抽出)
>>指定の方式で書き出すか(変換)
当たり前。それ以外の言葉で捉えるワケが無い。お前は根本的に理解が間違ってる。そんな説明は聞いていない
俺が聞いてんのは
Acrobatで抽出できるか
(Acrobatに限らず)できるならその方法は何か?
だよ。
碌に他人様が言ってる説明理解できずに自分の中の程度の低い理解で下手くそなご託を並べろなんて誰も言ってないから
そこの所は誤解無きように
あと付け加えるとAcrobat相手に
>>自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる
って言ってる時点でこいつの頭の程度がだいたい想像つく
それと
>>なんか誤解があるようだが
って言ってるけど、話の発端は>>826 FUJITSU
ScanSnap iX500 FI-IX500A
価格38,600円(うち消費税2,860円)
https://nttxstore.jp/_II_FJ14917770
安い? 『確認の方法を知らない』のはそちら側の問題なので自分には教えてあげなければいけない義理はないし
PDFがコンテナなのも周知の事実なのでこちらで証明方法を説明しなければならない理由もない
やり方は『 PDF 画像 非劣化 抽出 』でググれば方法は見つかるし>834でもソフト名を挙げている
(詳しく書いても良かったが煽って情報を得ようとするスタイルを認知するわけにはいかないので
この返でやめておく)
Acrobatが『分かりづらい』のはユーザーが内部の画像形式を正しく理解して
出力形式を合わせてやらないと『抽出』にならないから
とっくにアンインストしてるので正しい抽出の仕方検証に付き合うつもりもない
> って言ってる時点でこいつの頭の程度がだいたい想像つく
そこはお互い様だね
こっちも毎回君がAcrobatを神のツールのごとく言ってるのを見るたび程度が知れるなって思ってるよ >>831さん
wslっていうのがあるんですね、知らなかったので勉強になりました。
しかしながら、キャノンのスキャナについていたOCRエンジンで結構満足してしまったので、
これ以上探求しないかもしれません、折角教えて頂いたのに申し訳ないですが。。
(でも、いつかpngからPDF作ることがあるかもしれないので
その時に備えて勉強しておくのもいいかも)
ここの皆さんのお陰で楽しい自炊ライフが始められました、感謝です! 減色すること考えたら最初から8bitでPNG取り込みとかできたら素敵なのに。。。 先輩方のお陰で今日自炊デビュー出来たのですが、
自炊wiki 以外に読んでおいた方がよいものってありますでしょうか? CANONのOCRエンジンはスキャナメーカーの中ではかなり優秀なほうだと思う
縦書きもまともに認識してくれる >>844
多分そんなことより
ストレスと妥協に対してどこまでできるかだわ
色線はカラーであれば6割の確立ででるが
容認できるかどうかなど C240選んだ人でしょ?
それほどこだわりを持ってスキャンするような本じゃないだろうし
普通に作業量との戦いじゃないかね。
1年で500は結構きついと思う。 学術系は良書が沢山絶版になってるからアップしてほしいのあるよな 自炊した本に限定した問題なのでここにグチります。
後の手間を考えて裁断するときに結構多めに切り取ってしまうのだけど、
そうするとPDFビューワで見開き表示したときに左右の画像が継がらない。
縁消しで読んたものは、まぁ違和感ないから、左右ページにすきまが充分
あれば、脳内補完されると思う。
Mac用で左右のページの間を広めに表示するビューワを探したんだけど、
他の使い勝手が悪くなるんで、これはというのがない。
表紙だけ1ページの右綴じ表示が出来て、左右の隙間が広いビューワない
ですかねぇ。Windowsにはある? Andoroidのcomittonだと中央余白のオプションあるね。 自炊歴10年でこれまでずっと「ノド」の断裁は10mmを目途にやってきたんだが
昔のマンガも同じ要領でやったらバッサリコンテンツの一部が欠損してしまった
https://i.imgur.com/sNdTf5W.jpg
新書版(てんとう虫コミックスみたいな)がダメみたいだな
B6版ではこんなこと無かった >>853
は???10ミリ?
切りすぎだろw
これ見てみろよ
https://i.imgur.com/4o8G1VV.jpg
https://i.imgur.com/LQ4SOzt.jpg
大型技術書だけど厚いところでも3ミリ無いぞw
本文まで裁断してしまうのが嫌だからこその浅斬りだぞ
左右の余白幅がアンバランスになるのが嫌だってのもあるが。
浅く切ると切った後もまだノリが1割ぐらいのページ残ってしまうが、そこはカッターで切り分けてるわ 親書で10mmは無謀よ
本のサイズでノドの深さも変わるし
文字本はノド/タチキリ共に切れて困るような内容は普通配置されてないので
デザイン重視でなければ深めにカットでも問題ないけど いろいろ妥協して治具作って定量カットしてるけど
直近のゴミを測ってみたら基準値2.5mm、
紙質や厚さで歪んでもせいぜい4mmだった それだと糊残りまくりでスキャン時に地獄を見るんだよな〜
ジャミング連発地獄 >>857
856だけどテレビ見ながらとかペリペリ剥がしてるよ じゃ別にジャミングするスキャナってこともなくない
裁断した後剥がすのをさぼってるだけとか >>857
薄めの裁断だと確かに糊が残ってしまって、そのままスキャンに掛けたら重送が連発するのは確か
だからスキャンの前に残った糊でまだひっついた状態のページ同士をカッターで切る
切る時はこの動画
https://www.youtube.com/watch?v=BJ2yTI1f-IU
みたいな感じで切ると素人でも簡単にひっついたページ同士を切り離せる
ただし、糊そのものはページにへばりついた状態なので切り離した後も残ってるがスキャンには残らない
俺からしたら
裁断動画のサンプル
https://www.youtube.com/watch?v=dDoNqyZ-cDM
の4:18で「ばっさり切れた」と言ってるけど、切りすぎだと感じる
(確かにここまで深く切ったら糊が残らないぐらいにまで十分切ったとは言えるが。) 喉側の欠落を気にするのなら裁断は糊の塊除去くらいの気持ちで行かないとだろう。
解体のメインはその後のページ剥がし作業になる。
でも16ページを折って束ねたタイプの製本だとちょっと大変。
でも裁断でギリギリ狙うくらいなら薬品を検討してみても良いと思うよ。 “背”の部分のcoverを捲って剥き出しにしたら分かるが、500ページ超ぐらいの大著は40〜60ページぐらいを折って
そういう風に冊子状にした物を全体的に纏めて糊で圧着してる。
ホッチキスで留めたタイプの薄い冊子系は裁断が逆に面倒だよな
1部の分厚さ自体が1センチも無いから裁断機で裁断しようにも押さえることが出来なくて、
仕方なしにホッチキスの芯を手で外してから手作業でチマチマカッターで切らなくちゃいけなくなる ホッチキス外す
バサバサっ
クリップで仮止め
断裁機どーん カールのDC-2100-Kって裁断機買ったけど切断面が曲がるな
昔使ってた旧型のDC-210Nはこんなことなかったのに 中とじ本は折り目が正確にページ分轄線どおりとは限らんし
A5以下ならホチキスだけ外して裁断せず2ページ繋がったままスキャンして
補正前に位置見ながらページ分割するほうが失敗がない
ページ順バラバラになるから連番合わせが面倒だがな 専門書を自炊してタブレットで読む
これだけの用途だとタブレットは何を選べばいいですか?
今はKINDLEタブを使っているがosがダサいのが気に入らない
候補としてHuaweiの泥タブを考えているけど、そもそも皆は自炊後どうやって読んでる? >>868
新書・小説サイズはFire6
単行本・教科書サイズ・大型本はFire10
で拡大無しで普通に見れる。画面も綺麗し FHDの普通のPC液晶モニタを90度回してたけどあまり快適じゃないので中華の10インチタブレット買った ワイはoreillyとかのIT系技術書。Sidebooksをつこてる Fire10はこないだのタイムセールで1万くらいで売ってたらしい >>868
普通はiPad
E-inkが良いならKobo aura one+koreaderかBOOX Note辺り >>870
ファーウェイ泥タブでSidebooks >>875
ちなみにHuaweiの何を使ってますか? 8インチタブはコンパクトで良いけど雑誌サイズを読むとき辛いんや タスクマネージャーでのエクスプローラーのメモリ占有量の変化見てて思うんだが、
1ギガ超えるぐらいの巨大PDFファイルを格納してるフォルダを表示してるだけでOSが勝手にガリガリ言いだし始めて
メモリ占有量が1GB→3GBって普通に増えていってるんだが何これ?
5分ぐらい放置してると占有量下がって元に戻るんだが、こんな状態だとカラーでスキャンする度に迷惑被るから何とかしたいんだが? >>879
iPad mini使ってるけど余白カットすれば何とか サムネイル作ろうとしてメモリが足りなくて諦めるを繰り返してるとか? Windows Search か Thumbs.db か SuperFetch か知らんけど
いずれにしろ1G超のPDFじゃ更新に時間かかってもしかたあるまい 一旦作らせれば直るんじゃない?
だめならそのファイルを対象外にするとか、メモリ増設か >>886
ナプキンかタンポンをお持ちしましょうか? >>882
うちは処理が遅くなる原因は
・HDDの空き容量が10%以下の場合
・デスクトップにファイルが大量にあるとき
ソフトの起動やエクスプローラーを開くのがすこぶる遅く
Cドライブ以外のHDDも開くのがなぜか遅くなる ファイルにタグって付けれないのかね?
自炊本を既読と未読で別フォルダに分けてるんだが、既読か未読かってのは俺の個人的な都合であって本の性質とは無関係だから、
本来は自炊ファイルの分類に影響を与えるべきじゃないんだが、未読ってのを一目で分からないと読む時に都合が悪い
ファイル名の末尾に「〜(未読)」なんて一々記入するのも作業的に非効率
何かいい方法ないのかな >>892
NTFSならData Streamsというメタ情報をファイルに追加できる >>892
スクリーンショットをGoogleカレンダーに貼り付けるとか。茶化しじゃなくてマジで。 フォルダ分け管理でいいのなら未読フォルダにシンボリックリンクかショートカットつっこんどいて
読み終わったら削除するでいいのでは
もしくはタグ管理できるビューアを使う
アプリ側の固有情報になるので汎用性はないが windowsだとADS managerつうアプリでalternate data streamsデータの管理検索出来るようよ 少し聞きたいんだが、ChainLPとeTilTranの傾き補正って違うものなのだろうか?
Chainの設定デフォルト+元スケール、傾き補正のみ、eTilの設定はデフォルトで、jpeg出力して、読取革命でocr処理してるんだが、前者は認識しにくい+ファイル大、後者は正確+ファイルサイズは適正になる
理由わかるか、似たような経験したことある人いたりする? 両方ともカスタマイズしてなんぼのソフトだからデフォルトの状態がどうだかわからんけど
Chainはフルオートで、えちるはおかしい箇所を修正しながら使うものなので
実装内容にはかなりの差があったはず ■ このスレッドは過去ログ倉庫に格納されています