X



トップページ電子書籍(仮)
1002コメント397KB
自炊技術総合26 @電子書籍板
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001名無しさん@お腹いっぱい。
垢版 |
2018/04/11(水) 16:12:17.97ID:4Q8BIzUO
書籍を自分でスキャンして電子化する、
通称「自炊」についてのスレッドです。

■前スレ
自炊技術総合23 @電子書籍板
http://rio2016.2ch.net/test/read.cgi/ebooks/1485175560/
自炊技術総合24 @電子書籍板
http://rio2016.5ch.net/test/read.cgi/ebooks/1501637878/
自炊技術総合25 @電子書籍板
http://rio2016.5ch.net/test/read.cgi/ebooks/1515530055/

■関連スレ
【コミック】自炊技術総合スレッド43冊目【書籍】
http://yomogi.2ch.net/test/read.cgi/download/1442423719/

■参考サイト
自炊技術Wiki
http://wikiwiki.jp/bookjisui/
0812名無しさん@お腹いっぱい。
垢版 |
2018/07/29(日) 17:55:31.65ID:LUMmEzQ0
これから出かけるので今日は詳しく返答できないが
ここの過去ログに詳細がある
もし過去ログ見れる&すぐ知りたいなら探してみて
0813名無しさん@お腹いっぱい。
垢版 |
2018/07/29(日) 20:23:34.48ID:vxGYoy46
CISのセンサーは読み取り自体300か600でしかしないってことじゃなかったっけ?
一方、縮小光学系CCDの機種だとレンズで調整できる。
出力解像度が1dpiごとでいじれる機種はCCDなことが多いね
0816名無しさん@お腹いっぱい。
垢版 |
2018/07/30(月) 12:27:18.27ID:oPF6hj6x
せっかくの2画面でコミック見開きに良いと思ったが、
画面同士の距離が離れすぎだな。

einkってベゼル部分が幅広なのが多いけど、なにかデバイス構造上の都合なのかな?
0817名無しさん@お腹いっぱい。
垢版 |
2018/07/30(月) 13:43:55.79ID:8AAbOcsA
>>810-811
Linux用OCRまとめ

Google Cloud Vision API編
http://rio2016.5ch.net/test/read.cgi/ebooks/1515530055/755,884,898,970
http://egg.5ch.net/test/read.cgi/software/1470745451/59

Tesseract OCR編
https://egg.5ch.net/test/read.cgi/software/1470745451/42,47


現状では縦書きPDF埋め込みはTesseractに分がある模様
OCR精度自体はGCVのほうが良いのが痛痒
http://egg.5ch.net/test/read.cgi/software/1470745451/55-57,59
0819名無しさん@お腹いっぱい。
垢版 |
2018/07/30(月) 23:45:51.90ID:4SnwuIqj
完全なカラー書籍じゃなくて、白黒+{赤or青or黄色}系の技術書、参考書ってカラーでスキャンするか、白黒でスキャンするか迷うよなw
0823名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 01:01:01.53ID:MvjqUrg5
2色刷りくらいまでならカラーで取ってから色ごとに別々に白飛ばし補正してからあとで重ね合わせてる
0824名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 01:20:46.97ID:eHSBJjbx
中古で本買った時に前に使ってた奴が蛍光ペン等で線引きしてた場合って
カラーでスキャン→画像編集ソフトで特定の色飛ばす
で、本文を害することなく書き込んだものだけ消すって出来るん?
0826名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 08:06:04.69ID:H9aPC3iV
以前「PDFはコンテナだ」みたいな発言あったけど、これってAcrobatで言う所のポートフォリオってやつのことね
機能試してみたけど、コンテナのように画像なりpdfなり束ねるだけの機能だった
0827名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 08:31:17.86ID:bW6sPoFJ
コンテナだって話が出る場合は、画像型式と誤解してる場合なこと多かったと思う。
例としてzipやらのわかりやすい形式が出ることも多かったが。

単純にまとめたファイルっていうよりも、
中にどんな形式で格納されてるかが重要っていう話だと思うよ。
0828名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 11:00:31.39ID:BcT4EiUT
>>817さん

810です、資料のご提示ありがとうございます。

GCVで認識させて結果のJSONを変換して
PDFに上乗せするイメージですかね。
縦書きの文書にはGCVじゃなくてtesseractを使うのかな。
python動けばよいだけなら、Linux以外でもできる気がしますね。
0829名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 13:34:53.95ID:8gfD+zRX
ポートフォリオとして外部から見えるかどうかとは関係なく
自炊PDFの場合、PDFは画像のコンテナにすぎない
例の人がPDF内の格納画像がTIFF/JPEGであることを理解せずに
"抽出"ではなく"変換"で画像を取り出しておいて加工したら劣化した!と騒ぎ
PDFのまま白黒とグレーを合成できれば劣化は起こらないはず
(だから誰かツール作れ)とか言ってたがもちろん間違い

1ページ内にTIFFとJPEGの画像を混在させられれば可能は可能だが
そういう特殊なレイアウトのPDFはキヤノン機でカラー自動の時に吐き出すPDF以外では見たことがない
後から編集できるソフトも聞いたことがない
0831名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 13:51:30.03ID:8gfD+zRX
>>828
汎用ツールの部分は大抵はexe版があるかdosコマンドで代用できるので
シェルスクリプト(sh)の部分をbatなりwshなりahkなりで書き換えてやればいけると思う
ただ実効速度的にはwinだとやっぱ遅いんだよね
導入にwsl入れちゃった後だとそのままそっちでやればいいか、みたいになっちゃう

winの既存ツールとの違いはPDFに格納する画像の形式をわりと自由にできること
JPGの代わりに減色済みの4bitPNGをそのまま入れられるのが嬉しい
0833名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 18:19:39.59ID:5ejmVel8
>>829
んじゃ、例えば1000kbの画像をPDFに“ポートフォリオじゃなく“入れてから、無劣化で元の画像に抽出する方法教えて
当然抽出後も1000kbで
0834名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 18:20:33.28ID:MvjqUrg5
抽出、変換ってのはAcrobat内のメニューの名称じゃないよ
格納されてる形式でそのまま取り出すか(抽出)
指定の方式で書き出すか(変換)
って意味

可逆to可逆ならフォーマットが違ってもdpiや色数変換などが行われない限りは劣化はないが
JPEGto可逆 や 可逆toJPEG の場合は問題になる

Acrobatのメニュー上では違いが分かりづらい
抽出したいときは画像梱包やpdfimagesなどのツールのほうが間違えにくいと思う
0835名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 18:29:35.70ID:MvjqUrg5
なんか誤解があるようだが
PDFのファイル形式の話をしているのであってソフトの使い方の話じゃないよ

"Acrobat上でどうやるか" は使ってる人が研究してくれ
自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる
0837名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 19:06:05.47ID:Tdwajdog
>>834
違いが分かりづらいってお前知らんのかい
ゴチャゴチャ下手くそな説明並べて結局それかよ

>>格納されてる形式でそのまま取り出すか(抽出)
>>指定の方式で書き出すか(変換)
当たり前。それ以外の言葉で捉えるワケが無い。お前は根本的に理解が間違ってる。そんな説明は聞いていない

俺が聞いてんのは
Acrobatで抽出できるか
(Acrobatに限らず)できるならその方法は何か?
だよ。
碌に他人様が言ってる説明理解できずに自分の中の程度の低い理解で下手くそなご託を並べろなんて誰も言ってないから
そこの所は誤解無きように


あと付け加えるとAcrobat相手に
>>自分はAcrobatのUIは分かりづらく面倒なので他のツールでやる
って言ってる時点でこいつの頭の程度がだいたい想像つく

それと
>>なんか誤解があるようだが
って言ってるけど、話の発端は>>826
0840名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 21:54:52.98ID:MvjqUrg5
『確認の方法を知らない』のはそちら側の問題なので自分には教えてあげなければいけない義理はないし
PDFがコンテナなのも周知の事実なのでこちらで証明方法を説明しなければならない理由もない

やり方は『 PDF 画像 非劣化 抽出 』でググれば方法は見つかるし>834でもソフト名を挙げている
(詳しく書いても良かったが煽って情報を得ようとするスタイルを認知するわけにはいかないので
この返でやめておく)

Acrobatが『分かりづらい』のはユーザーが内部の画像形式を正しく理解して
出力形式を合わせてやらないと『抽出』にならないから
とっくにアンインストしてるので正しい抽出の仕方検証に付き合うつもりもない


> って言ってる時点でこいつの頭の程度がだいたい想像つく
そこはお互い様だね
こっちも毎回君がAcrobatを神のツールのごとく言ってるのを見るたび程度が知れるなって思ってるよ
0842名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 22:22:05.68ID:BcT4EiUT
>>831さん

wslっていうのがあるんですね、知らなかったので勉強になりました。

しかしながら、キャノンのスキャナについていたOCRエンジンで結構満足してしまったので、
これ以上探求しないかもしれません、折角教えて頂いたのに申し訳ないですが。。

(でも、いつかpngからPDF作ることがあるかもしれないので
その時に備えて勉強しておくのもいいかも)

ここの皆さんのお陰で楽しい自炊ライフが始められました、感謝です!
0843名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 22:23:13.92ID:BcT4EiUT
減色すること考えたら最初から8bitでPNG取り込みとかできたら素敵なのに。。。
0844名無しさん@お腹いっぱい。
垢版 |
2018/07/31(火) 22:31:45.94ID:BcT4EiUT
先輩方のお陰で今日自炊デビュー出来たのですが、
自炊wiki 以外に読んでおいた方がよいものってありますでしょうか?
0845名無しさん@お腹いっぱい。
垢版 |
2018/08/01(水) 01:10:01.99ID:BmMH3YH1
CANONのOCRエンジンはスキャナメーカーの中ではかなり優秀なほうだと思う
縦書きもまともに認識してくれる
0847名無しさん@お腹いっぱい。
垢版 |
2018/08/01(水) 21:27:08.46ID:/itKlqTD
>>844
多分そんなことより
ストレスと妥協に対してどこまでできるかだわ

色線はカラーであれば6割の確立ででるが
容認できるかどうかなど
0848名無しさん@お腹いっぱい。
垢版 |
2018/08/02(木) 05:52:48.03ID:CHgwyOSo
C240選んだ人でしょ?
それほどこだわりを持ってスキャンするような本じゃないだろうし
普通に作業量との戦いじゃないかね。
1年で500は結構きついと思う。
0851名無しさん@お腹いっぱい。
垢版 |
2018/08/04(土) 11:34:12.22ID:6U5IiDIn
自炊した本に限定した問題なのでここにグチります。

後の手間を考えて裁断するときに結構多めに切り取ってしまうのだけど、
そうするとPDFビューワで見開き表示したときに左右の画像が継がらない。
縁消しで読んたものは、まぁ違和感ないから、左右ページにすきまが充分
あれば、脳内補完されると思う。

Mac用で左右のページの間を広めに表示するビューワを探したんだけど、
他の使い勝手が悪くなるんで、これはというのがない。
表紙だけ1ページの右綴じ表示が出来て、左右の隙間が広いビューワない
ですかねぇ。Windowsにはある?
0853名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 12:11:05.56ID:Wi1tREmf
自炊歴10年でこれまでずっと「ノド」の断裁は10mmを目途にやってきたんだが
昔のマンガも同じ要領でやったらバッサリコンテンツの一部が欠損してしまった
https://i.imgur.com/sNdTf5W.jpg

新書版(てんとう虫コミックスみたいな)がダメみたいだな
B6版ではこんなこと無かった
0854名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 12:37:56.49ID:zkfZmViG
>>853
は???10ミリ?
切りすぎだろw

これ見てみろよ
https://i.imgur.com/4o8G1VV.jpg
https://i.imgur.com/LQ4SOzt.jpg
大型技術書だけど厚いところでも3ミリ無いぞw

本文まで裁断してしまうのが嫌だからこその浅斬りだぞ
左右の余白幅がアンバランスになるのが嫌だってのもあるが。

浅く切ると切った後もまだノリが1割ぐらいのページ残ってしまうが、そこはカッターで切り分けてるわ
0855名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 14:46:24.97ID:nRgMIL/I
親書で10mmは無謀よ
本のサイズでノドの深さも変わるし
文字本はノド/タチキリ共に切れて困るような内容は普通配置されてないので
デザイン重視でなければ深めにカットでも問題ないけど
0856名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 19:38:39.87ID:tpnFKYfM
いろいろ妥協して治具作って定量カットしてるけど
直近のゴミを測ってみたら基準値2.5mm、
紙質や厚さで歪んでもせいぜい4mmだった
0857名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 23:20:31.93ID:Wi1tREmf
それだと糊残りまくりでスキャン時に地獄を見るんだよな〜
ジャミング連発地獄
0859名無しさん@お腹いっぱい。
垢版 |
2018/08/05(日) 23:55:48.74ID:Wi1tREmf
S1500
0861名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 00:00:41.55ID:h7HMzTS6
じゃ別にジャミングするスキャナってこともなくない
裁断した後剥がすのをさぼってるだけとか
0862名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 06:03:20.01ID:FV6Z0q1+
>>857
薄めの裁断だと確かに糊が残ってしまって、そのままスキャンに掛けたら重送が連発するのは確か
だからスキャンの前に残った糊でまだひっついた状態のページ同士をカッターで切る
切る時はこの動画
https://www.youtube.com/watch?v=BJ2yTI1f-IU
みたいな感じで切ると素人でも簡単にひっついたページ同士を切り離せる
ただし、糊そのものはページにへばりついた状態なので切り離した後も残ってるがスキャンには残らない

俺からしたら
裁断動画のサンプル
https://www.youtube.com/watch?v=dDoNqyZ-cDM
の4:18で「ばっさり切れた」と言ってるけど、切りすぎだと感じる
(確かにここまで深く切ったら糊が残らないぐらいにまで十分切ったとは言えるが。)
0863名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 06:46:13.68ID:3N8TCGTk
喉側の欠落を気にするのなら裁断は糊の塊除去くらいの気持ちで行かないとだろう。
解体のメインはその後のページ剥がし作業になる。
でも16ページを折って束ねたタイプの製本だとちょっと大変。

でも裁断でギリギリ狙うくらいなら薬品を検討してみても良いと思うよ。
0864名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 07:53:19.67ID:4oiKsHCt
“背”の部分のcoverを捲って剥き出しにしたら分かるが、500ページ超ぐらいの大著は40〜60ページぐらいを折って
そういう風に冊子状にした物を全体的に纏めて糊で圧着してる。



ホッチキスで留めたタイプの薄い冊子系は裁断が逆に面倒だよな
1部の分厚さ自体が1センチも無いから裁断機で裁断しようにも押さえることが出来なくて、
仕方なしにホッチキスの芯を手で外してから手作業でチマチマカッターで切らなくちゃいけなくなる
0866名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 08:25:41.83ID:4sSFtDDu
カールのDC-2100-Kって裁断機買ったけど切断面が曲がるな
昔使ってた旧型のDC-210Nはこんなことなかったのに
0867名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 08:32:19.95ID:bcsGA01o
中とじ本は折り目が正確にページ分轄線どおりとは限らんし
A5以下ならホチキスだけ外して裁断せず2ページ繋がったままスキャンして
補正前に位置見ながらページ分割するほうが失敗がない
ページ順バラバラになるから連番合わせが面倒だがな
0868名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 13:38:10.70ID:3AwKrrm0
専門書を自炊してタブレットで読む
これだけの用途だとタブレットは何を選べばいいですか?

今はKINDLEタブを使っているがosがダサいのが気に入らない

候補としてHuaweiの泥タブを考えているけど、そもそも皆は自炊後どうやって読んでる?
0869名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 13:45:27.32ID:ahVurz+O
>>868
 新書・小説サイズはFire6
 単行本・教科書サイズ・大型本はFire10
で拡大無しで普通に見れる。画面も綺麗し
0871名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 14:04:16.92ID:84yF2pfR
FHDの普通のPC液晶モニタを90度回してたけどあまり快適じゃないので中華の10インチタブレット買った
0874名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 18:56:30.75ID:4sSFtDDu
>>868
普通はiPad
E-inkが良いならKobo aura one+koreaderかBOOX Note辺り
0875名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 19:56:53.31ID:ISmEPV0Y
>>870
ファーウェイ泥タブでSidebooks
0877名無しさん@お腹いっぱい。
垢版 |
2018/08/06(月) 23:05:05.92ID:ISmEPV0Y
>>876
Mediapad M3 Lite
0880名無しさん@お腹いっぱい。
垢版 |
2018/08/07(火) 06:56:24.57ID:SSMfXP+c
タスクマネージャーでのエクスプローラーのメモリ占有量の変化見てて思うんだが、
1ギガ超えるぐらいの巨大PDFファイルを格納してるフォルダを表示してるだけでOSが勝手にガリガリ言いだし始めて
メモリ占有量が1GB→3GBって普通に増えていってるんだが何これ?
5分ぐらい放置してると占有量下がって元に戻るんだが、こんな状態だとカラーでスキャンする度に迷惑被るから何とかしたいんだが?
0881名無しさん@お腹いっぱい。
垢版 |
2018/08/07(火) 07:10:01.88ID:pakD0J8O
>>879
iPad mini使ってるけど余白カットすれば何とか
0884名無しさん@お腹いっぱい。
垢版 |
2018/08/07(火) 12:12:25.53ID:vslelE+u
Windows Search か Thumbs.db か SuperFetch か知らんけど
いずれにしろ1G超のPDFじゃ更新に時間かかってもしかたあるまい
0886名無しさん@お腹いっぱい。
垢版 |
2018/08/07(火) 20:53:49.38ID:f/70XSuv
SSDに換装すれば経血
0890名無しさん@お腹いっぱい。
垢版 |
2018/08/11(土) 13:27:14.09ID:DFmbnew7
>>882
うちは処理が遅くなる原因は
・HDDの空き容量が10%以下の場合
・デスクトップにファイルが大量にあるとき

ソフトの起動やエクスプローラーを開くのがすこぶる遅く
Cドライブ以外のHDDも開くのがなぜか遅くなる
0892名無しさん@お腹いっぱい。
垢版 |
2018/08/15(水) 20:15:13.44ID:HY0caYOg
ファイルにタグって付けれないのかね?
自炊本を既読と未読で別フォルダに分けてるんだが、既読か未読かってのは俺の個人的な都合であって本の性質とは無関係だから、
本来は自炊ファイルの分類に影響を与えるべきじゃないんだが、未読ってのを一目で分からないと読む時に都合が悪い
ファイル名の末尾に「〜(未読)」なんて一々記入するのも作業的に非効率
何かいい方法ないのかな
0895名無しさん@お腹いっぱい。
垢版 |
2018/08/16(木) 00:44:01.59ID:yOCDLBnK
フォルダ分け管理でいいのなら未読フォルダにシンボリックリンクかショートカットつっこんどいて
読み終わったら削除するでいいのでは

もしくはタグ管理できるビューアを使う
アプリ側の固有情報になるので汎用性はないが
0897名無しさん@お腹いっぱい。
垢版 |
2018/08/16(木) 15:57:49.77ID:+tcnE99S
少し聞きたいんだが、ChainLPとeTilTranの傾き補正って違うものなのだろうか?

Chainの設定デフォルト+元スケール、傾き補正のみ、eTilの設定はデフォルトで、jpeg出力して、読取革命でocr処理してるんだが、前者は認識しにくい+ファイル大、後者は正確+ファイルサイズは適正になる

理由わかるか、似たような経験したことある人いたりする?
0898名無しさん@お腹いっぱい。
垢版 |
2018/08/16(木) 18:14:41.22ID:yOCDLBnK
両方ともカスタマイズしてなんぼのソフトだからデフォルトの状態がどうだかわからんけど
Chainはフルオートで、えちるはおかしい箇所を修正しながら使うものなので
実装内容にはかなりの差があったはず
0899名無しさん@お腹いっぱい。
垢版 |
2018/08/18(土) 21:06:00.62ID:H6Ea9kiU
実家で本が屋外の倉庫に追いやられていたので、自炊環境整えてお盆に発掘に行った。

シロアリ大発生で、食いつくされて、本がほぼ大地に帰って泥と化してたorz
表紙は食べないんだな。表紙以外空っぽな本多数。

数百匹蠢いていて、夢に出そうな惨劇だった。

どうやっても手に入らない本を沢山失った。皆さまもお気を付けを。
0900名無しさん@お腹いっぱい。
垢版 |
2018/08/18(土) 21:08:45.90ID:tZJSx8Dk
本読まない人って本の扱いが雑だよね
昔実家に置いていた本全部捨てられて
別に有名な本でもないけど地味に今古書価格で2万円するような本もあった
0903名無しさん@お腹いっぱい。
垢版 |
2018/08/19(日) 06:42:16.19ID:asJXOtg1
>>902
それ本より家は大丈夫か?
0906名無しさん@お腹いっぱい。
垢版 |
2018/08/20(月) 10:52:55.24ID:vnVGvRbU
溢れるぐらい本がある奴にお勧めするけど、
写真やカラーグラフみたいな色・濃淡が多様なページを一切含まない文字オンリーの白黒書籍は優先的に自炊した方がいいぞ
文字オンリーだと、ちょっとした設定でもベストと言えるぐらいのスキャンができるし、スキャン、編集、目視チェックがホント早いから作業効率が高い
0907名無しさん@お腹いっぱい。
垢版 |
2018/08/20(月) 13:58:56.62ID:rZefnWYL
>>906
そうだね。まずは量をこなすこと。本が減ったと実感できると達成感がある。
ただ、そこで安心してるとその先に進まなくなって、いつの間にかまた本の山の中(自重自戒w
0908名無しさん@お腹いっぱい。
垢版 |
2018/08/24(金) 00:47:03.22ID:3UKsx2iV
600ページオーバーの大型本をグレーでスキャンしたらサイズが2GB超えて、600dpiに圧縮しても700MB(PDFで)あるんだが、
ここまでデカいPDFが将来的に数十個も出来上がったとしたら、タブレットでは扱い悪くなるのかな
1ページ毎の画像ファイルのままタブレットで見れるようにした方がいいのかな

それともPDFポートフォリオとして纏めておくべきなのか…うーん。
0909名無しさん@お腹いっぱい。
垢版 |
2018/08/24(金) 06:48:26.54ID:tbHwRMzI
ファイル肥大のペースも扱い悪いの基準もわからないと誰も答えられないだろ。
検討材料の情報を提示してもズバリの答えよこせとか言うんだろうし。
レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況