やっと「暇」と「モノ」と「やる気」が揃ったので、本の自炊始めました。マンガのお試し版をロータリーカッターで裁断して、ScanSnap iX500でスキャニングしました。ざっくり全体の具合を言うと、思いのほか面倒がない感じです。これだったら実用的に自炊ができますね。というか、これ以下だったら却下するところかもしれません。根が面倒くさがり屋なもので。
FUJITSU ScanSnap iX500 FI-IX500
- 出版社/メーカー: 富士通
- メディア: Personal Computers
FUJITSU ScanSnap iX500 Deluxe FI-IX500-D
- 出版社/メーカー: 富士通
- メディア: Personal Computers
富士通 A4スキャナ[600dpi・USB2.0] ScanSnap iX500(Windowsモデル) FI-IX500-C
- 出版社/メーカー: 富士通
- メディア: エレクトロニクス
Wi-Fiの設定でMACアドレスでフィルタリングしている人は、ScanSnapのMACアドレスを調べないといけないんだけど、 http://www.ksworks.org/2012/12/scansnap-ix500-wifi-setup.html 普通にアプリケーションのフォルダにあるといういたって普通の状態。ググらなくても良かった。普通に確認できるんじゃん。そのアドレスをアクセスポイントに設定してあげるだけで動いた。MACアドレスのフィルタリングやめようかな。何かめんどくさくなってきちゃったよ。WPSもフィルタリングをやめないと使えないし、セキュリティが高くなるのはいいんだけど、やっぱり面倒。
一回、何も見ないで、以前ざっくり切ってサンプルを作ったものをスキャンしてみた。正直、切り口はバッサバサのもあって、カラーのつるつるしたページや、普通のさらっとした紙が混ざっている。そういうあまり上手くない裁断処理をしたものを一気に入れてやってみた。初回から、いきなり詰まる。ヲイヲイと思って、何だろうと見てみたら、きっちり裁断されていなくて二枚でくっついている紙があったのでした。そりゃ止まるよね。でも、これで二枚くっついたとしても、きちんと検出できることははっきりした。 Amazonのレビューかkakaku.comか何かで、複数枚送ってしまったのを検出しないとか言われてたものもあったけど、恐らく稀な例なんじゃないかな。だって、カラーのビニールコートしたような紙と、普通の紙が接着剤できれいにつながっていても検出は大丈夫だったから、そういういっぺんに数枚送り出すような状況では機能が働いているのは間違いないと思う。その紙を分離したらすんなり最後までスキャンしてくれた。評判のほどは大方間違ってはいないようだ。それまで、機械の拙さに苦しめられてきた人も多いと思うので、そういう人の評価もあるみたいだしね。 始めはデフォルトでやってみたんだけど、上下補正機能が出たり出なかったりで、どういう仕組みで動いているのかよく分からない。ここで取説を見ると、表紙の前の方を機器の奥の方にして、本を逆さに置けばいいらしい。上下補正機能を切って、正しい位置に置いてスキャンすると、きれいに順序正しいPDFができた。こういう基本は試行錯誤してもいいけど、初めての機器については、とても重要な事が書かれていたりするので、斜め読みでも見ておいた方がいいよね。あんまり面倒で読まないけどさ。 上下補正機能がどう働いているのかは分からないけど、誤認識を避けるために設定でオフにしておくべきかもしれない。一応できたものをチェックするけど、不意にページが逆転していたら直すの面倒だし、チェック漏れも考えられる。なので物理的にきちんと揃えておいた方がいいっぽい。
僕が多くやるはずのマンガでは、PDFにする時に文字をOCRする必要はないかな。してもいいけど、あんまり意味ないかもしれない。だって、まんがのセリフとか検索する? まぁしてもいいけど、今のところOCRは遅いマシンでやってるので使ってない。それと結構OCRが変換に失敗する。日本語じゃないような漢字が出てたり、レタリングされている文字とかはやっぱり認識は困難だ。当たり前かもしれないが、白抜きの文字とかは認識されないっぽい。 これでは昔のOCRとそれほど変わらないじゃないか。いくらか認識率は上がっているが、信頼を置けるほどの物ではないみたいだ。そういうのは付属のAdobe Acrobatを使って訂正しろってことなんだろうけど、正直面倒くさいなぁ。だって誤認識しているかどうかってのは、テキストを抽出してテキストエディタなどに貼らないと確認できないから。精度を必要とされる作業には不向きですのでそのつもりで。というか、Acrobatで訂正するのとか面倒だなぁ。 あと、読み込みの設定ね。プリセットで設定されているので、解像度もカラーモノクロもおまかせにできるんだけど、マンガの白黒でカラー読み込みとかされてたら、そのファイルがデカくなるよね。それと自分が欲しい適切な画質で欲しいという要求もやっぱりある。先に言ったようにOCRするかどうかの設定もあるし、読み取り設定は始めは標準になっていると思うけど、自分で設定を作ってプリセットに入れる事も出来るので、お任せ設定に難があればカスタマイズは楽だ。選択できる設定も明白で、書いてある事がよく理解できなかったり、自分で選ぶのも難しいところはなさそう。 ただ、その設定を決めるのはちょっと面倒かな。結局、画質とファイルサイズのバランスという事になるのだろうが、なかなか適正値を求めるのは面倒だ。気にする項目として、 ・スキャニング精度dpi ・ファイルの圧縮率 ・カラーかモノクロ ・OCRで文字を埋め込むかどうか これがどこまでファイルサイズに咬んでくるか、まだ分かってないけど、マンガって時たまカラーも混ざってるし、OCRするべきかも怪しいところだし、色々試行錯誤してみます。一番の問題になるところは、読み取りdpiの値と、ファイルの圧縮率だと思います。イメージは基本的にJPEGとかの圧縮と同じで、あまり圧縮するとモスキートノイズがヒドくなる。標準設定の3では、カラーで場合によってはちと目立つ感じがした。どこまで圧縮を上げるか、dpiの値がどこまでPDFに反映されるものなのか、その効果はどのくらい効いてくるのか、悩ましいところだ。そこいらの詳しい設定はまたの機会という事で。
まだ、同じ原稿を数回使っただけで、使っているうちに文句も出てくるかもしれないけど、今の所は問題ない。紙の送り出しも非常に良く出来ていると思う。速いし詰まりもしない。かなり裁断で切り口がバサバサしていても、大して苦にもせずにやりおおせた。ただ、やっぱりイレギュラーな動作もしないわけじゃないので、動作させる時にはじっと見てたほうがいいっぽい。じっと見ていたところで、スキャンに時間がやたらかかるわけでもないので、次の紙を入れ替えるまで軽く見てるだけでいいだろう。そもそも、50枚が限度らしいので、他の作業をしていられるほど時間はかからない。基本、自炊に専念することが出来るわけだ。 今の動作環境は明らかにCPUのパワーが下回っているので、OCRでPDFの中に文字データを埋め込む処理をすると、やたら時間がかかる。これは自分のWindowsマシンがヘボいので処理が遅いだけで、速いMacでやれば読み込みと一緒に処理するくらいの勢いでやってくれると思われる(ってまだやってない)。レビューでも前よりか速いよって事は書いてあったので間違いではないだろう。 暑さで買ってきたティラミスが液体になってた…。ティラミスは飲み物じゃないよ!