本を電子化してみた @ val it: α → α = fun

個人的には、電子ブックは便利とはいえ、本を裁断してスキャンするというのは相当抵抗感のある行為でした。そういう人も多いんじゃないかな。しかしある瞬間にそれがどうでもよくなり、裁断してもいい気分になってきた。まずはそこについて軽く書いてみたい。

そもそもぼくがどれぐらい本を持っているかというと、せいぜいが2000冊程度。これって収集しているというほど持っているわけじゃないけど、日常生活を送るときに本について意識せざるを得ないぐらいにはあるっていう状況。ようは中途半端なわけ。中途半端なりに本には愛着は持ってるから裁断はできないけど、なんとかしたいとは思ってる。たまに棚を見直してある程度の本を売ったりとか。

それである時、ふたつのことに気づいた。第一に、ちゃんと収集・保管しているひとは他にいるので、自分程度が本を裁断することをためらう必要はとくにないということ。逆にパラフィン紙などを使わず褪色するに任せている現状では、電子化したほうが長持ちするかもしれない。第二に、全ての本を裁断する必要もないし、コストや時間の関係でそれは不可能だということ。ようは裁断してもいいような本だけを裁断すればよく、それだけでも棚のスペースはある程度活用できるようになる。という二つの点に思い至り、裁断を試してみることにした。

色々調査したり、実際にやってみた人の話を聞いてみて、FUJITSU ScanSnap S1500Mを購入した。こうした個人用途のスキャナでは、Canon DR-2510C派もいるみたいだけど、このへんは直感で決めた。ちなみに、本のスキャンといえばBOOK SCANというサービスがあるのだが、今回これは利用していない。著作権的に微妙だという指摘が気になったためで、それなければ試してみたかもしれない。

本をスキャンするには、まず何らかの手段で背の部分を切り落とさないといけない。あとは紙をオートフィーダに積んでおけば順々にスキャンしてデータを取り込んでくれる。OCR認識もあるので、内容での検索もできる。で、この本の裁断は知り合いの勧めによりキンコーズに依頼した。キンコーズでは1冊105円で本を裁断してくれるサービスがある。自分で作業するには裁断機が必要で、それは結構お金がかかるし、それを買ったとしてもある程度の厚さの本になってしまうと本をばらさないといけない。そういうわけで、現段階では裁断機の購入はやめておいた。

今回は実験ということなので、違ったタイプの本8冊を選んだ。ハヤカワ新書Juiceの『デザイン思考が世界を変える』(新書)、ちくま学芸文庫の『ガロア理論』(文庫、横書き、数式など入り)、有川浩『塩の街』(ライトノベル、カラーイラストつき)、『Java並行処理プログラミング』(大判技術書)、柴田元幸編『短編集』(文芸)、雨隠ギド『ファンタズム』(まんが、カラーページあり)、島本和彦『燃えよペン』(まんが、見開きページあり)、ヴァーナー・ヴィンジ『Rainbows End』(洋書、ペーパーバック、この作業をやるのにこの本は外せないでしょう)。本当はこれに加えてハードカバー本も持っていったのだが、ハードカバーの部分を外さないとダメだと言われたので今回は諦めた。ちなみに、かかった時間だが、本の大きさがそろっていないので30分ほど見て欲しいと言われた。当日キンコーズはガラガラだったがこれなので、裁断を依頼するときはそれなりの時間は見ておいたほうがいいかも。

さて、あとはスキャンするだけである。あるのだけど……。あらかじめ知り合いからは「面倒なので最近はあんまりやっていない」と言われていたのだが、体験してなるほどと納得した。これは面倒だ。BOOK SCANにお願いできるならしたいぐらいだ。

なぜかというと、とにかく一冊あたりの時間が思った以上にかかる。このペースではとても1000冊もスキャンしてられないだろうと思う。本当にどうでもいい本はもっと売ってしまうようになるだろう。

何に時間がかかるかというと、OCRかな。あとは後処理だろうか。当のスキャンはすいすい進む印象だ。これは動画(↓)を見ていただいたほうが話が早いだろう。だが実際にはこの後にOCRのプロセスが走る。amazonのレビューなんかで「いつOCRをしているのかわからないぐらい速い」というコメントも見られるけど、それはOCRを走らせていないのだと思う(デフォルトではオフになっている)。OCR中はそのプログレスバーが出てくるから、いつやってるのかはすぐわかる。普通に文字が詰まったページだとOCRは1ページ当たり3-5秒といったところで、スキャンが分速20-25枚(両面なので40-50ページ/分)というところだから、OCRの速度はその半分以下というわけ。300ページの本をスキャンするのには15分から30分ぐらいかかる。ちなみに洋書の方が速いかと思ったらそういうこともなかった。

後処理は、まぁいろいろ。カラーページとモノクロページをスキャンするのには別々のファイルに吐き出す必要があるので、それらを結合したり、今回ページの向きの自動補正をオンにしていたのだが(それがデフォルトだったので)、そのミスを修正したり。ページ向きの自動補正機能は、とくにまんがでは相当間違えていたので、切ったほうがよかったのかもしれない。あとはまあページ抜けがないか見たり、ジャムったあたりをチェックして不要なページを省いたり。このへんは慣れてくれば簡素化できるとおもうけど、なにしろ初めてだったのでいろいろな作業があった。

ちなみにまんがの見開きページだけど、どうやって結合するのがいいのかわからず、現段階では放置している。そもそも見開きページを結合するとして、それはKindleなどのデバイスではどう表示されるのか(どう表示されるべきなのか)というのもよくわからない。

スキャンはカラーとグレイスケール、モノクロの３つのパターンがあり、自動判別が可能なのだが、カラーとグレイスケールを手動で切り替えた。紙の色合いや何やかやでうっかりカラーになってしまうため。モノクロも試してみたが、どうもグレイスケールのほうが読みやすい気がするので、いまはグレイスケールにしている。なお、基本的にカラーでスキャンするのは表紙カバーだけで、その場合はそんなに手間ではないが、カラーイラスト入りの本ではまた事情が別。ライトノベルが厄介かなと思っていたら、より厄介だったのは柴田元幸の『短編集』。クラフト・エヴィング商會の作品がカラー写真をつかったものだった。

ところで表紙カバーやオビはどうしたらいいだろうか。ひとまずオビと表紙カバーをまとめて1枚の紙としてカラーでスキャンした。ただ、表紙カバーについては本ごとにまるで違うということがわかったので、そこは注意しないといけない。オビを巻くことが前提のデザイン化そうでないか、判型は何か、折り返しは必要か、などによってスキャンのしかたは変わってくる。挟み込みのチラシや月報については基本諦めることにした。ライトノベルのなかには結構充実したチラシ／月報を挟みこんでくる場合もあるので、そういうのを発見したらそれはスキャンすることになるだろうか。

OCR認識については「ないよりはマシ」というふうに考えたほうがよさそうだ。日本語のOCRの精度の問題もあるが、そもそもどうやらソフトウェアは横書きを前提に認識しているようで、縦書きの本では無残なものである。単語としては拾えていることも多いが、比較的長い文章ではぜんぜん検索できなくなっていることだろう。このへんは将来的になんとかならんかなと思いつつ。(追記：ほぼ縦書きだけで占められるページを見たところ、案外ちゃんとしてることに気づきました。そこまでひどくはないのかも)

ファイルサイズは案外と大きい。1冊あたり数十MBというところだろう。1000冊あれば数十GBになるわけで、それを保管するのは大変そうだ……が、1000冊もスキャンするんかいなという問題を解決する方が先だろう。ひとまずDropboxに放り込んでいる。

ファイルサイズといえばKindleへのデータ転送にえらく時間がかかることに気づいた。どうやらUSB 1.1らしく、50MBのファイルでも転送には数分かかる。これはちときつい。解決策はあるだろうか(iPad…という声がどこかから聞こえてきそうだなあ)。

そうそうKindleで読んだ時の感じだが、十分読めるレベルだ。本のもとのサイズや文字の大きさにもよるが、問題なさそう。だが、パッと見の感覚と長時間実際に読んでみるときの感じにはギャップがあるものなので、このへんは自分を実験台にしつつもう少し時間をかけて試していきたい。ただ、解像度の関係で絵の場合は若干ガタガタしたり、スクリーントーンの部分が綺麗にグレイスケールに変換されるわけでもないといった事情から、まんがやラノベにとってKindleがベストなのかはまだちょっとわからない。モノクロだしね(おやまたiPad…とかいう声が聞こえてきたなあ)。

現段階ではこんなところ。技術系の人の中にはこういうことを試してみている人が結構たくさんいる気がするが、あまりそういうブログでは出てこないようなポイント(オビをどうするかとか、縦書きの本のOCRとか、まんがとか)について触れてみたつもり。なんか質問等あったらコメントをどうぞ。あとリアルな知り合いの人は今度あったときにKindle見せますよ。

val it: α → α = fun

本を電子化してみた

Archives

disclaimer