Archive for May, 2010

本のスキャンのその後

Posted by on Wednesday, 12 May, 2010

スキャンした本を何冊かKindleで読んでみた。

これはまぁ普通に読めるレベル。ただKindleに入っているコンピュータの性能の問題か、PDFはロードに時間がかかって若干もたつきを感じる。ページ送りも遅い。e-Inkの例のアレもちょっとあまりいい気分ではない。一方、Kindleの場合、目の疲れはないし、重いという人もあるけれど僕にとっては電車の中で立って読めるぐらいで快適だ。iPadの重さではこれはさすがに無理。

グレイスケールよりは二値化したほうが文字は読みやすい。グレイスケールの方がモニタ上では美しいが、Kindle上では細い線がかすれてしまい、じゃっかん読むのに手間取る。ただ、二値化した場合、網掛けの部分とか、どうしようもなく汚くなってしまう部分がある。ライトノベルのイラストなんかは見るも無残な感じになるだろうし、そうでなくても本てのは意外とそういう飾りが随所にあるものだ。イラストを諦めて二値化するのは嫌だし、たとえば文字だけのページだけそういう処理をするよう頑張るのも嫌で、さてどうしたものだろう。このへんはiPadならば美しく表示されるんだろうな。

ところが一方、まんがはかなり読みやすい。フキダシの文字も苦にはならない。なんでかなと思ったのだが、ゴシック体が使われがちだからかもしれない。たいていのまんがのたいていの活字では、漢字がゴシック体でひらがなが明朝体なフォントが使われているが、細くなって見づらくなるのは漢字の方なので、それだけで結構読みやすくなるのかもしれない。ゴシック体は比較的線が太く、一定なので、あまりかすれない。あと、まんがの文字は大きめのものも使われるからだろうか。文字が大きいとかすれは目立たなくなり、比較的読みやすくなる。

まんがといえば見開きをどうするかはまだ決心していない。アイディアとしては、全ページを2ページずつ結合して見開きのようにして読むか(Kindleは横向きにする)、そのページだけ結合するかということになる。もっともその前に、Acrobatでどうやって結合して見開きページを作ればいいのかはよくわかってないのだが……。ただやろうと思えば、画像データを取り出してImageMagickなりなんなりで結合して、画像の集合を結合してPDFにすればいいという話はある。ただその場合、OCRはあきらめないといけないだろう。

OCRといえばスキャナドライバにもOCRの機能があり、これが1ページあたり3-5秒程度かかるとこないだ書いたが、AcrobatにもOCRの機能があり、こちらの方が若干速いようだ(1ページ当たり2-4秒ぐらい)。縦書きの文章についてもAcrobatの方が若干精度が良い、気がする。まんがでも、絵の部分に文字を「発見」してしまうようなfalse positiveが少ないようだ。ただAcrobatではOCRの時にページの角度調整を自動的にやってしまい、これが悪さをすることがある。まんがなど、ページの真ん中に斜めのコマ割りが入ってたりするとその向きに沿ってページの向きを整えてしまったりして無残な結果になりかねない。結局、こういう用途では使いものにならない。

そういうわけで、ScanSnapからKindleという道筋には、まだ考えないといけないことがいろいろあるように感じています。そもそもPDFで取り込むのがいいのかJPEGで取り込むのがいいのかもわかっていない。まだまだ試行錯誤の段階だなーと思っています、何事も。


本を電子化してみた

Posted by on Sunday, 9 May, 2010

個人的には、電子ブックは便利とはいえ、本を裁断してスキャンするというのは相当抵抗感のある行為でした。そういう人も多いんじゃないかな。しかしある瞬間にそれがどうでもよくなり、裁断してもいい気分になってきた。まずはそこについて軽く書いてみたい。

そもそもぼくがどれぐらい本を持っているかというと、せいぜいが2000冊程度。これって収集しているというほど持っているわけじゃないけど、日常生活を送るときに本について意識せざるを得ないぐらいにはあるっていう状況。ようは中途半端なわけ。中途半端なりに本には愛着は持ってるから裁断はできないけど、なんとかしたいとは思ってる。たまに棚を見直してある程度の本を売ったりとか。

それである時、ふたつのことに気づいた。第一に、ちゃんと収集・保管しているひとは他にいるので、自分程度が本を裁断することをためらう必要はとくにないということ。逆にパラフィン紙などを使わず褪色するに任せている現状では、電子化したほうが長持ちするかもしれない。第二に、全ての本を裁断する必要もないし、コストや時間の関係でそれは不可能だということ。ようは裁断してもいいような本だけを裁断すればよく、それだけでも棚のスペースはある程度活用できるようになる。という二つの点に思い至り、裁断を試してみることにした。

色々調査したり、実際にやってみた人の話を聞いてみて、FUJITSU ScanSnap S1500Mを購入した。こうした個人用途のスキャナでは、Canon DR-2510C派もいるみたいだけど、このへんは直感で決めた。ちなみに、本のスキャンといえばBOOK SCANというサービスがあるのだが、今回これは利用していない。著作権的に微妙だという指摘が気になったためで、それなければ試してみたかもしれない。

本をスキャンするには、まず何らかの手段で背の部分を切り落とさないといけない。あとは紙をオートフィーダに積んでおけば順々にスキャンしてデータを取り込んでくれる。OCR認識もあるので、内容での検索もできる。で、この本の裁断は知り合いの勧めによりキンコーズに依頼した。キンコーズでは1冊105円で本を裁断してくれるサービスがある。自分で作業するには裁断機が必要で、それは結構お金がかかるし、それを買ったとしてもある程度の厚さの本になってしまうと本をばらさないといけない。そういうわけで、現段階では裁断機の購入はやめておいた。

今回は実験ということなので、違ったタイプの本8冊を選んだ。ハヤカワ新書Juiceの『デザイン思考が世界を変える』(新書)、ちくま学芸文庫の『ガロア理論』(文庫、横書き、数式など入り)、有川浩『塩の街』(ライトノベル、カラーイラストつき)、『Java並行処理プログラミング』(大判技術書)、柴田元幸編『短編集』(文芸)、雨隠ギド『ファンタズム』(まんが、カラーページあり)、島本和彦『燃えよペン』(まんが、見開きページあり)、ヴァーナー・ヴィンジ『Rainbows End』(洋書、ペーパーバック、この作業をやるのにこの本は外せないでしょう)。本当はこれに加えてハードカバー本も持っていったのだが、ハードカバーの部分を外さないとダメだと言われたので今回は諦めた。ちなみに、かかった時間だが、本の大きさがそろっていないので30分ほど見て欲しいと言われた。当日キンコーズはガラガラだったがこれなので、裁断を依頼するときはそれなりの時間は見ておいたほうがいいかも。

さて、あとはスキャンするだけである。あるのだけど……。あらかじめ知り合いからは「面倒なので最近はあんまりやっていない」と言われていたのだが、体験してなるほどと納得した。これは面倒だ。BOOK SCANにお願いできるならしたいぐらいだ。

なぜかというと、とにかく一冊あたりの時間が思った以上にかかる。このペースではとても1000冊もスキャンしてられないだろうと思う。本当にどうでもいい本はもっと売ってしまうようになるだろう。

何に時間がかかるかというと、OCRかな。あとは後処理だろうか。当のスキャンはすいすい進む印象だ。これは動画(↓)を見ていただいたほうが話が早いだろう。だが実際にはこの後にOCRのプロセスが走る。amazonのレビューなんかで「いつOCRをしているのかわからないぐらい速い」というコメントも見られるけど、それはOCRを走らせていないのだと思う(デフォルトではオフになっている)。OCR中はそのプログレスバーが出てくるから、いつやってるのかはすぐわかる。普通に文字が詰まったページだとOCRは1ページ当たり3-5秒といったところで、スキャンが分速20-25枚(両面なので40-50ページ/分)というところだから、OCRの速度はその半分以下というわけ。300ページの本をスキャンするのには15分から30分ぐらいかかる。ちなみに洋書の方が速いかと思ったらそういうこともなかった。

後処理は、まぁいろいろ。カラーページとモノクロページをスキャンするのには別々のファイルに吐き出す必要があるので、それらを結合したり、今回ページの向きの自動補正をオンにしていたのだが(それがデフォルトだったので)、そのミスを修正したり。ページ向きの自動補正機能は、とくにまんがでは相当間違えていたので、切ったほうがよかったのかもしれない。あとはまあページ抜けがないか見たり、ジャムったあたりをチェックして不要なページを省いたり。このへんは慣れてくれば簡素化できるとおもうけど、なにしろ初めてだったのでいろいろな作業があった。

ちなみにまんがの見開きページだけど、どうやって結合するのがいいのかわからず、現段階では放置している。そもそも見開きページを結合するとして、それはKindleなどのデバイスではどう表示されるのか(どう表示されるべきなのか)というのもよくわからない。

スキャンはカラーとグレイスケール、モノクロの3つのパターンがあり、自動判別が可能なのだが、カラーとグレイスケールを手動で切り替えた。紙の色合いや何やかやでうっかりカラーになってしまうため。モノクロも試してみたが、どうもグレイスケールのほうが読みやすい気がするので、いまはグレイスケールにしている。なお、基本的にカラーでスキャンするのは表紙カバーだけで、その場合はそんなに手間ではないが、カラーイラスト入りの本ではまた事情が別。ライトノベルが厄介かなと思っていたら、より厄介だったのは柴田元幸の『短編集』。クラフト・エヴィング商會の作品がカラー写真をつかったものだった。

ところで表紙カバーやオビはどうしたらいいだろうか。ひとまずオビと表紙カバーをまとめて1枚の紙としてカラーでスキャンした。ただ、表紙カバーについては本ごとにまるで違うということがわかったので、そこは注意しないといけない。オビを巻くことが前提のデザイン化そうでないか、判型は何か、折り返しは必要か、などによってスキャンのしかたは変わってくる。挟み込みのチラシや月報については基本諦めることにした。ライトノベルのなかには結構充実したチラシ/月報を挟みこんでくる場合もあるので、そういうのを発見したらそれはスキャンすることになるだろうか。

OCR認識については「ないよりはマシ」というふうに考えたほうがよさそうだ。日本語のOCRの精度の問題もあるが、そもそもどうやらソフトウェアは横書きを前提に認識しているようで、縦書きの本では無残なものである。単語としては拾えていることも多いが、比較的長い文章ではぜんぜん検索できなくなっていることだろう。このへんは将来的になんとかならんかなと思いつつ。(追記:ほぼ縦書きだけで占められるページを見たところ、案外ちゃんとしてることに気づきました。そこまでひどくはないのかも)

ファイルサイズは案外と大きい。1冊あたり数十MBというところだろう。1000冊あれば数十GBになるわけで、それを保管するのは大変そうだ……が、1000冊もスキャンするんかいなという問題を解決する方が先だろう。ひとまずDropboxに放り込んでいる。

ファイルサイズといえばKindleへのデータ転送にえらく時間がかかることに気づいた。どうやらUSB 1.1らしく、50MBのファイルでも転送には数分かかる。これはちときつい。解決策はあるだろうか(iPad…という声がどこかから聞こえてきそうだなあ)。

そうそうKindleで読んだ時の感じだが、十分読めるレベルだ。本のもとのサイズや文字の大きさにもよるが、問題なさそう。だが、パッと見の感覚と長時間実際に読んでみるときの感じにはギャップがあるものなので、このへんは自分を実験台にしつつもう少し時間をかけて試していきたい。ただ、解像度の関係で絵の場合は若干ガタガタしたり、スクリーントーンの部分が綺麗にグレイスケールに変換されるわけでもないといった事情から、まんがやラノベにとってKindleがベストなのかはまだちょっとわからない。モノクロだしね(おやまたiPad…とかいう声が聞こえてきたなあ)。

現段階ではこんなところ。技術系の人の中にはこういうことを試してみている人が結構たくさんいる気がするが、あまりそういうブログでは出てこないようなポイント(オビをどうするかとか、縦書きの本のOCRとか、まんがとか)について触れてみたつもり。なんか質問等あったらコメントをどうぞ。あとリアルな知り合いの人は今度あったときにKindle見せますよ。


World War Z

Posted by on Thursday, 6 May, 2010

WORLD WAR Z

中国奥地で発見された感染症。この病気に感染するとやがては死に至り、死んでも歩きまわる。まるでゾンビのように。ゾンビに噛み付かれた人間はやはり同じ病に侵され、広まっていく。「死者がゾンビとして蘇る」なんてあまりにも突拍子も無い症状のためになんの対策も取られず、やがてアウトブレイクを迎え、世界中はゾンビで満たされ、人類は絶滅の危機を迎えるが、やがて反撃に転じる。その世界ゾンビ大戦の終結宣言からはや10年。国連は当時の調査資料を作成するために、世界各地の生き残りにインタビューをした。だが、実際に作成された報告書からはインタビューの大半は削られ、無味乾燥な数字とデータの資料になってしまった。これに不服を感じた調査員が、自分のインタビューをまとめて本を刊行した……という体裁の書籍が本書だ。

当時の証言を集め、まとめて一冊の本にする、というスタイルによって、全体像を描きづらいこういうスケールの大きな事件を、地に足の着いた視点から描いていき、次第に読者に全体像をつかませるという方法論それ自体は、実はそれほど珍しいものでもないだろう。ただし、えらくしんどい方法ではある。現実の歴史を対象としたノンフィクション作品でも実地の調査が必要だが、フィクションでは別な意味でしんどいだろう。著者は全体像をあらかじめ構築しておいて、細部だけを語りながらさりげなく全体像を読者にわからせるように、それでいて各キャラクターの発言としては自然に語っているように描かないといけない。その難行を、この著者は成功した。

この本には実にいろんな人が現れ、当時を回想する。はじめて患者に相対した医者、当時のホワイトハウス首席補佐官、ニセの薬を売って大儲けし、南極に避難した億万長者、政策決定者、兵士、ひきこもり、国際宇宙ステーションに取り残された宇宙飛行士……。それぞれが、それぞれの思い出を語る。そこで語られるのは、安っぽいお涙頂戴もののストーリーじゃないし、安易なパニックものでもない。端的に言えば絶望的な状況であり、そんな中でもなんとか生き延びようとあがく人間。無残な話でもあるし、容赦もない。たとえばゾンビ対策のために館を要塞化して立てこもった有名人たち。なぜか彼らは自分たちの状況をネットで放送し、それに引き寄せられるようにしてゾンビの前に人々が押し寄せ、けっきょくゾンビと戦うまでもなく崩壊してしまう。南アメリカでかつてアパルトヘイトに手を貸し、そして起死回生のプランを立案した男の物語。近代兵器がまるで通じず、記録的な大敗を喫したときの兵士の絶望……。この本には、本当に印象深い物語がいくつもある。それだけで長編が一本書けそうなほどのストーリーの断片が重層的に重なりあい、結果として世界ゾンビ大戦の全貌が浮かび上がる。

この本がよく出来ているのはまた、おぼろげに「大戦後」の世界を描いていることだろう。これほどの激変で世界が変化しないわけがない。欧州は連合国家と化し、神聖ロシア帝国が勃興。キューバが経済大国として繁栄している。日本は、韓国は、中国は、インドは、南アは……こういうことがさりげなく描かれている。当時を振り返っているために、語り手たちのその後もさりげなく描かれる。ホワイトハウスの首席補佐官は、いまでは農場で糞の処理の仕事に就いている。キャンプ場に流れ着いて、周囲の木を切り倒して生き延びた女性は、今じゃ原生環境復元プログラムに参加している。そんな調子。

分厚い本だけど、一つ一つの証言は短いし、読みやすいのでわりと速く読める本だと思う。でも決して軽い本じゃない。読むと、本の厚み以上に厚みのある内容が脳内に展開される。それがこの本の醍醐味だ。

ちなみに著者はThe Zombie Survival Guide: Complete Protection from the Living Dead (ゾンビサバイバルガイド)という本を書いたことのある御仁。こちらもタイトルは知ってたけど未読だったので、ぜひとも訳して欲しいなあ。

A