書籍のデジタル化で保存形式は何が最適かを検討

2017年10月25日

テクノロジー 自炊

自宅の本の山をデジタイズして、デジタル図書館にするススメをしましたが、今回はデータ保存形式について考えてみたいと思います。 データを保存する上で考えたいのは、以下の2点です。
容量効率をあげるために圧縮ファイルにしたい 画質を含めたクオリティは下げたくない
たくさんのデータを保存するという点では、考え抜かれた方法を一つ定義していかないと、保存する度に違うフォーマットというのが後ほど一番扱いづらくなりますからね。

圧縮とクオリティ

品質は重要です。せっかくデジタル化しても、元々の本が読めないような状態になっては意味がありません。 とは言っても、紙と同様のクオリティを求めようとうすると、非常に高い画素数を持たせた画像データで保持しなければいけません。 まず考えたいのは1ページ毎のクオリティは、出来る限り高い画素数にしたいのですが、雑誌の1ページを参考に考えてみましょう。

雑誌1ページの容量サンプル

"18cm × 25cm"ぐらいの雑誌を基準として、300dpiの画素数でスキャンした時のファイルサイズを考えてみましょう。 まず、ピクセル数は"2156px × 2953px"になります。 そしてフルカラー(24bit)にした時の容量は、"18MB"です。 この雑誌が100ページあると考えたら、"1800MB"・・・"1.8GB"・・・ 雑誌1冊に1.8GBなんて有りえませんね。 だって、10冊で18GB、100冊で1800GB、スマートフォンの端末容量が64GBや128GBと考えると、現実的な容量とは思えません。 せめてこの1/10ぐらいのファイル容量にしなければいけないのですが、そこで有り難いのが、データ圧縮の技術です。

データ圧縮について

上記のファイル容量は、非圧縮データの計算をしたのですが、Jpegを代表とする圧縮データは、50%から90%ぐらいのデータ容量を削減することができます。 もちろん非圧縮のデータの方が画質がきれいなので、できれば圧縮しないほうが良いと考える人は、非圧縮データとJPEG圧縮データを比較して、 300dpiレベルの画質でのjpegデータの遜色がほとんどない事を理解しましょう。 そして、実際には非可逆圧縮なのですが、見た目変わらずデータ容量が1/10ぐらいになるなんて、やらないほうが変だと思いませんか?

写真アプリで考える

実際に圧縮データはスマートフォンの写真撮影した際に、全てのデータがJPEGとして保存されていると思います。 これは、画素数を考慮した時に、人の目で見た劣化がほぼ分からない技術を採用しているんですね。 改めて見直したぞ、「JPEGデータ」!!!

保存形式はJPEGで決まり

というわけで、スキャンしたデータをページ毎に保存するのであれば、JPEGデータにした方がいいという事で決定ですね。 他にも色々な画像圧縮フォーマットはあるのですが、何故JPEGかというと、殆どのアプリケーションがJPEGフォーマットを標準採用しているという事を考えると、 あまり聞き慣れないフォーマットを採用するのは避けたほうがよさそうです。

データフォーマット別考察

しかし、実際にスキャナでデータスキャンした時に、「PDF」形式になる場合は多いと思います。 でも、心配ご無用。PDFのページ毎は、JPEGフォーマットで保存されている仕様になっていると思います。 試しに数ページスキャンして、データ容量を計算してみるといいでしょう。 ちなみに、上記で書いた、サイズから、データ容量を算出するには、以下のページを使うと便利でいいですよ。 サイズ計算式 | amana images 単行本レベルなら、100ページぐらいの雑誌でも100MB以内ぐらいに収まっていることでしょう。 しかし、漫画や雑誌の保存形式は、ページ毎のjpegファイルをフォルダに入れて圧縮データファイルにしておくことが一番効率がいいと考えている人も多く、 無料で配布しているようなデジタル書籍でzipフォーマットになっているものもよく見かけます。 メジャーな感じで考えるのであれば、下記の3タイプぐらいを基準に考えておいたほうがいいかもしれませんね。
・PDF ・ZIP ・RAR
ただし、自分で管理するのであれば、この3つのどれかにするのではなく、スキャンしたそのままの状態のPDFでも十分でしょう。 また、スマホアプリなどの連携を考えると、PDFデータにしておくと、そのまま色々なアプリで読み込みをしてくれることでしょう。 漫画リーダーなどは、zipやrarにも対応しているようですが・・・

ブックリーダーのフォーマットについて

Amazon Kindleなどの専用ブックリーダー端末などを使う時、PDFでも表示できるのですが、「AZW」や「Topaz」というフォーマットが推奨されているようです。 参考:Kindle 書籍の新フォーマット Topaz について調べたこと 他にも「XMDF」という、シャープが作ったフォーマットもあるようで、あまり馴染みはないんですが、一応国際基準になっているようです。 XMDF仕様 これらのフォーマットが何故存在しているかというと、著作権保護の為という事が大きいようです。 また、小説などを読む時に重要なのが、縦書きをテキストデータとして表示できる機能などがあるようで、画像データではなく、テキストデータを扱う電子ブックリーダーのフォーマットは、データ自体は非常に軽い状態なため、容量のあまりないブックリーダー端末でも十分にたくさんの書籍を保持できるというワケなんですね。 スキャンした後、OCRという流れもいいのですが、現時点でのOCR精度を考えると、画像で扱った方が、確実性は高いです。 参考:実は重要! よくわかる電子書籍フォーマット規格!!

まとめ

そんなわけで、結局、デジタル書籍はどのフォーマットがいいかという結論ですが、基本的にはPDFが良さそうです。 PDFをJPEGファイルに分解する事が可能である事を考えると、PDFは非常にいいデータファイルフォーマットであると言えますね。 だって、ファイルの中にテキストデータもwordの様に配置することもできるし、1ファイルで表紙機能も目次機能も、ファイル内リンクなども設置出来ることを考えると非常に有力なシステムですよね。

参考

自宅書籍が多すぎるのでSCANして自分専用デジタル図書館を構築のススメ 連番のファイル名と年号の付け方についての検討

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。