追加説明 | epubpack

EPUBpack(イーパブ・パック)とは

・以下の4ステップの作業工程による半自動EPUB制作サービスです。

　1. PDFから構造化テキストを抽出しマークダウンファイルを自動生成。(CMSで管理)

　2. 印刷所固有文字の変換、目次制作、脚注/注釈設定、画像位置調整、頁扉設定などマークダウンを編集。(手動)

　3. マークダウンから出版社仕様に応じたEPUBファイルを自動生成。(CMSで管理)

　4. EPUBビュアーを使い、PDFとの比較、目視確認。(手動)

・DTPやCTSで組まれた出版物のテキストPDFをご提供いただき、自動的に構造化テキストを生成します。

　　・文字コードはJIS X0213(2004)：サロゲートペアやIVSの拡張文字は使えません。漢字以外もUnicodeの範囲内は変換できます。

　　・この範囲であれば、出版社での文字校正が不要です。

　　・ルビも正しく入ります。

・図版、表、グラフ、数式、章扉などは、画像に変換しEPUB化します。キャプションは画像内に入れ、代替テキストも設定します。

・脚注、コラムなどにも対応します。

・頁単位の縦組み、横組み混在にも対応します。

・目次は電書協ガイドに沿って設定されます。　(索引は本文検索での代替となります)

PDFテキスト抽出の難しさ

・Wordなどで作られたPDFからテキストを抽出するのは容易です。

・DTPで作られたPDFは、美しい組版にするため、以下の例のように多くのテキストボックスで構成されたものもあります。このようなPDFからも、読む流れに沿ったテキストを取り出しています。

※何れの場合も、構造(大見出し、小見出し、図版など)の取り出しは厄介です。

EPUBとは

・EPUBは文字の拡大、縮小が可能でアクセシビリティが高いフォーマットです。複雑なレイアウトは表現できません。その割り切り方については助言させていただきます。

・文化・言語・国籍や年齢・性別などの違い、障害の有無や能力差などを問わずに利用できるユニバーサルデザインの書籍が作れます。

・世界標準の電子書籍フォーマットで、W3Cが策定したブラウザのHTML5、CSS3を使用しており、Webとの相性が良い形式です。

・イーストは2011年総務省からの委託で、ブラウザへの縦書き、ルビ、禁則などの仕様をW3Cに提案し、Chrome、Safari、Edge、Firefoxなど世界の主なブラウザがすぐに実装してくれました。ですので、電子書籍だけではなく、ブラウザでも日本語組版が表示できます。

マークダウンとは

・HTMLを簡略化した記述方式、テキストの構造も表現できます。EPUBpackでは「でんでんマークダウン」を拡張して使用しています。

・大見出しは行頭の #、中見出しは ## 、ルビは {電子|でんし}{出版|しゅっぱん}などと記述します。

なぜ、コンテンツをサーバで管理するの？

・出版コンテンツの一元管理(CMS)はとても重要です。

・電書協ガイドに沿った正しいメタ情報やCSSを出力します。

・改訂が容易になるとともに、EPUBの今後のバージョンアップにも対させる必要があります。

・EPUB 3.0の策定は2011年、現在EPUB 3.2が進行しており、Webの進化とともに書籍のデータ形式も進化します。

電書協ガイドって何？

・出版社を中心とした一般社団法人日本電子書籍出版社協会が策定した、日本語EPUB仕様のガイドラインです。

・適時改訂され最新版は「電書協 EPUB 3 制作ガイド ver.1.1.3」です。CMSにコンテンツがあれば、細かな仕様改訂にも対応できます。

・電書協ガイドは日本の出版物を俯瞰し、ガイドしているので、出版社固有の仕様は個別に決める必要があります。EPUBpack初期経費では、その部分を策定します。

・電書協ガイド最大のメリットは、各電子書店のEPUBビュアーが準拠していることです。これにより、表示確認コストが大幅に削減されます。

お客様とのやりとり

1. 機密保持契約、基本契約の締結

2. テキストPDFのご提供

　EPUB化または構造化したい、実際のテキストPDFファイルをご提供ください。

　変換可能か調査し、回答します。

　テキスト抽出できない場合、InDesign出力のEPUBを使うルートなど、複数の制作ルートがあります。

3. 個別見積りと個別契約

4. EPUB制作(上記「EPUBpackとは」4ステップでの作業)

5. 納品

PDFテキスト抽出 (現在できないこと)

・段組み書籍(縦組み、横組み共に)

・雑誌、新聞、教科書など、複雑な組版

・全体が「表」になっている出版物

・本文中の数式(明確に本文と別の場合は画像図版に変換可能です)

※テキストPDFが前提ですので、スキャン画像を束ねたPDFには対応していません。

PDFテキスト抽出 (今後取り組みたいこと)

・企業内ドキュメントからの構造化テキスト抽出 (AI/深層学習用のデータ整備など)

・学術論文(マークダウンへの変換ではなく、JATSなどへの変換)