ruby-robotの夢

cygwin-ruby,qgisの達人を目指す奮闘記

PDFの編集

効率化

保護されたPDFの編集は、基本的にするべきできない。
が、内容をコンパクトにまとめて紹介する等の許される範囲での編集のための処理方法を整理しておく。2020/12/19時点　DocuworksとAcrobatをインストールしている想定。

①Acrobatで印刷

○印刷、スクリーンコピー(OS)　×文字・画像コピー、画像出力、Word出力等
そこで、DocuworksDeskに印刷する。

②Docuworksでイメージに変換

TIFFにする(jpgは1ページ1ファイルになって面倒)。
TIFFの解像度は、高めにしておく。300dpiで概ね通常文書10ptが文字認識できるが、
もちろん完全ではない。
サイズ上限があり、300dpiなら50ページ程度にあらかじめ分割しておく。
時間はあまりかからない。

③Acrobaで文字認識する。

Acrobatから、TIFを開く。すると、文字認識したPDFが生成される。
そこそこ時間かかる。

④Acrobatでword出力等

wordでも、excelでも、PowerPointでも。
そこそこ時間かかる。

失敗しやすい注意点

②で、xdwを分割する場合、ファイル名がごちゃごちゃしないよう、短い名前とし、この作業のためのフォルダで実施する。
②、③で.は、Docuworksでxdwからpdfにすることもできるが、テキスト交じりになり、Acrobatで文字認識できない。Acrobatでは、画像のみのPDFが処理できる。
Docuworksでもテキスト認識、word、excel出力できるが、白黒画像のみが対象。また、認識精度は低いように思う。

改善できる可能性について

画像の段階で、あらかじめ、余白部分をトリミングすることも考えられる。Acrobatでまとめてトリミングしておくとよい。
Acrobat以外にも、いきなりPDFや、JustPdfといったソフトがある。これらの機能も確認する　とよい。JustPdfは、Acrobatよりも認識精度が高いようである。
保護の解除ソフトのようなものもあるらしい。