OCRソフトで情報処理

PDFファイル編

OCRソフトは出力としてイメージデータとテキストデータの要素が両方入って透明テキスト付PDFファイルを用いる場合が多い。
これは、イメージデータの容量の少なさと、テキストデータの検索のしやすさが組み合わさったものである。

それは、2万円程度の価格で購入できる。
入力には「bmp・tiff・jpeg」が対応しており、出力は透明テキスト付PDFファイルの他エクセルやワードでも出力できる。

OCRソフトとPDFファイル

PDF(Portable Document Format)は、電子文書のためのフォーマットである。
以前はイメージファイルと同様で文章の検索などは出来なかったが、現在では文章の検索やコピーなどが可能になった。

これを読むのに必要なのがViewerであり、そのアドイン機能があるOCRソフトもある。
それらはViewerのアドイン機能があることで他のOCRソフトよりPDFファイルを扱いやすくなっているOCRソフトである。



その他関連ワード