OCRソフトで情報処理

文字認識

OCRソフトは文章が画像として保存されてるファイルから、文字を認識するアプリケーションであるが、その機能はどのようになされているものなのか。
まずOCRソフトには文字を認識する上で欠かせない言語がアプリケーションのデータベースにあらかじめ搭載されている。

その言語の数はそのOCRソフトによるが、だいたい20万語~30万語ぐらいの言葉がアプリケーションのデータベースに搭載されている。
そのうち日本語が15万語~20万語くらいで、英語が5万語~10万語ぐらいであり、この言語がつまったデータベースを基にしている。

OCRソフトの文字解析

OCRソフトが画像として保存されてるファイルから、認識するにはとてつもない数の言語がつまったデータベースの機能だけではできない。
画像ファイルから文字を抽出し、それとデータベースの中にあるたくさんの言語と整合する機能が必要となってくる。

そのために形態素解析という機能が搭載されており、これは非常に高い精度で解析できる。
たとえばファックスなどの認識しにくい文字や、新聞などのデコレートされた文字なども非常に高い精度で認識してくれる。
また、日本語と英語が混ざり合ってる文章や数値のデータが混ざり合っている文章にたいしてもOCRソフトは高い精度をほこる。



その他関連ワード