文字認識
OCRソフトは文章が画像として保存されてるファイルから、文字を認識するアプリケーションであるが、その機能はどのようになされているものなのか。
まずOCRソフトには文字を認識する上で欠かせない言語がアプリケーションのデータベースにあらかじめ搭載されている。
その言語の数はそのOCRソフトによるが、だいたい20万語~30万語ぐらいの言葉がアプリケーションのデータベースに搭載されている。
そのうち日本語が15万語~20万語くらいで、英語が5万語~10万語ぐらいであり、この言語がつまったデータベースを基にしている。
OCRソフトの文字解析
OCRソフトが画像として保存されてるファイルから、認識するにはとてつもない数の言語がつまったデータベースの機能だけではできない。
画像ファイルから文字を抽出し、それとデータベースの中にあるたくさんの言語と整合する機能が必要となってくる。
そのために形態素解析という機能が搭載されており、これは非常に高い精度で解析できる。
たとえばファックスなどの認識しにくい文字や、新聞などのデコレートされた文字なども非常に高い精度で認識してくれる。
また、日本語と英語が混ざり合ってる文章や数値のデータが混ざり合っている文章にたいしてもOCRソフトは高い精度をほこる。
