オープンソース OCR システムの OCRopus を CentOS 5 で試す
Google Code にある OCR プロジェクトは tesseract-ocr と OCRopus がある。後者が後発で tesseract の文字認識プラグインを使っているらしい。ということで、TIFF ファイルの OCR を OCRopus で試してみる。 今回は CentOS 5 に入れてみた。ただ開発しているのは Ubuntu 上だそうだ。 ocropus - The OCRopus(tm) open source document analysis and OCR system - Google Project Hosting tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google. - Google Project Hosting GNU Aspell をインストール GNU Aspell からソースをダウンロード。 $ gunzip -c aspell-0.60.5.tar.gz | tar xvf - $ cd aspell-0.60.5 $ ./configure && make $ sudo make install ...