オープンソース OCR システムの OCRopus を CentOS 5 で試す

Google Code にある OCR プロジェクトは tesseract-ocr と OCRopus がある。後者が後発で tesseract の文字認識プラグインを使っているらしい。ということで、TIFF ファイルの OCR を OCRopus で試してみる。 今回は CentOS 5 に入れてみた。ただ開発しているのは Ubuntu 上だそうだ。 ocropus - The OCRopus(tm) open source document analysis and OCR system - Google Project Hosting tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google. - Google Project Hosting GNU Aspell をインストール GNU Aspell からソースをダウンロード。 $ gunzip -c aspell-0.60.5.tar.gz | tar xvf - $ cd aspell-0.60.5 $ ./configure && make $ sudo make install ...

2007年12月22日 · Toshimitsu Takahashi

bash で四則演算

sh で四則演算はサポートされていないので、expr を使う。bash は次のように書ける。 #!/bin/bash add=$((1 + 2)) sub=$((1 - 2)) multi=$((5 * 2)) div=$((5 / 2)) mod=$((13 % 2)) echo $add echo $sub echo $multi echo $div echo $mod を実行すると、 3 -1 10 2 1 となる。

2007年12月21日 · Toshimitsu Takahashi

Google API translate java を試す

Google 翻訳サービスを Java から簡単に使える Java ライブラリが Google Code にある。 http://code.google.com/p/google-api-translate-java/ 非常に簡単。翻訳対象文字列と元言語、変換言語を指定するだけ。 import com.google.api.translate.Language; import com.google.api.translate.Translate; String ctn = Translate.translate(textEnglish, Language.ENGLISH, Language.JAPANESE); ctn = ctn.replace(" ", “\r\n”); 内部で Web サービスを呼んでいるためか改行は、 となって返ってくる。 ちなみに プロキシサーバが必要なときは下記のようにする。 class HttpAuthenticator extends Authenticator { private String user; private char[] pass; public HttpAuthenticator(String username, String password) { user = username; pass = password.toCharArray(); } protected PasswordAuthentication getPasswordAuthentication() { return new PasswordAuthentication(user, pass); } } System.setProperty(“http.proxyHost”, “proxy.host.com”); System.setProperty(“http.proxyPort”, “8080”); Authenticator.setDefault(new HttpAuthenticator(“username”, “password”));

2007年12月14日 · Toshimitsu Takahashi

MeCab + Senna + Tritonn で MySQL 全文検索を試す(2)

MeCab + Senna + Tritonn で MySQL 全文検索を試す - Tosshi Note の続き Google 風の検索 UI を実装してみた。 テーブルを作成 - SQL 1 2 3 4 5 6 7 8 9 CREATE TABLE fastsearch ( id INTEGER AUTO_INCREMENT, PRIMARY KEY (id), uri VARCHAR(512) NOT NULL, title VARCHAR(1024) NOT NULL, content MEDIUMTEXT, FULLTEXT INDEX USING NGRAM, SECTIONALIZE (title, content) ) DEFAULT CHARSET utf8 ENGINE = MyISAM; ※USING NGRAM をはずせば、MeCab の形態素解析になる。 ...

2007年12月5日 · Toshimitsu Takahashi

CentOS 5 でのネットワークの設定

ホスト名の設定 /etc/sysconfig/network NETWORKING=yes NETWORKING_IPV6=yes HOSTNAME=red IP の設定 /etc/sysconfig/network-scripts/ifcfg-eth0 # Advanced Micro Devices [AMD] 79c970 [PCnet32 LANCE] DEVICE=eth0 ONBOOT=yes #BOOTPROTO=dhcp HWADDR=00:0c:29:xx:xx:xx IPADDR=192.168.1.10 NETMASK=255.255.255.0 NETWORK=192.168.1.0 GATEWAY=192.168.1.1

2007年12月1日 · Toshimitsu Takahashi

Solaris 10 で NTP クライアントを設定する

クライアント設定ファイルを用意する。 # cd /etc/inet # cp ntp.client ntp.conf # vi ntp.conf マルチキャストを止めて、サーバを指定する。 # multicastclient 224.0.1.1 server ntp.xxxx.com サービスを有効にする。 # svcadm enable network/ntp ※補足 Non-global Zone では動作できない。 参考)3. システムの時刻関連サービス http://docs.sun.com/app/docs/doc/819-0381/6n2qghhdf?a=view

2007年11月4日 · Toshimitsu Takahashi

Solaris 10 でマルチホストホームに静的ルーティングを設定する

例えば DMZ などに存在する Web サーバのように NIC が2枚以上機能しているホストへの設定を行う。 Solaris では NIC が 2枚以上設定されているとパケット転送が働く。つまり、ルータになってしまう。転送を無効にしてルートを追加する。 IP フォワーディングを無効にする # routeadm -d ipv4-forwarding -u もしくは # svcadm disable ipv4-forwarding ※Solaris 9 以前は touch /etc/notrouter を行う。 経路制御テーブルに静的ルートを追加する # route -p add -net network-address -gateway gateway-address -p オプションを付けるとリブート後も保持される。 # route -p add -net 10.0.5.0/24 -gateway 10.0.5.150/24 add net 10.0.5.0: gateway 10.0.5.150 ルーティング・転送の設定確認 $ routeadm 構成 現在の 現在の オプション 構成 システム状態 --------------------------------------------------------------- IPv4 ルーティング enabled enabled IPv6 ルーティング disabled disabled IPv4 転送 disabled disabled IPv6 転送 disabled disabled ルーティングサービス “route:default ripng:default” ルーティングデーモン: STATE FMRI disabled svc:/network/routing/legacy-routing:ipv4 disabled svc:/network/routing/legacy-routing:ipv6 disabled svc:/network/routing/ndp:default disabled svc:/network/routing/rdisc:default disabled svc:/network/routing/ripng:default disabled svc:/network/routing/ripng:quagga online svc:/network/routing/route:default disabled svc:/network/routing/zebra:quagga disabled svc:/network/routing/rip:quagga disabled svc:/network/routing/ospf:quagga disabled svc:/network/routing/ospf6:quagga disabled svc:/network/routing/bgp:quagga ...

2007年10月28日 · Toshimitsu Takahashi

Apache mod_rewrite を使って、スクリプトファイルの拡張子を消してパーマリンクらしくする

Apache の httpd.conf に次のように定義する。 <IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule ^/(.*)$ /$1.php [L] </IfModule> リクエストファイルがファイルとしてもディレクトリとしても存在しなかったときに .php を付加すると定義してある。php で動的に作り出すページをパーマリンクらしくできる。

2007年10月22日 · Toshimitsu Takahashi

CentOS で NTFS フォーマットの HDD をマウントして読み書きする

ちょっと前まで、NTFS の書き込みは危険と言われていたが、最近は Fedora で標準サポートするなど使えそうなので試してみた。 NTFS RPMs Page not found | Tuxera を見てみる。http://old.linux-ntfs.org/content/view/257/92/ の NTFS RPMs からカーネルにあったパッケージを落としてインストール。 $ sudo rpm -ivh kernel-module-ntfs-2.6.18-8.1.14.el5-2.1.27-0.rr.10.11.i686.rpm FUSE, ntfsprogs FUSE というのがいるらしい。sourceforge から最新のソースを持ってくる。 http://nchc.dl.sourceforge.net/sourceforge/fuse/fuse-2.7.1.tar.gz Page not found | Tuxera の「Installing ntfsmount (generic)」を参考に進める。ntfsprogs もソースをダウンロードしてきてインストール。 $ tar zxvf fuse-2.7.1.tar.gz $ cd fuse-2.7.1 $ ./configure && make && sudo make install $ cd .. $ bunzip2 -c ntfsprogs-2.0.0.tar.bz2 | tar xvf - $ cd ntfsprogs-2.0.0 $ ./configure –enable-fuse-module && make && sudo make install ...

2007年10月20日 · Toshimitsu Takahashi

CentOS をホストに VMWare Server をインストールする

VMWare Server をダウンロード リンク先がわかりずらいが、 http://register.vmware.com/content/download.html から下記をダウンロードする。 Latest Version: 1.0.4 | 9/18/07 | Build 56528 VMware Server Windows client package VMware Server for Linux (rpm 版) Management Interface The VMware Server Web-based management VMware Server Linux client package パッケージをインストール $ sudo rpm -ivh VMware-server-1.0.4-56528.i386.rpm Password: 準備中… ########################################### [100%] 1:VMware-server ########################################### [100%] 設定に必要なものをインストール 設定時にコンパイルが走る。なければ gcc を入れる。また、カーネルのヘッダファイルが必要になるため、どうせなので最新に置き換えて devel も入れる。 # yum install gcc.i386 $ uname -rm 2.6.18-8.el5xen i686 # yum install kernel-devel.i686 # yum install kernel.i686 # reboot ...

2007年10月13日 · Toshimitsu Takahashi