cabochaのインストール
最新版はうまくmakeできなかったので0.60をインストールした。
CRF++が必要なのでまずそれをインストール
wget http://kent.dl.sourceforge.net/sourceforge/crfpp/CRF++-0.51.tar.gz
tar xzvf CRF++-0.51.tar.gz
cd CRF++-0.51
./configure
make
sudo make install
##ldconfigもしたかな。。
cabochaのインスコ
wget http://cabocha.googlecode.com/files/cabocha-0.60.tar.gz
tar zxvf cabocha-0.60.tar.gz
cd cabocha-0.60
./configure --with-charset=UTF8 --enable-utf8-only
make
sudo make install
sudo /sbin/ldconfig
試す
$ cabocha
すもももももももものうち
すももも-D
ももも---D
ももの-D
うち
EOS$ cabocha -f1
すもももももももものうち
* 0 1D 0/1 0.859394
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ O
も 助詞,係助詞,*,*,*,*,も,モ,モ O
* 1 3D 0/1 0.544641
もも 名詞,一般,*,*,*,*,もも,モモ,モモ O
も 助詞,係助詞,*,*,*,*,も,モ,モ O
* 2 3D 0/1 0.000000
もも 名詞,一般,*,*,*,*,もも,モモ,モモ O
の 助詞,連体化,*,*,*,*,の,ノ,ノ O
* 3 -1D 0/0 0.000000
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ O
EOS
ソースの中にperlバインディングもあるのでインストールして使ってみた。
use strict; use warnings; use Data::Dumper; use CaboCha; my $sentence = "太郎はこの本を二郎を見た女性に渡した。"; my $c = new CaboCha::Parser; my $tree = $c->parse($sentence); print $tree->toString($CaboCha::FORMAT_TREE); print $tree->toString($CaboCha::FORMAT_LATTICE);