mecab
全文検索機能をlike検索で動かしていたんだけどパフォーマンス悪くなる一方なので、単語テーブルを作ってなんちゃって全文検索をしようとした。(Twitterで見た)
okura を使うつもりだったんだけど、自分で追加した単語の品詞が全部BOS/EOSになるので泣く泣くmecabへ( ;´Д`)
okura、rubyで実装されておりともてポータビリティだったので残念。
mecab
http://qiita.com/ShingoOikawa/items/175be8a472ec8ed8a707
ソースからmecabを入れた場合は実行ファイルは下記になって、
$ which mecab /opt/local/bin/mecab
どの辞書を使うかは、/opt/local/etc/mecabrc に書いている。
自分で辞書を追加する
http://taku910.github.io/mecab/#install-unix
辞書データの更新 + インストールが必要と書いている。
以下のようなフォーマットのcsvを
壁ドン,*,*,-11234,名詞
- 11234はコストだかで低いほど選ばれやすい(よくわからん)
mecab辞書ディレクトリに入れてmecab-dict-indexを実行す。(辞書をutf8で入れている場合)
(生成されるdicファイルをmecabrc内に書けばインストールはいらないっぽい?)
$ /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf8 $ sudo make install
mecabに --d とかやれば任意の辞書を支えたりするのでテストできそう。