mecab

全文検索機能をlike検索で動かしていたんだけどパフォーマンス悪くなる一方なので、単語テーブルを作ってなんちゃって全文検索をしようとした。(Twitterで見た)

okura を使うつもりだったんだけど、自分で追加した単語の品詞が全部BOS/EOSになるので泣く泣くmecabへ( ;´Д`)
okura、rubyで実装されておりともてポータビリティだったので残念。

mecab

http://qiita.com/ShingoOikawa/items/175be8a472ec8ed8a707
ソースからmecabを入れた場合は実行ファイルは下記になって、

$ which mecab 
/opt/local/bin/mecab

どの辞書を使うかは、/opt/local/etc/mecabrc に書いている。

自分で辞書を追加する

http://taku910.github.io/mecab/#install-unix
辞書データの更新 + インストールが必要と書いている。
以下のようなフォーマットのcsv

壁ドン,*,*,-11234,名詞
  • 11234はコストだかで低いほど選ばれやすい(よくわからん)

mecab辞書ディレクトリに入れてmecab-dict-indexを実行す。(辞書をutf8で入れている場合)
(生成されるdicファイルをmecabrc内に書けばインストールはいらないっぽい?)

$ /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t utf8
$ sudo make install

mecabに --d とかやれば任意の辞書を支えたりするのでテストできそう。