mecab ユーザー辞書登録
http://mecab.sourceforge.net/dic.html
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
の形式で
music.csv
を作成
perfume,1361,1361,20,名詞,固有名詞,auction,music,*,*,perfume,パフューム,パヒューム 少女時代,1361,1361,20,名詞,固有名詞,auction,music,*,*,少女時代,ショウジョジダイ,ショウジョジダイ KARA,1361,1361,20,名詞,固有名詞,auction,music,*,*,KARA,カラ,カラ
/usr/local/lib/mecab/dic/naist-jdic/left-id.defを確認して1361を付けてみる。
コンパイル、csvも辞書も utf8のみ利用なので
$ /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/naist-jdic -u music.dic -f utf8 -t utf8 music.csv reading music.csv ... 3 emitting double-array: 100% |###########################################| done!
/usr/local/etc/mecabrcを ~/.mecabrcと自分のところにコピー
ユーザー辞書の場所を追記
userdic = /home/myuser/music.dic
実行してみる。
$ echo '来月perfumeの新曲が出るよ' | mecab 来月 名詞,副詞可能,*,*,*,*,来月,ライゲツ,ライゲツ,, perfume 名詞,固有名詞,auction,music,*,*,perfume,パフューム,パヒューム の 助詞,連体化,*,*,*,*,の,ノ,ノ,, 新曲 名詞,一般,*,*,*,*,新曲,シンキョク,シンキョク,, が 助詞,格助詞,一般,*,*,*,が,ガ,ガ,, 出る 動詞,自立,*,*,一段,基本形,出る,デル,デル,でる/出る, よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ,, EOS
な感じです。
phpからのapacheから利用する場合は、php.iniかini_setで
<?php ini_set('mecab.default_userdic', '/home/username/dic/music.dic'); $mecab = new MeCab_Tagger(); echo $mecab->parse('perfumeの新曲はなんですか');