sen UTF-8化
Javaの日本語解析ライブラリ「sen」を使っています。
senのデフォルトの文字コードがEUC-JPなのですが、Javaから使用すると文字化けしたりすることがあるので、UTF-8に変更しました。
設定箇所は2箇所あります。
$SEN_HOME/dic/dictionary.properties
45行目付近
dic.charset=utf-8
// internal charset which is used in sen’s dictionary
//sen.charset=EUC-JP
sen.charset=utf-8
$SEN_HOME/conf/sen.xml
18行目付近
<charset>utf-8</charset>
<unknown>未知語</unknown>
とします。
また、$SEN_HOME/dic/dic.csvもUTF-8にする必要があるので、
cd $SEN_HOME/dic/
nkf -Ewc dic.csv > dic2.csv
mv dic2.csv dic.csv
などでUTF-8に文字コード変換します。
後は$SEN_HOME/dicでantを実行すればUTF-8化されます。
Posted in sen | No Comments
