リトライトライ

デジタルマーケティングなどをお金をかけずに実践と趣味のための備忘録

Windows10(1703)でmecab-ipadic-NEologdをUTF8からShift-Jisへ変換

ことの始まり

とあるマーケティング活動で現場担当者から上がってくる日報をテキストマイニングし、商品評価の定量的なまとめなどをしようと考えたのが始まり。

日本語テキストマイニングは本で少し勉強し、RとRMeCabでやる方針にしたが、MeCabのipadicという辞書が古いということで今時な言葉を定期的に入れているというneologdを導入することに。

受け入れデータがCSVファイルでかつ全員WindowsマシンのためShift-JISのほうが今後のことを考えても安全だろうという判断でタイトルのような作業を実施。

 

手順メモ

Bash on Ubuntu on Windowsをインストール

ここは様々なサイトがあり、やり方はだいたい同じ。

Windows10マシンでなければデュアルブートや仮想化でUbuntuを立ち上げるしかない。

 

↓参考させていただいたサイト

qiita.com

 

 ②BashMeCabに関連するライブラリやipadicなどのパッケージをインストール 

 

↓参考させていただいたサイト

github.com

※このままインストール手順を行うとUTF8でdicファイルができてしまうので、git cloneまでして次の手順へ。

 

③make-mecab-ipadic-neologd.shのソースコードを書き換え

vimなどを使って/mecab-ipadic-neologd/libedec/make-mecab-ipadic-neologd.shのソースコードを表示する(無理やりWindows側からエディターで書き換えるとエラーが起きてUbuntuをインストールし直しなど大変な目に遭う(遭った))

 

ソースコードの中から「-f UTF8 -T UTF8」と表記されている部分を「-f UTF8 -T shift-jis」と書き換える(3箇所ありました)

 

Bashコンパイル

②のサイトのインストールと更新の手順を行う

これでできあがり。

 

⑤実際にdicファイルをWindowsで使えるようにコピペ

Windowsからは見えないディレクトリにdicファイルができあがっているので、「mecab-ipadic-neologd」をキーワードに検索するとdicファイルが入ったフォルダを発掘できる(実際にはデフォルトではC:\Users\xxxx\AppData\Local\lxss\rootfs\usr\share\mecab\dicにあるが、フォルダオプションを変更しないと見えない)ので、それをC:\Program Files (x86)\MeCab\dic\へコピーする。

 

人によりけりだと思うが、私はもともとのipadicをipadic-originalへリネームして、先程コピペしたフォルダをipadicへリネームした。

 

一応、すでに持っているテストcsvファイルでRMeCabText関数を実行したところ文字化けせずにある程度の分かち書きができた。また、「Android」という記述をアンドロイドと読みを理解していたので、一応新しい辞書になっていると思う。