【NLP】日本語Word2Vecの学習済みモデルの設定

白ヤギさんのWiki全文学習モデル

バイトの関係で日本語のWord2Vecを使い必要が出て来た。
どうやらバイト先では、白ヤギコーポレーションが出している、Wiki全文を学習させたモデルを使うことが慣例になっているらしい。 今回はそのモデルを使ってWord2Vecの類義語の発見を行ってみた。 また、ついでにPyCharmでそのvenvを用いれるように設定した。

ローカルに保存するまでの手順

まずはモデルのダウンロード

基本的にはGithubの指示に従えばいいです。保存したいパスまで移動してgit cloneします。

$ mkdir shiroyagi
$ cd shiroyagi/
$ git clone https://github.com/shiroyagicorp/japanese-word2vec-model-builder.git

終わったら、そのディレクトリに移動して、サブモジュールの初期化を行います。

$ cd japanese-word2vec-model-builder/
$ git submodule init
$ git submodule update

そのあとは仮想環境の設定に入ります。 一応バージョンとかの関係もあるので、ここでは白ヤギ専用に環境を別に作ったほうがいいかなと思いました。

$ python3 -m venv .env

そのあとは、requirements.txtに書かれたモジュールを仮想環境にじゃんじゃか入れていきます。

$ . .env/bin/activate
$ pip3 install -r requirements.txt

ちなみに仮想環境はdeactivateで終了できますよね。

$ deactivate

さて、最後にモデルをダウンロードしますが、これがかなり重い...最悪二時間弱かかります。また、PCもすごい熱くなりますw
またどうやらmecabも自動で入るらしいので、以前mecab入れてたのでなんか変なことにならなければいいんですけど。
例えば、ダウンロード中に以下のように表示されました。

[install-mecab-ipadic-NEologd] : Install completed.
[install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/Users/hattoriatsuki/Documents/Git/source_python/shiroyagicorp/japanese-word2vec-model-builder/output/dic' as a value of '-d' option of MeCab.
[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
    $ mecab -d /PATH/shiroyagicorp/japanese-word2vec-model-builder/output/dic ...

これでとりあえずローカルに保存するのは終わり。

PyCharmで使えるようにする

次のような手順を踏めば良い。

  1. preferencesを開く
  2. project Interpreter横の歯車アイコンをクリック
  3. Add local
  4. Existing environmentを選択
  5. Interpreter欄に/path/japanese-word2vec-model-builder/.env/bin/python3を入力
  6. OK

以上のようにすると、japanese-word2vec-model-builder/内のvenvactivateになる

参考

github.com

qiita.com

atc.hateblo.jp