(´・ω・`)you are X-men






■環境構築
Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
のライブラリのインストールを参照。

個人的に詰まったのは、wget。
brew install wgetでインストールできるコマンドだってことを知らなくてな・・・。
あとはまあ、macでKNP ver4.18のインストールに失敗したけどなんとかした話に書いたので。


■実施
Doc2Vecを使用するまでの環境構築手順

実施例はこっちの方がいい。新しいので。
俺が行き詰まったとこの解決法も記載されていた。

発生したエラーと解決方法のmodel.docvecs.most_similar呼び出し時の話なんだけど、これ俺もやらかしたんだよね。要するに引数として与えたパスが正しくなかったらしいんだが、それが判別できるエラーメッセージじゃなかったのでここ見るまでわからなかった。

見た感じ、positive=[X]のXは学習させたファイルの並び順っぽいね。0なら1番最初に読ませたファイルが呼び出される、みたいな。

【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる

ここも参考に。メソッドとか一応ググればリファレンスは出てくるんだけど、英語なので日本語の実施例見ながら動かした方がいいと思う。
MeCabに食わす方はまだやってないのでこれから。



■参考
忘れそうなのでリンクメモ。

gensimのdoc2vecで文のベクトル表現を作り、その空間を試してみたい (2016-02-22) 
文章をベクトル化して類似文章の検索
コサイン類似度について

しかしこれ、学習データ増やす時は全部食わせ直さないといかんのかね。定期的に更新されるニュースみたいなデータセットで遊ぶ時は結構きつそう。
テキストファイルを7000食わせるだけで40分ぐらいかかるので・・・。まあ、有機化学実験とかと比べりゃ大したことないか・・・。俺、もともとそっち系だったんだけど、待ち時間が大嫌いでこっち来たのにな。