賢くなりたいトイプードルの日記

データサイエンス系の話をメインにしていきます

BERTとJUMAN++を環境構築して単語予測するまで

MacでBERTとJUMAN++の環境構築をして、単語予測をしてみた。

❯ sw_vers
ProductName:    macOS
ProductVersion: 11.5.2
BuildVersion:   20G95

ほとんどこちらの記事のままですが、2021年9月18日現在では若干異なる部分があったので、書いていきます。

JUMAN++をインストール

京都大学の黒橋・河原・村脇研究室の作成した強力な形態素解析器JUMAN++をインストール

brew install gcc
brew install boost
wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz
tar xjvf jumanpp-1.02.tar.xz
cd jumanpp-1.02
./configure
make
sudo make install
jumanpp -v
JUMAN++ 1.02

BERT日本語Pretrainedモデルを入れる

京都大学の黒橋・河原・村脇研究室のBERT日本語Pretrainedモデルを入れる

mkdir -p bert/japan_test
cd bert/japan_test
import urllib.request

kyoto_u_bert_url = "http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JapaneseBertPretrainedModel/Japanese_L-12_H-768_A-12_E-30_BPE.zip"
urllib.request.urlretrieve(kyoto_u_bert_url, "Japanese_L-12_H-768_A-12_E-30_BPE.zip")
unzip Japanese_L-12_H-768_A-12_E-30_BPE.zip

ライブラリをpipでインストール

!pip install pyknp
conda install -c conda-forge transformers
conda install pytorch torchvision -c pytorch

これで環境構築は完了。あとはこちらの記事の通りに(自分の場合はJupyterLabで)コードを書いてみるといけた。