最終更新日:2021‐08-15
この環境設定手順はFastTextを使えるようになるまでの布石です。FastTextは学習データに分かち書きしたテキストデータが必要です。そのデータを生成するためにMecabを利用していきます。
python3 でmecabを使えるようにします
コマンドを打ち込んでいきます。
# ubuntu に mecab をインストール
sudo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic-utf8
which mecab
# PythonでMecabを使えるようにする
sudo apt install python3-pip
sudo pip3 install mecab
sudo pip3 install mecab-python3
sudo pip3 install unidic-lite
実際に試します
"python3"と打ち込むとコマンドプロンプトが「>>>」という状態になるので、順番にプログラムを打ち込んでいきます。スペースなど混入させないように注意します。
python3
import MeCab
mecab = MeCab.Tagger()
sentence = "すもももももももものうち"
print(mecab.parse(sentence))
以下のように表示されたら成功です。
すもも スモモ スモモ 李 名詞-普通名詞-一般 0
も モ モ も 助詞-係助詞
もも モモ モモ 桃 名詞-普通名詞-一般 0
も モ モ も 助詞-係助詞
もも モモ モモ 桃 名詞-普通名詞-一般 0
の ノ ノ の 助詞-格助詞
うち ウチ ウチ 内 名詞-普通名詞-副詞可能 0
EOS
mecab = MeCab.Tagger()でエラーになる場合は、以下を参考にしてください。記事に感謝です。
HuggingFaceのBertJapaneseTokenizerで分かち書きしようとするとMeCabのinitializingで落ちたりencodeでも落ちたりする
以上です
技術の進化についていけていないシステムエンジニア。浅く広く、何でも大体はこなせるエンジニアで重宝されてる(つもり)。でもやっぱり特化した武器欲しい。
備忘録として記事を投稿していますが、少しでも誰かの助けになればと思います。
最近はプロジェクトでReact(TypeScript )を触っています。
趣味でギター弾きます。