最終更新日：2021‐08-15

この環境設定手順はFastTextを使えるようになるまでの布石です。FastTextは学習データに分かち書きしたテキストデータが必要です。そのデータを生成するためにMecabを利用していきます。

python3 でmecabを使えるようにします

コマンドを打ち込んでいきます。

# ubuntu に mecab をインストール
sudo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic-utf8
which mecab

# PythonでMecabを使えるようにする
sudo apt install python3-pip
sudo pip3 install mecab
sudo pip3 install mecab-python3
sudo pip3 install unidic-lite

実際に試します

"python3"と打ち込むとコマンドプロンプトが「>>>」という状態になるので、順番にプログラムを打ち込んでいきます。スペースなど混入させないように注意します。

python3
import MeCab
mecab = MeCab.Tagger()
sentence = "すもももももももものうち"
print(mecab.parse(sentence))

以下のように表示されたら成功です。

すもも  スモモ  スモモ  李      名詞-普通名詞-一般                      0
も      モ      モ      も      助詞-係助詞
もも    モモ    モモ    桃      名詞-普通名詞-一般                      0
も      モ      モ      も      助詞-係助詞
もも    モモ    モモ    桃      名詞-普通名詞-一般                      0
の      ノ      ノ      の      助詞-格助詞
うち    ウチ    ウチ    内      名詞-普通名詞-副詞可能                  0
EOS

mecab = MeCab.Tagger()でエラーになる場合は、以下を参考にしてください。記事に感謝です。

HuggingFaceのBertJapaneseTokenizerで分かち書きしようとするとMeCabのinitializingで落ちたりencodeでも落ちたりする

以上です

shinya

技術の進化についていけていないシステムエンジニア。浅く広く、何でも大体はこなせるエンジニアで重宝されてる（つもり）。でもやっぱり特化した武器欲しい。
備忘録として記事を投稿していますが、少しでも誰かの助けになればと思います。
最近はプロジェクトでReact（TypeScript ）を触っています。

趣味でギター弾きます。

🐥code.eaglet.jp🐥

SEさん覚え書き。３歩歩くと忘れます。

GCE+mecab+Pythonで文章を分かち書きしたい

python3 でmecabを使えるようにします

実際に試します

関連

コメントを残すコメントをキャンセル

python3 でmecabを使えるようにします

実際に試します

関連

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル