GCE+mecab+Pythonで文章を分かち書きしたい

最終更新日:2021‐08-15

この環境設定手順はFastTextを使えるようになるまでの布石です。FastTextは学習データに分かち書きしたテキストデータが必要です。そのデータを生成するためにMecabを利用していきます。

python3 でmecabを使えるようにします

コマンドを打ち込んでいきます。

# ubuntu に mecab をインストール
sudo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic-utf8
which mecab
# PythonでMecabを使えるようにする
sudo apt install python3-pip
sudo pip3 install mecab
sudo pip3 install mecab-python3
sudo pip3 install unidic-lite

実際に試します

"python3"と打ち込むとコマンドプロンプトが「>>>」という状態になるので、順番にプログラムを打ち込んでいきます。スペースなど混入させないように注意します。

python3
import MeCab
mecab = MeCab.Tagger()
sentence = "すもももももももものうち"
print(mecab.parse(sentence))

以下のように表示されたら成功です。

すもも  スモモ  スモモ  李      名詞-普通名詞-一般                      0
も      モ      モ      も      助詞-係助詞
もも    モモ    モモ    桃      名詞-普通名詞-一般                      0
も      モ      モ      も      助詞-係助詞
もも    モモ    モモ    桃      名詞-普通名詞-一般                      0
の      ノ      ノ      の      助詞-格助詞
うち    ウチ    ウチ    内      名詞-普通名詞-副詞可能                  0
EOS

mecab = MeCab.Tagger()でエラーになる場合は、以下を参考にしてください。記事に感謝です。

HuggingFaceのBertJapaneseTokenizerで分かち書きしようとするとMeCabのinitializingで落ちたりencodeでも落ちたりする

以上です

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です