「形態素解析って何?」
「形態素解析をとりあえず試したい」
Pythonさえ使えれば、すぐに形態素解析を試せます。
そのために、この記事ではJanomeを紹介します。
本記事の内容
- Janomeとは?
- Janomeのインストール
- Janomeで形態素解析を試す
それでは、上記に沿って解説していきましょう。
Janomeとは?
Janomeは、「蛇の目」の意味からのようです。
このJanomeの特徴は、以下。
- Pure Python
- 依存ライブラリなし
- 辞書内包の形態素解析器
以上より、シンプルなライブラリだとわかります。
これだけシンプルなので、次のことが容易です。
- インストール
- アプリケーションへの組み込み
だからこそ、Windowsで簡単に形態素解析が可能となるのです。
気軽に形態素解析を始めるには、最適と言えるでしょう。
ただし、いいところばかりではありません。
少しマイナスの面にも触れておきます。
Pure Pythonとは、他の言語を利用せずにPythonだけで作られたライブラリということです。
C/C++の力を借りずに作られているとも言えます。
加えて、他ライブラリの依存もありません。
ということは、速度的にはそこまで期待すべきではないということです。
やはり、C/C++の力は偉大です。
C/C++の力を借りれば、GPUも利用できるようになります。
以下の記事では、PythonからGPUを利用する方法に関して解説しています。
以上が、「Janomeとは」の説明となります。
次に、このJanomeを簡単にインストールしていきましょう。
Janomeのインストール
Janomeの最新バージョンは、0.4.1となります。
この最新バージョンは、2020年9月21日にリリースされています。
最新バージョン0.4.1がサポートしているPythonのバージョンは、以下。
- Python 3.6
- Python 3.7
- Python 3.8
サポート対応しているバージョンは少ないので、注意してください。
私の環境では、以下です。
>python -V Python 3.8.6
セーフなので、とりあえず安心してインストールしましょう。
まあ、Python 3.9なら問題ないと思いますけどね。
ただ、Python 3.5はあえてサポート外にしているはずです。
そのため、Python 3.5へのインストールはやめておいた方がよいでしょう。
インストールに話を戻します。
最初に、現状のインストール済みパッケージを確認しておきます。
>pip list Package Version ---------- ------- pip 20.3.3 setuptools 51.1.2
次にするべきことは、pip自体の更新です。
pipコマンドを使う場合、常に以下のコマンドを実行しておきましょう。
python -m pip install --upgrade pip
では、Janomeのインストールです。
Janomeのインストールは、以下のコマンドとなります。
pip install Janome
インストールは一瞬で完了です。
では、どんなパッケージがインストールされたのかを確認しましょう。
>pip list Package Version ---------- ------- Janome 0.4.1 pip 20.3.3 setuptools 51.1.2
Janomeだけがインストールされたパッケージです。
確かに、依存ライブラリはありません。
以上、Janomeのインストールでした。
最後に、Janomeの動作確認を行いましょう。
Janomeで形態素解析を試す
公式サイトのサンプルを少し変更しています。
from janome.tokenizer import Tokenizer t = Tokenizer() str = "PythonでJanomeを使って形態素解析を試す" for token in t.tokenize(str): print(token)
上記コードを実行すると、以下の結果となります。
Python 名詞,一般,*,*,*,*,Python,*,* で 助詞,格助詞,一般,*,*,*,で,デ,デ Janome 名詞,一般,*,*,*,*,Janome,*,* を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 使っ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,使う,ツカッ,ツカッ て 助詞,接続助詞,*,*,*,*,て,テ,テ 形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ 解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 試す 動詞,自立,*,*,五段・サ行,基本形,試す,タメス,タメス
見事に形態素解析ができていますね。
ここまで簡単に形態素解析ができるのは、ありがたいことです。
以上は、Janomeに関する内容でした。
最後に、Mecabについて触れておきます。
Mecabは、ある意味形態素解析界の主役だと考えています。
だからこそ、次の記事でも紹介しています。
ただ、少しハードルが高いのです。
WindowsでMecabを動かそうと思ったら、インストールの時点でもつまずく可能性はあります。
その点、Janomeはpipコマンドだけでインストールが完了します。
依存ライブラリもないので、あっさりしたモノです。