Windowsで簡単に形態素解析をする方法【Python + Janome】

Windowsで簡単に形態素解析をする方法【Python + Janome】 プログラミング

「形態素解析って何?」
「形態素解析をとりあえず試したい」

Pythonさえ使えれば、すぐに形態素解析を試せます。
そのために、この記事ではJanomeを紹介します。

本記事の内容

  • Janomeとは?
  • Janomeのインストール
  • Janomeで形態素解析を試す

それでは、上記に沿って解説していきましょう。

Janomeとは?

Janomeは、「蛇の目」の意味からのようです。
このJanomeの特徴は、以下。

  • Pure Python
  • 依存ライブラリなし
  • 辞書内包の形態素解析器

以上より、シンプルなライブラリだとわかります。
これだけシンプルなので、次のことが容易です。

  • インストール
  • アプリケーションへの組み込み

だからこそ、Windowsで簡単に形態素解析が可能となるのです。
気軽に形態素解析を始めるには、最適と言えるでしょう。

ただし、いいところばかりではありません。
少しマイナスの面にも触れておきます。

Pure Pythonとは、他の言語を利用せずにPythonだけで作られたライブラリということです。
C/C++の力を借りずに作られているとも言えます。
加えて、他ライブラリの依存もありません。

ということは、速度的にはそこまで期待すべきではないということです。
やはり、C/C++の力は偉大です。

C/C++の力を借りれば、GPUも利用できるようになります。
以下の記事では、PythonからGPUを利用する方法に関して解説しています。

以上が、「Janomeとは」の説明となります。
次に、このJanomeを簡単にインストールしていきましょう。

Janomeのインストール

Janomeの最新バージョンは、0.4.1となります。
この最新バージョンは、2020年9月21日にリリースされています。

最新バージョン0.4.1がサポートしているPythonのバージョンは、以下。

  • Python 3.6
  • Python 3.7
  • Python 3.8

サポート対応しているバージョンは少ないので、注意してください。
私の環境では、以下です。

>python -V
Python 3.8.6

セーフなので、とりあえず安心してインストールしましょう。
まあ、Python 3.9なら問題ないと思いますけどね。

ただ、Python 3.5はあえてサポート外にしているはずです。
そのため、Python 3.5へのインストールはやめておいた方がよいでしょう。

インストールに話を戻します。

最初に、現状のインストール済みパッケージを確認しておきます。

>pip list
Package    Version
---------- -------
pip        20.3.3
setuptools 51.1.2

次にするべきことは、pip自体の更新です。
pipコマンドを使う場合、常に以下のコマンドを実行しておきましょう。

python -m pip install --upgrade pip

では、Janomeのインストールです。
Janomeのインストールは、以下のコマンドとなります。

pip install Janome

インストールは一瞬で完了です。
では、どんなパッケージがインストールされたのかを確認しましょう。

>pip list
Package    Version
---------- -------
Janome     0.4.1
pip        20.3.3
setuptools 51.1.2

Janomeだけがインストールされたパッケージです。
確かに、依存ライブラリはありません。

以上、Janomeのインストールでした。
最後に、Janomeの動作確認を行いましょう。

Janomeで形態素解析を試す

公式サイトのサンプルを少し変更しています。

from janome.tokenizer import Tokenizer
t = Tokenizer()

str = "PythonでJanomeを使って形態素解析を試す"

for token in t.tokenize(str):
    print(token)

上記コードを実行すると、以下の結果となります。

Python    名詞,一般,*,*,*,*,Python,*,*
で    助詞,格助詞,一般,*,*,*,で,デ,デ
Janome    名詞,一般,*,*,*,*,Janome,*,*
を    助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
使っ    動詞,自立,*,*,五段・ワ行促音便,連用タ接続,使う,ツカッ,ツカッ
て    助詞,接続助詞,*,*,*,*,て,テ,テ
形態素    名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析    名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を    助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
試す    動詞,自立,*,*,五段・サ行,基本形,試す,タメス,タメス

見事に形態素解析ができていますね。
ここまで簡単に形態素解析ができるのは、ありがたいことです。

以上は、Janomeに関する内容でした。
最後に、Mecabについて触れておきます。

Mecabは、ある意味形態素解析界の主役だと考えています。
だからこそ、次の記事でも紹介しています。

ただ、少しハードルが高いのです。
WindowsでMecabを動かそうと思ったら、インストールの時点でもつまずく可能性はあります。

その点、Janomeはpipコマンドだけでインストールが完了します。
依存ライブラリもないので、あっさりしたモノです。

タイトルとURLをコピーしました