2020年6月2日時点で、ブログが53日間連続更新中です。
この記事で、54日連続となる予定です。
しかし、いまだに結果が出ません。
結果なんて、100記事書いてからという声も聞こえてきます。
中には、200記事書いてからがスタートだという人もいます。
実際、そういう部分はあると思います。
記事の投稿数が、ある程度は必要なのでしょう。
しかし、やみくもに量だけ追及するのもどうかと感じます。
そのため、もう少しテクニカルな部分も取り入れようと考えました。
もちろん、量が大前提というのは忘れていません。
ただ、何かしら改善を加えたいのです。
少しでも早く結果が出るためにできることは、やっておこうという精神です。
そこで、目を付けたのが「形態素解析」です。
この記事では、SEOに特化した形態素解析について説明していきます。
本記事の内容
- 形態素解析とは?
- 形態素解析に目を付けた理由
- 形態素解析のためのツール
この記事を読めば、形態素解析についての理解ができます。
我々が理解しておくべきは、SEOに関連した形態素解析についてです。
それでは、まずは形態素解析についての説明から行います。
形態素解析とは?
なるべく、簡単に説明します。
形態素解析について知ることが、我々のゴールではありません。
形態素解析をSEOに活かすことが、我々のゴールなのです。
例えば、電子レンジの中身については知る必要はありません。
しかし、電子レンジでできること、そしてその使い方は知っておく必要がありますよね。
それと同じように、形態素解析でできること、そしてその使い方は知っておきましょう。
そして、全部の使い方を知る必要はなく、SEOでの使い方を知っておくだけでよいのです。
少しは、気が楽になりましたか?
では、進めましょう。
形態素とは、意味を持つ言語の最小単位のことです。
さらに、SEOに限って言えば、形態素は「品詞」のみを対象にして問題ありません。
SEO的に言えば、「キーワード」ですね。
よって、形態素解析とは、キーワードを文章から抜き出すことに過ぎません。
SEO的に言えばです。
では、ここで形態素解析についての理解度をチェックしましょう。
次の文をSEO的に形態素解析してください。
形態素解析した結果は以下。
- 電気料金
- 電話料金
- 料金
電気料金は、「電気料金」という固有名詞があるので電気と料金に分けません。
これは、Google検索の結果からも明らかです。
※形態素解析で用いる辞書によっては分けるものもあります(→SEO的にはダメ)
なお、ひと昔前のSEOなら、「助詞」の利用もあったかもしれません。
「です」「ます」の違いを利用する考え方ですね。
今は、Googleの人工知能が賢くなり過ぎて、その違いは同じものだと解釈するでしょう。
形態素解析に目を付けた理由
私が形態素解析に目を付けたキッカケは、次の記事です。
新型コロナウィルスが富士通、NECにとどめをさす【AWSの人材募集を見て確信】
この記事は、私のブログでは圧倒的に1番人気です。
日に10件以上は、検索からの流入があります。
このブログが本格的に稼働したのは、2020年4月10日です。
2か月しか稼働していないブログにおいて、検索からの10件の流入はスゴイことです。
まさに、うちのブログのエースです。
以下は、2020年6月2日時点のGoogle検索結果。
キーワード | 順位 |
富士通 オワコン | 2位 |
NEC オワコン | 4位 |
NTTデータ オワコン | 4位 |
富士通 下請け | 10位 |
NEC 将来性 | 14位 |
富士通 将来性 | 24位 |
Google Search Consoleから、これらのキーワードを取得しています。
各順位は、どんどん上がっています。
なお、順位はSerposcopeにより、取得しています。
そして、このエース記事のアクセス結果を見て感じました。
「全然、私の意図とは違う」と。
記事作成の内容は、コロナによりクラウドが加速するというものです。
タイトルは、人目を引き付けるために付けただけです。
富士通・NEC・NTTデータは、AWS(クラウド)を引き立てるために言及しました。
これが、本来に狙ったキーワードです。
- コロナ AWS
- コロナ クラウド
- コロナ クラウド 加速
しかし、全く狙ったものとは結果が違いました。
そして、この事実より、キーワードの重要性を感じました。
もともと、キーワードの重要性は認識していました。
しかし、意図しないキーワードが検索上位に表示されるという事実に直面して衝撃を受けました。
そこで一つの仮説を考え付きました。
「上位表示は、意図しないキーワードでのモノが意外と多い」という仮説です。
つまり、「たまたま上位表示されたラッキー」説です。
それを調べるためには、上位表示されているページのキーワードを洗い出すことが必要です。
これは、もう形態素解析ですよね。
だから、形態素解析に目を付けたのです。
形態素解析のためのツール
ツールというよりは、解析器(エンジン)の紹介です。
有償のモノは、対象外です。
もちろん、日本語を対象とするものが対象です。
以下の3つをあげておきます。
- MeCab
- JUMAN++
- Sudachi
それぞれをプログラムから利用する形となります。
MeCabが、エンジニアにはもっとも使いやすいでしょう。
MeCabは、PHP、Python、Java、Ruby、C#でライブラリが用意されています。
つまり、一般的に利用されるプログラム言語なら、対応しているということですね。
JUMAN++は、PHPで利用するのは厳しいみたいです。
Python、Java、Rubyで主に利用する形になるのでしょう。
MeCabは、解析する速度と語彙数(辞書が充実)がどの形態素解析ツールよりも優れています。
それ以外は、JUMAN++の方が優れているということです。
結論としては、MeCabとJUMAN++の組み合わせ(ケースに応じて使い分ける)で十分だと思います。
Sudachiは、比較的新しい形態素解析ツールです。
今後の伸びシロに期待ということで。
まとめ
形態素解析をSEOに取り入れることについて説明してきました。
形態素解析と言っても、そんなに大袈裟なものではありません。
とりあえずは、文章から名詞(単語orキーワード)を取り出すことです。
これが、形態素解析のスタートです。
あくまでSEO的な形態素解析の話になります。
個人的には、形態素解析を利用して以下のことを検証したいです。
それとも、意図せずに書き入れたキーワードでたまたま表示されているのか?
実際、これを検証するのは無理かもしれません。
狙ったキーワードかどうかなんて、ページ作成者しかわからないことですから。
いくらtitleやdescriptitonと比較したところで・・・
ただ、形態素解析により、次のことは確認できそうです。
- 1ページあたりの名詞の数
- 名詞の比率(名詞の文字数/全文字数)
- 名詞の幅(属しているカテゴリー・トピック)
上位表示されているページのこれらの数値を分析します。
そうすれば、何か見えてくるかもしれません。