データ分析

データ分析

【Python】ベイズ統計を実践できるPyStanのインストール

Pythonでベイズ統計を行うには、PyStanがその選択肢となります。PyStanを利用することにより、StanへPythonからアクセスすることが可能となります。この記事では、Ubuntu上でPyStanを動かすための手順を解説しています。
データ分析

Windowsにおけるmecab-ipadic-NEologdの利用

mecab-ipadic-NEologdの更新は、Windows単体ではできません。Linux上で作成・更新した辞書をWindowsへコピーすることが、一般的な形でしょう。しかし、コピーはディスクの無駄使いになります。この記事では、この無駄をやめる方法について解説しています。
データ分析

【Python】Stanza(旧StanfordNLP)のインストール

Pythonには、自然言語処理において複数の選択肢が存在しています。 その中でも、新興勢力とでも言うべきモノにStanzaがあります。 この記事では、そのStanzaについて説明していきます。 本記事の内容 Stanza...
データ分析

【Python】キーフレーズ抽出のためにpkeをインストールする

キーフレーズ抽出をPythonで行うなら、pkeがその選択肢となります。この記事では、そのpkeをインストールして動かせるまでを解説しています。サンプルコードも載せているため、Pythonの初心者でもすぐにキーフレーズ抽出ができるようになれます。
データ分析

【Python】キーワード抽出が可能なTermExtractのインストール

Pythonでキーワード抽出をしたことがありますか?もしくは興味がありますか?それなら、TermExtractを試してみてください。問題(公式サイトが古い、pipが使えないなど)はありますが、なかなかの精度でキーワード抽出をしてくれます。この記事では、TermExtractについて解説しています。
データ分析

遅いWord2vec・fastTextのモデルをMagnitude形式に変換

その差がなんと、260倍!!Magnitudeの爆速を体感したら、Word2vecもfastTextも遅くて使いたくないでしょう。この記事では、Magnitude形式のモデルに変換する方法を解説しています。処理速度の比較表も載せています。
データ分析

【Python】fastText(Gensim)による学習済み日本語モデルの利用

fastTextに希望を抱いた人がいるかもしれません。名前に「fast」が入っているぐらいですから。この記事では、学習済み日本語モデルを利用して、fastTextの処理速度を検証した結果を説明しています。希望した通りの結果になったでしょうか?それとも・・・
データ分析

上場企業リスト(EDINETコード・証券コード)の取得方法【Python】

上場企業リストが金融庁からCSVで公開されているのを知っていましたか?そのCSVには、EDINETコードと証券コードが含まれています。この記事では、そのCSVを取得する方法を解説しています。さらには、システムで使い勝手のよいようにCSVを加工する方法も載せています。
データ分析

上場企業(3842社)が契約するレンタルサーバーを調査した結果

上場企業のWebサイトが利用するレンタルサーバーを調査しました。その調査結果は、バラエティー豊かで面白い結果となりました。この記事では、調査方法の内容とその結果を解説しています。そして、それらの結果をもとにおススメできるレンタルサーバーを紹介しています。
データ分析

【UTF-8は何%?】上場企業(3842社)サイトの文字コードを調査した結果

上場企業Webサイトの何%がUTF-8に対応していると思いますか?この記事では、3842社のWebサイトを調査した結果を解説しています。HTTPヘッダーのContent-Type、meta要素のcharset属性などから、UTF-8対応の状況を調べています。
タイトルとURLをコピーしました