Amazonのセラー（販売者・出品者）一覧を取得する方法【Pythonでスクレイピング】

最近、本当にAmazonの話題ばかりです。
あくまで、このブログ上ですけどね。

今回は、セラー（販売者・出品者）の情報を収集します。
情報とは正確に言うと、セラーIDです。

このセラーIDさえあれば、そのセラーの取り扱い商品の情報も収集できるでしょう。
また、販売者ページにもアクセス可能となります。

なお、技術的にはPythonでSeleniumを使います。
今回説明する方法によって、本日（2020年9月12日）時点で2466件のセラーIDを収集できました。
おそらく、ある程度の売上規模があるセラーの情報だと思います。

本記事の内容

AmazonのセラーIDを取得する目的
セラーIDを取得するプログラム仕様（スクレイピング仕様）
Amazonでスクレイピングする上での準備
セラーを取得するサンプルプログラム

それでは、上記に沿って説明していきます。

AmazonのセラーIDを取得する目的

まず、AmazonのセラーIDを取得する目的を説明しておきます。
一般的には、AmazonのセラーIDを取得するのは、同業他社だと思います。
転売ヤー（転売家）も含まれるでしょうね。

つまり、セラーID取得の目的は、競合の取扱い商品を調査することになります。
価格や商品説明、いろいろと調査する内容はあるのでしょう。

しかし、私は目的が異なります。
Amazonのサクラ（やらせ）レビューに対する怒りが、モチベーションになっています。
詳細は、次の記事をご覧ください。

目的は、セラーがやらせの黒幕かどうかを把握することになります。
セラーにさえ注目すれば、商品レベルで警戒する必要はなくなりますからね。

商品レベルでは、サクラチェッカーやレビュー探偵があります。
これらのサービスは、本当に素晴らしいサービスだと思います。
そのため、以下のようなプログラムを開発したぐらいです。

でも、これらを使う中で不備というか甘い部分を見つけました。
やらせレビュー（レビューをじっくり分析して判断）をサクラだと判定していなかったのです。

そこで、個人的に考えてある結論にたどりつきました。
商品自体に罪はなく、それを出品するセラーに罪があるのだと。

そうであれば、セラーを罪人かどうか判定すればいいのです。
そのため、まずはセラー一覧が必要になりました。

セラーIDを取得するスクレイピング仕様

スクレイピング対象となるセラー一覧のページから説明します。

スクレイピング対象ページ

Amazonのサイトにおいて、セラーを一覧で表示してあるページがあります。

導線の説明は、結構面倒です。
興味があれば、自分で見つけてください。
こういう作業は、スクレイピングのスキルUPにつながります。

なお、上記「パソコン・周辺機器」のセラー一覧は、以下のURLとなります。
https://www.amazon.co.jp/s/other?rh=n%3A2127209051&pickerToList=enc-merchantbin

これを「家電・カメラ」のセラー一覧画面にしたい場合はどうすればいいのか？
これについて説明します。

まず、Amazonのトップへアクセス。

ここでカテゴリーを「家電・カメラ」にして、検索ボタン（虫眼鏡）をクリック。
何も入力する必要はありません。

そうすると、URLが以下のように変更します。
https://www.amazon.co.jp/b?node=3210981

簡単に説明すると、「家電・カメラ」のカテゴリーIDが3210981ということです。
このカテゴリーIDを上記のURLにあてはめれば、「家電・カメラ」のセラー一覧が表示されます。

https://www.amazon.co.jp/s/other?rh=n%3A2127209051&pickerToList=enc-merchantbin
↓
https://www.amazon.co.jp/s/other?rh=n%3A3210981&pickerToList=enc-merchantbin

なお、「%3A」は「:」をURLエンコードしたモノです。
他のカテゴリーも同じ要領で対応できます。

ただし、「node=3210981」のようなパターンのみ対象です。
このパターンではないURL（カテゴリー）の場合は、セラー一覧がないということになります。

スクレイピング対象要素

セラーは、以下のタグで構成されています。

<li>
    <span class="a-list-item">
        <a class="a-link-normal" title="ECカレント" href="/s/ref=sr_in_-2_p_6_29?fst=as%3Aoff&amp;rh=n%3A2127209051%2Cp_6%3AA3KMNJ3DXW7OH6&amp;bbn=2127209051&amp;ie=UTF8&amp;qid=1599885710&amp;rnid=2150384051">
            <span class="refinementLink">ECカレント</span>
            <span class="narrowValue"> (4,738)</span>
        </a>
    </span>
</li>

「a-list-item」クラスを持つ要素を取得するだけで対応できます。
こうやって取得した要素内のaタグのhrefを取得します。

href内の「p_6%3AA3KMNJ3DXW7OH6」がセラーIDの部分となります。
URLエンコードする前は、「p_6:A3KMNJ3DXW7OH6」ということですね。

Amazonでスクレイピングする上での準備

実際にスクレイピングをしていきます。
ただ、その前にAmazonでスクレイピングを行う準備を整えておいてください。

Amazonでスクレイピングを行う心得
Amazonでスクレイピングを行う環境

Amazonでスクレイピングを行う心得

一応、Amazonの規約上ではスクレイピングが禁止されています。
ただ、その規約は意味がないと切り捨てています。
そのことを次の記事で詳しく説明しています。

Amazonでスクレイピングを行う環境

プログラムは、Pythonが大前提です。

その上で、Seleniumの利用が必須となります。
インストールから利用方法まで次の記事でまとめています。

セラーを取得するサンプルプログラム

コピペで動きます。
ただし、「CHROMEDRIVER = “chromedriver.exeのパス”」は書き換えてください。

import re
import bs4  
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

AMAZON_DOMAIN = "https://www.amazon.co.jp"
AMAZON_INIT = AMAZON_DOMAIN + "/gp/help/customer/display.html?nodeId=201909000"
CHROMEDRIVER = "chromedriver.exeのパス"

NODE_ID = "2127209051"
SELLER_LIST_URL = "https://www.amazon.co.jp/s/other?rh=n%3A" + NODE_ID + "&amp;pickerToList=enc-merchantbin"

# driver取得
def get_driver(init_flg):
    
    #　ヘッドレスモードでブラウザを起動
    options = Options()
    options.add_argument('--headless')


    # ブラウザーを起動
    driver = webdriver.Chrome(CHROMEDRIVER, options=options)
    
    if init_flg:
        # クッキー設定（軽いページ）
        driver.get(AMAZON_INIT)
        
        driver.implicitly_wait(5)
    
    return driver


# Amazonページ取得
def get_page_from_amazon(driver, url):
    
    # ターゲット
    driver.get(url)
    
    driver.implicitly_wait(10)  # 見つからないときは、10秒まで待つ
    
    text = driver.page_source
        
    # ブラウザ停止
    driver.quit()
    
    return text

# info取得
def get_info_from_text(text):
    soup = bs4.BeautifulSoup(text, features='lxml')
    
    try:
        info = []
        elems = soup.find_all(class_="a-list-item")
        
        for elem in elems:
            a_elem = elem.find("a")
            href = a_elem["href"]
            seller_id = get_search_value("Cp_6%3A(.*)&amp;bbn", href)
            
            info.append(seller_id)
            
        return info
    except:
        return None
    
def get_search_value(ptn, str):
    
    result = re.search(ptn, str)
    
    if result:
        return result.group(1)
    else:
        return None
    
if __name__ == "__main__":

    driver = get_driver(True)
    
    text = get_page_from_amazon(driver, SELLER_LIST_URL)

    info = get_info_from_text(text)

infoにセラーIDがリスト形式で入っています。
あとは、これを好みの形で保存してください。

私は、MongoDBに突っ込みました。
MongoDBについては以下が参考になります。