DanbooruタグのPythonによるスクレイピング

ここ最近は、Animagine XL 3.0を用いた検証を行っています。

このモデルは、噛めば噛むほど味が出るスルメのようです。
プロンプトを工夫すると、その分だけ反応を示してくれます。

そのプロンプトの工夫で言うと、年代タグがあります。

また、LoRA不要となるようなシリーズタグの存在もありますね。

このシリーズタグについては、87個を取得することができました。
次の記事でその一覧を紹介しています。

これだけでも、かなりの種類の絵柄を試すことができます。
でも、もっといろいろと試してみたいとなるわけなんですよね。

ということで、できる限りで多くのタグを集めてみます。

Danbooruのスクレイピング

方法としては、スクレイピングです。
スクレイピングと聞くと、ヤバいと思う人がまだまだいるかもしれません。

でも、スクレイピングは何も悪いことではありません。
そのことは、以下の記事で説明しています。

したがって、利用規約で禁止されていても平然とスクレイピングをしています。

当サイトでは、スクレイピングの記事がたくさんあります。
興味のある方は、ご覧ください。

Danbooruの話に戻すと、もちろん利用規約でスクレイピングに該当するようなことを禁止しています。

でも、非ログインでルールさえ守れば、このような規約は無視してOKです。

スクレイピングによるシリーズタグの取得

Danbooruのスクレイピングは、実は簡単とは言えません。
スクレイピングの対策は、実施されています。

結論から言うと、Seleniumを使わないと厳しいです。
Seleniumについては、次の記事で解説しています。

さらに、headless（ヘッドレス）モードもNGとなります。

headlessモードだと、Cloudflareで通行止めされます。
突破できる方法があるのかもしれませんが、今回はheadlessモードは諦めることにします。

仕様としては、次のタグページを検索した結果を取得するというモノになります。
https://danbooru.donmai.us/tags

検索条件は、以下。

1ページに20個のタグが表示されています。
そのため、改ページ対応も必要となります。

それらを考慮したのが、次のコードです。

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

class DanbooruScraper:
    def __init__(self, chromedriver_path, base_url, max_page, output_file, wait_time):
        self.base_url = base_url
        self.max_page = max_page
        self.output_file = output_file
        self.wait_time = wait_time
        chrome_service = Service(executable_path=chromedriver_path)
        options = Options()
        # options.add_argument("--headless")
        self.driver = webdriver.Chrome(service=chrome_service, options=options)

    def scrape_tags(self):
        with open(self.output_file, "w") as file:
            for page in range(1, self.max_page + 1):
                self.driver.get(f"{self.base_url}&amp;page={page}")
                time.sleep(self.wait_time)  # ページ間の待機時間
                tags = self.driver.find_elements(By.CSS_SELECTOR, "td.name-column a.tag-type-3")
                tag_names = [tag.text for tag in tags if tag.text and tag.text != '?']
                file.writelines([tag + "\n" for tag in tag_names])

    def close_driver(self):
        self.driver.quit()

# 使用例
chromedriver_path = "chromedriverのパス"
base_url = "https://danbooru.donmai.us/tags?commit=Search&amp;search%5Bcategory%5D=3&amp;search%5Bhide_empty%5D=yes&amp;search%5Border%5D=count"
max_page = 5
output_file = "scraped_tags.txt"
wait_time = 1 # 1秒待機

scraper = DanbooruScraper(chromedriver_path, base_url, max_page, output_file, wait_time)
scraper.scrape_tags()
scraper.close_driver()

ポイントを絞って、説明しておきます。
コードの詳細を知りたい場合は、ChatGPTに説明させましょう。
わからない場合は、ワンツーマンで教えてくれます。

「max_page = 5」でページ指定を行っています。
5ページなので、全部で人気の100タグが取得できます。

「wait_time = 1」により、サーバへの負荷を考慮しています。
これは、スクレイピングを行う際のルールです。
必ず守りましょう。

コードを実行すると、「scraped_tags.txt」に100個のタグが記録されているはずです。
もっとタグが欲しい場合は、 max_pageを調整してみてください。