MinerUで実現する高精度PDF解析：Windows + GPU環境構築の完全ガイド

PDFからテキストを抽出する作業は、難しい課題を含んでいます。
特に、フォーマットの崩れや数式の誤認識が大きな問題となっています。

MinerUは、これらの問題を解決するオープンソースのPDFテキスト抽出ツールです。
このツールは、科学論文や技術文書に含まれる数式や複雑なレイアウトの処理を得意としています。

本記事では、WindowsでMinerUをGPUで活用する方法をご紹介します。
インストールから実行まで、順を追って解説していきます。

MinerUとは？

MinerUの主な特徴は以下の通りです。

ヘッダーやフッター、ページ番号を自動的に除去し、本質的な内容を抽出できます。

テキストの抽出は、人間が読む順序に従って行われます。
そのため、複雑なレイアウトでも問題なく処理できます。

数式はLaTeX形式で認識され、高精度な変換を実現しています。

表形式のデータはHTML形式で抽出されます。
その際、元の構造も適切に保持されます。

マルチカラムレイアウトの文書も、正確に解析することができます。

インストール手順

インストールには、いくつかの準備が必要です。
それでは、手順を見ていきましょう。

CUDA環境の準備

GPUを活用するには、まずCUDA環境を整える必要があります。

# 1. CUDA 11.8をNVIDIAの公式サイトからダウンロードしてインストール
# 2. cuDNN 8.7.0をダウンロードし、CUDA installdirectoryにファイルをコピー

# 3. Python仮想環境の作成
python -m venv MinerU
MinerU\Scripts\activate

# 4. 基本パッケージのインストール
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com

モデルファイルの準備

MinerUはテキスト抽出に機械学習モデルを使用します。
これらのモデルファイルは、次のコマンドで自動的にダウンロードできます。

# モデルダウンロード用パッケージのインストール
pip install huggingface_hub

# ダウンロードスクリプトの取得と実行
wget https://github.com/opendatalab/MinerU/raw/master/scripts/download_models_hf.py -O download_models_hf.py
python download_models_hf.py

GPU対応の設定

GPUを活用するには、追加のセットアップが必要です。
まず、GPU対応のPyTorchをインストールします。
その後、設定ファイルの調整を行います。

# GPU対応PyTorchのインストール
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

# OCRの高速化のためのPaddlePaddleのインストール（オプション）
pip install paddlepaddle-gpu==2.6.1

インストールが完了したら、次の作業を行います。
ユーザーディレクトリにあるmagic-pdf.jsonを開き、device-modeを"cuda"に設定します。
これにより、GPUの利用が可能になります。

動作確認

インストールが完了したら、サンプルPDFで動作を確認します。

# サンプルPDFのダウンロード
wget https://github.com/opendatalab/MinerU/raw/master/demo/small_ocr.pdf -O small_ocr.pdf

# PDFの変換実行
magic-pdf -p small_ocr.pdf -o ./output

言語を指定する場合は、以下のように指定します。

magic-pdf -l japan -p sample.pdf -o ./output_gpu

注意点とトラブルシューティング

GPUで利用する際は、以下の点に注意が必要です。

GPU メモリ（VRAM）は8GB以上が必要です。
メモリが不足する場合は、CPU版の利用をお勧めします。

バージョン0.9.x以降では、モデルの更新方法が変更されています。
更新が必要な場合は、上記のダウンロードスクリプトを再度実行してください。

インストール時に問題が発生した場合は、バージョンを確認します。
特に、CUDA 11.8とcuDNN 8.7.0の組み合わせが重要です。

まとめ

MinerUは、PDFからのテキスト抽出を高精度で行える強力なツールです。
そして、GPUの活用により、処理速度をさらに向上させることができます。

本記事のセットアップ手順に従えば、Windows環境でMinerUをGPU対応で利用できます。
科学論文や技術文書の処理に威力を発揮する本ツールを、ぜひお試しください。