日本語OCRの未来：LLMの時代における専用エンジンの課題

OCR（光学文字認識）技術は、大きな転換点を迎えています。
特に日本語OCRの分野では、従来の専用エンジンとLLM（大規模言語モデル）の性能差が顕著になってきました。

本記事では、実例を交えながら、OCR技術の現状と今後の展望について考察します。

専用OCRエンジンvsマルチモーダルLLM

実例による比較

GitHub - kotaro-kinoshita/yomitoku: YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.

YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language. - kota...

日本語特化型OCRエンジン「YomiToku」には、以下の特徴があります。

日本語に特化した4種類の専用モデル
7000文字以上の日本語文字認識
縦書きなど日本語特有のレイアウト構造解析
多様な出力形式（HTML、Markdown、JSON、CSV）

しかし、Google社の最新LLM「Gemini」との比較テストでは、興味深い結果が得られました。
実際の居酒屋メニューの画像を両システムで読み取った結果を見てみましょう。

メニューは以下の画面を利用しています。
https://www.canva.com/ja_jp/templates/EAFn3LySBRQ/

YomiTokuの出力結果（一部抜粋）

といあえず
:今ャス
枝豆
写真集き王子
きゅうり一本漬け
キムチ
*、チャンジャ

Geminiの出力結果（一部抜粋）

とりあえず
冷奴 300
枝豆 300
厚焼き玉子 300
きゅラリー本漬け 300
キムチ 380
チャンジャ 480

この結果から、以下のような差異が明確になりました。

YomiTokuの課題

「冷奴」を「今ャス」と誤認識
「厚焼き玉子」を「写真集き王子」と大幅な誤認識
価格の構造化が不完全
不要なマークアップや記号の混入

Geminiの特長

ほぼ完璧な文字認識精度
メニュー項目と価格の適切な紐付け
カテゴリー別の正確な構造化
クリーンな出力形式

Geminiを使用した実際のコード

以下は、Geminiを使用して画像認識を行う実際のPythonコードになります。

# 必要なライブラリのインポート
import google.generativeai as genai
import PIL.Image
from dotenv import load_dotenv, find_dotenv

_ = load_dotenv(find_dotenv())

# APIキーの設定
genai.configure()

# モデルの設定
model = genai.GenerativeModel('gemini-2.0-flash-exp')

# 画像の読み込みと分析の例
def analyze_image(image_path, prompt):
    # 画像の読み込み
    img = PIL.Image.open(image_path)
    # 画像の分析
    response = model.generate_content([img, prompt])
    return response.text

# 使用例
if __name__ == "__main__":
    # 画像ファイルのパスと分析したい内容のプロンプトを指定
    image_path = "menu.jpg"
    prompt = "画像からテキストを抽出してください。"
    result = analyze_image(image_path, prompt)
    print(result)

このコードを使用することで、簡単に高精度なOCR処理を実現できます。
なお、.envファイルが必要となります。