1200時間でわかった、RAGシステムの理想と現実 ― 学術論文が教えてくれない実装の真実

AIアプリケーションを作るとき、最初に直面する壁があります。
それは「どうやって自社のデータをAIに理解させるか」という問題です。

最近、Reddit上で興味深い投稿を見つけました。
あるエンジニアが1200時間以上かけてエンタープライズ向けRAGシステムを開発したのです。
そして、その過程で得た教訓を共有していました。

学術論文の理想と本番環境の現実のギャップ。
実際に機能する技術の組み合わせ。
これらについて、詳細に語られていたのです。

今回は、その投稿とコミュニティの反応から、実践的なRAGシステム構築の要点を整理してみます。

RAGの本質：カスタムモデルは不要

多くの人が誤解していることがあります。
AIアプリケーションの開発には、独自のモデル訓練が必要だと思い込んでいるのです。

しかし現実は違います。
ほとんどの商用AIアプリケーションは、既存モデルをそのまま使っています。

OpenAI、Google、Anthropic、xAIなどの大手プロバイダー。
あるいはLlamaやMistralのようなオープンソースモデル。
これらを活用しているのです。

なぜか？
モデルの訓練には膨大なリソースが必要だからです。
しかも、最先端モデルの性能差は急速に縮まっています。

では、開発者は何をするのか。
答えはRAG（Retrieval Augmented Generation）です。

既存のモデルに適切なデータを与える。
そして、望む答えを引き出す。
この技術を磨くことが本質なのです。

データの前処理：すべてはMarkdownへ

企業のデータは混沌としています。

SharePoint、Notion、Confluence。
PDF、Office文書。

形式はバラバラです。

投稿者が辿り着いた解決策はシンプルでした。
すべてをGitHub Flavored Markdown（GFM）に変換するのです。

なぜMarkdownなのか？
平文でありながら、構造を持っているからです。

見出し、リスト、階層的な特徴。
LLMはこの形式を非常によく理解します。

変換パイプラインの構築には、以下のような工夫が必要でした：

PDFからMarkdownへの変換：Gemini 2.5 Flashを使用
Office文書の処理：Gotenbergというツールを活用
不要な要素の除去：改行、フォーマット情報、ヘッダー、フッター

重要なのは、単なる変換ではありません。
「クリーンアップ」が必要なのです。

検索の邪魔になる要素を丁寧に除去していきます。

チャンキング：文脈を失わない分割術

LLMにはコンテキストウィンドウの制限があります。
かといって、すべてのデータを詰め込むわけにもいきません。

コストが跳ね上がります。
性能も劣化します。

チャンキング手法には様々なアプローチがあります。
投稿者が最も効果的だと判断したのは「Document-Based Chunking」でした。

Markdownの構造に基づいて分割する方法です。
見出し、段落、コードブロック。
これらを単位として切り分けます。

しかし、ここで大きな問題が発生します。

「ベルリンの人口は385万人を超え…」
この文章があったとします。

この部分だけを切り出したら？
「ベルリン」という主語が失われてしまうのです。

文脈パスの追加という解決策

この問題に対する解決策が秀逸でした。

MarkdownのAST（抽象構文木）から階層構造を抽出します。
そして、各チャンクの先頭にパンくずリストとして追加するのです。

# 例：段落が "Berlin > History > Prehistory" の階層にある場合
context_path = "Berlin > History > Prehistory"
chunk_with_context = f"{context_path}\n\n{chunk_content}"

さらに工夫があります。
文書がフォルダ構造の中にある場合は、フォルダパスも含めます。

これにより、どんな小さなチャンクでも元の文脈を保持できるようになりました。

エンベディング：Late Chunkingという革新

テキストを数値ベクトルに変換するエンベディング。
これはRAGの心臓部です。

しかし、ここにも落とし穴があります。

従来のアプローチを見てみましょう。
まず文書をチャンクに分割します。

それぞれを個別にエンベディングします。
でも、これでは文書全体の文脈が失われてしまいます。

Late Chunkingは、この順序を逆転させます：

# 従来のアプローチ
chunks = chunk_document(full_document)
embeddings = [embed(chunk) for chunk in chunks]  # 個別にエンベディング

# Late Chunkingアプローチ
chunks = chunk_document(full_document)
contextual_embeddings = embed(chunks)  # 全チャンクを一緒にエンベディング

全体を考慮しながら各部分のエンベディングを作成する。
これにより、より文脈を反映したベクトル表現が得られるのです。

階層的検索：二段階で絞り込む

投稿者が特に強調していたのが、階層的な検索戦略です。

第一段階では、文書レベルでの候補を絞り込みます。
文書の要約エンベディングを使います。

全文検索も組み合わせます。
こうして関連する可能性のある文書を特定するのです。

第二段階はどうでしょうか。
選ばれた文書内のチャンクに対して詳細な検索を実行します。

セマンティック検索とキーワード検索。
この二つをハイブリッドでスコアリングします。

この方法のメリットは明確です。
数百万の文書から効率的に関連情報を見つけ出せるようになりました。

HyDEとクエリ拡張

ユーザーのクエリは多くの場合、短く曖昧です。

「四半期結果」とだけ入力される。
何の四半期結果なのか分かりません。

HyDE（Hypothetical Document Embeddings）は、この問題に対する巧妙な解決策です。
仕組みはこうです。

ユーザーのクエリに対する仮想的な回答を生成します。
その回答のエンベディングを使って検索するのです。

# 通常のアプローチ
query_embedding = embed("四半期結果")

# HyDEアプローチ  
hyde_answer = llm.generate("四半期結果にはどんな内容が含まれる？")
# → "四半期結果には売上高23億円、利益率15%..."
hyde_embedding = embed(hyde_answer)

短いクエリと詳細な文書のギャップ。
これを埋める、エレガントな手法です。