RAGアーキテクチャ設計の落とし穴：複数パイプラインは本当に必要か

Redditの開発者コミュニティで、RAGシステムの設計に関する議論が盛り上がっていました。

投稿者はコンピュータサイエンス専攻の大学3年生です。
研究者向けのオールインワンワークスペースを構築中とのこと。

具体的には、論文検索、ローカルノートへの質問応答、PDF分析、ライティング支援を一つのツールにまとめるプロジェクトです。
かなり野心的な内容ですよね。

この議論の中身が、RAGシステム設計における「あるある」な悩みを凝縮していて面白かったので、本記事では、そこから得られる設計上の教訓を整理してみます。

「全部入り」アーキテクチャの誘惑

投稿者の設計は、データソースごとに異なる検索パイプラインを用意するものでした。

ローカルノートにはBM25とベクトル検索のハイブリッド方式を使います。
研究論文PDFには再帰的・階層的検索とページインデックスを組み合わせます。

Web検索にはAPIと要約プロンプトを採用します。
そして、どのパイプラインに振り分けるかをLLMエージェントが判断するルーターも組み込む予定だったそうです。

一見すると、各データソースの特性に合わせた合理的な設計に思えます。
しかし、投稿者自身が「これはやりすぎでは？」と疑問を持っていました。

チュートリアルで見かけた高度なテクニックを片っ端から詰め込んでしまう「チュートリアル地獄」の罠にハマっているかもしれない、と。
この自覚は正しかったようです。

議論の中で最も支持を集めたアドバイスは明快でした。
パイプラインを分けるのではなく、一つのハイブリッドストア（BM25＋ベクトル検索）にまとめる。

そして、メタデータのタグ付けをしっかりやる。
これだけでいい、と。

ソースの種類、ページ番号、セクション名といったメタデータを各チャンクに付与しておきます。
すると、引用機能もルーティングもほぼ自動的に実現できるとのことです。

パイプラインを分けたときの「見栄えの良さ」は、そのまま保守コストの高さに直結します。
だからこそ、シンプルな構成が推奨されていました。

この指摘はRAGに限った話ではありません。
ソフトウェア設計全般に通じる原則でもあります。

複雑さは必要に迫られてから導入すべきであり、先回りして追加するものではないでしょう。

投稿者が計画していたLLMベースのクエリルーターについても、議論は否定的でした。

LLMを呼び出してルーティングを判断させると、それだけでレイテンシが数秒増えます。
ユーザー体験にも影響しますし、デバッグも難しくなります。

それよりも、シンプルな分類器やキーワードベースの振り分けのほうが実用的だという意見が多く見られました。
もちろん、LLMルーターが威力を発揮するケースもあります。

しかし、プロジェクトの初期段階で導入する必然性は低いでしょう。
まずルールベースで動かす。
そして、実際のクエリパターンを観察してから判断しても遅くはないはずです。

研究論文のような長文PDFに対する再帰的検索（親子チャンキング）は、確かに精度向上に貢献しえます。

セクション単位の認識がないと、文献レビューとメソッドセクションの内容が混在してしまいます。
その結果、的外れな回答が返ってくることもあるからです。

ただし、標準的なチャンキングに20%程度のオーバーラップを設定する。
そこにセクションレベルのメタデータを付与する。

これだけで精度の80%はカバーできるという意見もありました。
残り20%の精度向上のために複雑な階層構造を導入する価値があるかは、プロジェクトの目的次第でしょう。

ページインデックスについても同様です。
引用のためにページ番号を特定したいのであれば、チャンクのメタデータにページ番号を含めるほうがはるかに手軽です。
ページ単位のインデックスを別途構築するのは、コストに見合わない場面が多いと考えられます。

もう一つ、実践的なアドバイスとして目を引いたのが「早い段階から体系的にテストせよ」という声です。
アーキテクチャの優劣を議論で決めるのではなく、実際にテストケースを走らせる。

そして、結果で判断する。
この姿勢がRAG開発では特に重要になります。

検索精度はクエリの種類やドキュメントの性質に大きく左右されます。
理論上は優れたアプローチでも、自分のデータセットでは期待ほどの効果が出ないことも珍しくありません。
逆に、シンプルな方法が意外な好成績を収めるケースもあります。

今回のRedditでの議論を通じて浮かび上がるのは、RAGシステム設計における一つの原則です。
「必要最小限の複雑さで始め、データに基づいて拡張する」ということですね。

具体的には、次のようなアプローチが現実的でしょう。

まず、一つのハイブリッド検索ストアにすべてのデータソースを統合します。
メタデータのタグ付けで、ソース種別やセクション、ページ番号を管理します。

ルーティングはキーワードや分類器ベースで実装する。
LLMルーターは後から検討すればいいのです。

チャンキングは標準方式＋適切なオーバーラップから始めます。
精度が不足した場合にのみ、階層構造の導入を検討してください。

この順序を守れば、動くプロトタイプを素早く手に入れられます。
そこから先は、実際の利用データが「どこを複雑にすべきか」を教えてくれるはずです。

RAGシステムの設計は、利用可能なテクニックが増えるほど「全部入り」の誘惑が強くなります。

しかし、複雑さはそれ自体がコストを生みます。
保守の負担、デバッグの難しさ、そしてレイテンシの増大です。

今回の議論が示しているのは、シンプルな設計＋良質なメタデータという組み合わせの強さです。
多くの場面で、複雑なマルチパイプライン構成に匹敵する成果を出せます。
技術選定は「使えるから使う」ではなく、「必要だから使う」で判断しましょう。

特にプロジェクトの初期段階では、動くものを早く作る。
テストで検証する。
必要に応じて進化させる。
このアプローチが最も効率的でしょう。

完璧なアーキテクチャを最初から設計しようとする試みは、多くの場合、完成しないアーキテクチャを生み出すだけに終わってしまいます。