トークン代が10分の1に：ローカルLLMとClaude Codeを組み合わせる新常識

AIコーディングエージェントは開発者の生産性を大きく向上させました。
しかし、実際に使ってみると気づくことがあります。

コードを書く時間は減った。
なのに、プロンプトの調整やレビューに追われている、と。

先日、Redditで興味深い投稿を見つけました。
15年のキャリアを持つソフトウェアエンジニアの記事です。

その内容は、Claude Codeを完全自律運用しながらトークンコストを90%削減した手法でした。
本記事では、その内容を整理してお伝えします。

AIエージェントが抱える生産性のパラドックス

AIエージェントには2つの大きな制約があります。

コンテキストを失いやすいこと。
そして、トークンを節約しようとする傾向があること。
この2つが組み合わさると、厄介な問題が発生します。

投稿者は次のように述べています。

AIツールがコード作成の時間を節約する。
一方で、プロセス管理に時間を浪費する。
この生産性のパラドックスが生まれる

結局、何度もプロンプトを書き直す。
出力をレビューする。

そんな作業に時間が奪われる。
自分でコードを書いた方が早いのでは？そう思う瞬間すらあるでしょう。

この感覚に共感する開発者は少なくないはずです。

9ステップの自動化ワークフロー

投稿者は試行錯誤の末、以下のワークフローを確立しました。

ステップ0
明確化のための質問を生成します。
そして、ブランチをセットアップ。
曖昧なまま作業を始めると、後で大きな手戻りが発生するからです。

ステップ1
洗練されたPROMPT.mdを生成します。
このファイルがタスク全体の指針となります。

ステップ2
タスクを小さなサブタスクに分解。
大きなタスクをそのまま渡すと、エージェントは混乱しやすくなります。

ステップ3
依存関係を分析します。
そして、実行計画（DAG）を作成。
どのタスクを先に実行すべきか、順序を明確にする段階です。

ステップ4
各タスクの詳細なTODO.mdを生成します。

ステップ5
実際の実行フェーズ。
リサーチからコンテキスト収集、そして実装へと進みます。

ステップ6
各タスクごとのコードレビューを実施。

ステップ7
すべての変更に対してグローバルなバグスイープを行います。
個別のレビューでは見落としやすい問題を、ここでキャッチするわけです。

ステップ8
最終コミットとプルリクエストの作成を完了させます。
このワークフロー自体を自動化したツールが「Claudiomiro」です。
GitHubで公開されています。

ローカルLLMとの連携でコストを90%削減

さらに興味深いのは、コスト削減のアプローチです。

投稿者は問いかけます。
「すべてをClaudeに送る必要があるのか？」と。

ローカルLLMでテキストを要約する。
必要な情報だけを送れば良い。
この発想に基づき、OllamaとQwen2を組み合わせた実装を行いました。

ローカルLLMが前処理を担当する。
Claudeには本当に必要な情報だけを渡す。
結果として、トークンコストを最大90%削減できたそうです。

コメント欄でも、このパラダイムシフトに注目する声が多く見られました。
「ローカルの安価なLLMと強力なリモートLLMを組み合わせる。このアプローチは、今後の主流になるだろう」という意見が共感を集めています。

別のアプローチ：ローカルLLMを主役にする

コメント欄では逆のアプローチを提案する人もいました。

ローカルLLMにメインの作業を任せる。
Claudeはシニアエンジニア役として、レビューや指示に専念させる。
そんな手法です。

この方法なら、ローカルLLMは時間やリソースを気にせず作業できます。
準備ができた段階でClaudeに確認を求める。
プルリクエストのレビュアーのような役割を担わせるわけです。

ただし、慎重な見方を示すコメントもありました。
「Claudeはシニアエンジニアとしての役割にそこまで向いていない。プランをGPTに見せると、問題点を指摘されることが多い」と。

モデルの特性を理解した上で、適切な役割分担を考える必要があるでしょう。

実際に使ってみた人の声

コメント欄には、実際にClaudiomiroを試した人の報告もありました。
「数時間使ってみたが、本当に良い」という好意的な感想が寄せられています。

一方で、問題が発生するケースも報告されています。
あるユーザーは、ロガーライブラリの実装を依頼しました。

13のタスクに分解されたものの、タスク6で最大試行回数に達して停止。
自動化の限界も見えてきます。

また、コンテキストウィンドウを使い果たした場合の挙動について質問するコメントもありました。
再検討が必要になったらどうなるのか？完全な自律運用には、まだ課題が残っているようです。

類似のアプローチとツール

コメント欄では、似たようなコンセプトのツールも紹介されていました。

ROMAというプロジェクト。
CodeMachine-CLI。
構造化されたワークフローで自律運用を目指すツールが増えつつあります。

また、ローカルLLMとしてKimiを使っているという報告もありました。
MCPサーバーを活用してClaudeとQwenを連携させている例も共有されています。

コミュニティ全体で、より効率的なAIエージェントの運用方法を模索している状況です。

まとめ

AIコーディングエージェントの真価を引き出すには、単に使うだけでは不十分です。

明確なワークフローを設計する。
そのワークフロー自体を自動化する。

さらに、ローカルLLMとリモートLLMの役割分担を最適化する。
こうした工夫によって、生産性とコスト効率の両方を改善できる可能性があります。

今回紹介した手法は、あくまで一つのアプローチにすぎません。
しかし、発想の転換は多くの開発者にとって参考になるでしょう。
「AIに任せきりにする」から「AIを賢く使いこなす」へ。

興味のある方は、GitHubでClaudiomiroのソースコードを確認してみてください。
自分のワークフローに合わせたカスタマイズのヒントが得られるかもしれません。