YouTubeを観て学ぶAI：Blenderドーナツチュートリアルを人間ゼロ介入で完走した全記録

Blenderを触ったことがある人なら、「ドーナツチュートリアル」を知っているでしょう。
3Dモデリング入門の定番です。そして、世界中の初心者が通る登竜門でもあります。

このチュートリアルを、人間ではなくAIエージェントが完走しました。
しかも、YouTubeの動画を「視聴」して、Blenderの操作まですべて自律的にこなしたというのです。

Redditのr/ClaudeAIに投稿されたこのプロジェクトは、大きな反響を呼びました。
本記事では、この投稿とコミュニティの議論をもとに、AIエージェントによるソフトウェア自動操作の現状と今後の可能性を考察します。

何が起きたのか

投稿者は、Claude Opus 4.6を中心としたマルチエージェントシステムを構築しました。

このシステムの目的は明確です。
YouTubeのチュートリアル動画から手順を抽出し、実際のBlender上でその手順を自動実行すること。

人間の介入はゼロ。
動画の理解から3Dモデルの完成まで、すべてをAIが担当しました。

ただし、ここで注意が必要です。
「Claudeが動画を観ている」わけではありません。

仕組みの核心：複数AIの連携

コメント欄で投稿者自身が仕組みを明かしています。
なかなか巧妙でした。

まず、動画の理解にはGeminiのVideo APIを使っています。
Geminiは現時点でYouTube動画を直接処理できる数少ないLLMの一つです。

そのGeminiがJSON形式で手順を抽出します。
さらに、スクリーンショットの最適なタイミングも指定してくれます。

次に、その構造化されたプランをClaude Opus 4.6のエージェント群が受け取ります。
そして、MCP（Model Context Protocol）経由でBlenderを操作していくのです。

オーケストレーション層、ワーカーエージェント、ツール開発パイプライン。
すべてClaude Opus 4.6で動いているとのこと。

つまり、「動画を観る目」としてGeminiを使い、「手を動かす頭脳」としてClaudeを使い分けた構成です。

MCPでBlenderを操作するという発想

技術的に興味深いのは、AIがBlenderをどう操作しているかという点でしょう。

投稿者はカスタムのMCPツールを構築しています。
これがBlenderとの橋渡し役です。
コメント欄では別のユーザーが「blender-mcp」というGitHubリポジトリを紹介しており、類似のオープンソースプロジェクトもすでに存在しているようです。

さらに面白い点があります。
システムが自分自身のMCPツールの不足を検知し、足りないツールを自ら作るのです。

エージェントが「道具がない」と判断したら、必要な道具を自分で開発する。
この自己拡張能力は注目に値します。

また、各ステップでは視覚的・プログラム的な検証も実施されています。
Blenderの状態が期待通りか、逐一確認しながら進んでいるとのことでした。

「200ドルのドーナツ」問題

コミュニティの反応で最も目立ったのは、コストに対するツッコミです。

高評価コメントの一つは「おめでとう、200ドルのドーナツができたね」という内容でした。
別のユーザーは「100万トークンのドーナツだ」と表現しています。
全スタックをOpus 4.6で動かしているため、APIコストはかなりの金額になります。

あるユーザーは具体的な提案をしていました。
ワーカーエージェントをSonnet 4.6に置き換えれば、コストを70〜95%削減できるだろうと。

オーケストレーションにはOpusの知性が必要です。
しかし、個々のツール実行にはSonnetで十分だという指摘です。

この「高コスト」問題は、現時点のAIエージェント開発における共通課題と言えるでしょう。
概念実証としては素晴らしい。
でも、実用レベルのコスト効率にはまだ距離があります。

自己文書化するワークフロー

コスト面の議論がある一方で、このシステムの真価は別の場所にあるかもしれません。

投稿者によると、すべてのステップが文書化・保存されます。
セッション終了後にはデブリーフィング（振り返り）まで自動で行われるそうです。

得られたスキルや知識は共有レジストリに蓄積されます。
そして、複数のソフトウェアやコンテキストをまたいで再利用可能になるとのこと。

あるユーザーが的確な指摘をしていました。
「チュートリアルに確実に従えるなら、そのプロセスを自分用のメモとして蓄積できる。

蓄積が進めば実行が速くなる。
最終的にはチュートリアルなしでも新しいタスクをこなせるようになるのでは」と。

投稿者もこの方向性を認めています。
すでにUnreal Engineへの対応も進めていると回答していました。

ただし、冷静な反論も出ています。
「現時点で汎化（新しいタスクへの応用）ができているのか、それともドーナツの再現にとどまっているのか」という問いです。
これは的を射た疑問でしょう。

同じドーナツを100個、色や形を変えて量産するのは容易です。
しかし、ドーナツの知識からキャラクターモデリングに飛躍するのは、全く別の問題です。

コンテキストウィンドウという壁

技術的なボトルネックとして、複数のユーザーがコンテキストウィンドウの制約を指摘していました。

エージェントが複雑なタスクを実行し続けるには、膨大な情報を保持しなければなりません。
しかし、現在のLLMのコンテキストウィンドウには上限があります。
真の永続的メモリもまだ実現していません。

投稿者のシステムが文書化と共有レジストリで対処しているのは、まさにこの壁への回答と考えられます。
すべてを一度のセッションで記憶する代わりに、外部に知識を蓄積するアプローチです。

オープンソースか商用か

コミュニティの半分は「GitHubリポジトリを公開してほしい」と熱望していました。
もう半分は「これは商用プロジェクトになるだろう」と予想しています。

投稿者が「OOD Studio」というエージェント用ダッシュボードを開発していること。
オープンソース化に言及していないこと。

これらの事実から、後者の見方が優勢です。
「もちろんオープンソースじゃないよ、これが彼の売りたい製品だから」というコメントが多くの賛同を集めていたのが印象的でした。

とはいえ、擁護意見もあります。
「毎日見かける『2万件のメモリシステム』とか『このプロンプトで全部解決、でも登録が必要』みたいなものよりずっと実体がある」と。
実際に動くデモを見せている点で、説得力は段違いです。

この先に見えるもの

このプロジェクトは、一つの明確なメッセージを発しています。
AIエージェントは「テキストを生成する」段階から「ソフトウェアを操作する」段階へと移行しつつある、と。

もちろん、まだ荒削りです。
出来上がったドーナツのクオリティは完璧とは言えません。

コストも高い。
汎用性も未知数です。
あるコメントが「見た目はイマイチ」と正直に指摘していたように、成果物だけを見れば人間の初心者にも劣る部分がありそうです。

でも、1年前のClaudeの能力を考えてみてください。
別のユーザーが述べていたように、粗削りであっても、ここまで来たこと自体が注目に値します。

コストは下がるでしょう。
精度は上がるでしょう。

「パンドラの箱は開いた」というコメントの通り、この概念はもう後戻りできない段階に入っています。
数ヶ月もすれば、より洗練されたバージョンが登場するはずです。

まとめ

AIエージェントが「動画を観て」ソフトウェアを操作し、3Dモデルを完成させる。
この一連の流れは、概念実証として非常にインパクトがあります。

Geminiで動画を理解し、Claude Opus 4.6で実行する。
このマルチモデル構成は、各AIの強みを活かした合理的な設計思想です。

MCPを介したソフトウェア操作、自己文書化によるスキル蓄積、不足ツールの自動生成。
どれも今後のAIエージェント開発における重要なパターンになり得ます。

一方で、課題も浮き彫りになりました。
コストの高さ、汎化能力の限界、コンテキストウィンドウの制約。
こうした壁を一つずつ乗り越えた先に、本当の自動化の世界が広がっているのでしょう。

「200ドルのドーナツ」は、今の時点では笑い話かもしれません。
しかし、この技術が成熟したとき、3Dモデリングに限らずあらゆるソフトウェアの操作が自動化される可能性がある。
その未来への入り口を、一つのドーナツが示しているのです。