AIは株で儲けられるのか？複数モデルに現金を渡した実験の結末

複数のAIに実際のお金を渡して、株式市場で運用させる。
そんな興味深い実験がRedditで話題になっていました。

本記事では、この実験の内容と結果を紹介します。
そして、コミュニティで交わされた議論をもとに、AIによる投資の可能性と限界を考察していきます。

実験の概要

ある開発者が、複数のAIモデルにリアルタイムの金融データと実際の資金を与えました。

運用方針はデイトレードではありません。
スイングトレードと中長期投資に限定した形です。

参加モデルは、Claude、Gemini、GPT、Grok、Qwen、Deepseekの6種類。
すべてのモデルに同じプロンプトが提供されました。

さらに、50以上のツール呼び出しを通じて、リサーチから売買の実行まで一貫して行える環境が整えられています。
実験開始は2025年11月。
約4ヶ月後の結果報告が、今回の内容です。

4ヶ月間の結果

実験期間中、S&P 500は約7%下落しました。

この逆風の中で、8モデル中5モデルがS&P 500を上回っています。
しかし、プラスのリターンを記録したのは2モデルだけでした。

モデルごとの傾向も見ていきましょう。

ClaudeとGeminiは平均的に最も良い成績を残しています。
一方で、GPT系のモデルはすべて市場を下回りました。
Grokは長期間プラス圏を維持していたものの、最終週に利益を吐き出してしまったようです。

興味深いのは、各モデルの投資スタイルの違いでしょう。

コミュニティの分析によると、ClaudeとGeminiは多くの銘柄に分散投資する傾向がありました。
特にClaudeは積極的なスイングトレーダーのように振る舞い、こまめにポジションを調整していたとのこと。

対照的に、GPTやQwenは2〜3銘柄への集中投資を選んでいます。
そのため、特定銘柄の下落に大きく引きずられてしまいました。

統計的な妥当性をめぐる議論

この実験で最も白熱したのは、結果の統計的な信頼性についてです。

あるコメント投稿者が、こう指摘しました。
サンプルサイズが小さすぎて、意味のある推論はできない、と。
各モデル1インスタンスでは、単に運が良かっただけという可能性を排除できません。

これに対し、実験者は同一モデルを100回並行実行する計画を明かしています。
LLMにはtemperatureなどのパラメータによるランダム性が内在しています。
そのため、同じモデルでも毎回異なる銘柄を選ぶわけです。

ただし、統計学の専門家からさらに鋭い指摘がありました。
100インスタンスを同じ期間で実行しても、モデル固有のバイアスは消えません。
たとえば、Geminiが好むタイプの企業がたまたま好調だった期間であれば、100回実行しても結果は良く出てしまう。

この問題を解消するには、異なる時期にまたがる長期間の実験が必要です。
実験者自身も、数年単位で数百回の取引を重ねなければ、信頼できるデータは得られないと認めていました。

既存の金融業界との比較

「これが本当に機能するなら、大手のクオンツファンドがとっくにやっている」

こんな指摘もありました。
確かにその通りでしょう。

大手ファンドはナノ秒単位の高頻度取引を行っています。
そして、ニュースやチャート、マクロ経済分析など膨大なデータを処理しているのです。

しかし、興味深い反論も出ていました。
大手ファンドは運用規模が大きすぎるため、小規模なスイングトレードでは利益が見合いません。

ルネサンス・テクノロジーズのメダリオンファンドが無限にスケールしないのと同じ理由です。
規模の制約が、特定の取引手法を排除してしまう。
個人レベルのAI投資が狙えるニッチは、そこにあるのかもしれません。

コストの現実

見落とされがちですが、運用コストの問題も重要です。
この実験には月額約500ドル（約7万5千円）のAPI費用がかかっていました。

なぜそれほどかかるのか。
各エージェントは売買判断の前に大量のリサーチを行います。

そして、調べた結果「取引しない」という判断を下すこともあるのです。
リサーチだけでトークンを消費してしまうわけですね。

投資リターンがこのコストを上回らなければ、実質的には損失になります。
コメント欄でも、パフォーマンスだけでなくAPI費用を差し引いた純利益を示すべきだという声が上がっていました。

AIの投資判断における本質的な課題

コメント欄で提起された別の視点も紹介しておきましょう。

ある投稿者は、この実験の本質を鋭く突いていました。
テストしているのは「どのモデルが良い銘柄を選ぶか」ではない。
「リスク許容度のキャリブレーション」だ、と。

Claudeはデフォルトで保守的な推論を行う傾向があります。
一方、GPTはより積極的なリスクを取る。

この性格の違いが、下落相場ではたまたまClaudeに有利に働いたのではないか、という指摘です。

別の問題提起もありました。
数千のAIエージェントが同じシグナルを読み取って、同時に売買を実行し始めたらどうなるか。
全員が同じ方向に動けば、市場の変動を増幅させかねません。

さらにユーモラスな指摘も。
ClaudeとGeminiがGoogle株やNVIDIA株に投資していた、というものです。

AIが自社（あるいは自分を動かすインフラ企業）に投資している。
なかなか示唆的な構図でしょう。

この実験から学べること

4ヶ月という期間は、投資の世界では瞬きのような短さです。

この結果だけでAIの投資能力を判断するのは無理があるでしょう。
しかし、いくつかの示唆は得られます。

分散投資を自然に行うモデル（Claude、Gemini）は、集中投資するモデル（GPT、Qwen）よりも安定した成績を残しました。
これは人間の投資でも基本中の基本です。
AIも例外ではないことを示しています。

また、AIの「性格」が投資スタイルに直結するという発見も見逃せません。
トレーニングデータやRLHFによる調整が、金融の意思決定にまで影響を及ぼしている可能性があるのです。

まとめ

AIによる株式投資の実験は、まだ始まったばかりです。
4ヶ月で各1インスタンスでは、統計的に意味のある結論は出せないでしょう。

それでも、注目に値する事実はあります。
AIが人間の介入なしに、リサーチから売買まで自律的に行えるということ。

これ自体が、大きな技術的進歩です。
今後、長期間にわたる大規模な実験データが蓄積されれば、より確かな評価が可能になるはずです。

ただし、ある投稿者の指摘を忘れてはなりません。
コインを100回投げて表が多かったサルを選んでも、そのサルにコイン投げの才能があるとは言えない。

AIの投資結果も、同じ冷静な目で見る必要があるのではないでしょうか。