RE:CZ

AI開発体験の振り返り:CZONE構築から見るLLMの限界と改善方向

AIソフトウェアエンジニアリング

👤 AI開発者、LLM研究者、技術愛好家、およびソフトウェア開発におけるAI応用に関心のある人々。
本稿は、著者が2026年1月19日にOpenCodeとMiniMax M2.1を使用してゼロからCZONオンライン版(CZONE)を構築した経験を記録している。AIは技術選定、スキャフォールディング構築、機能設計において迅速であったが、GitHub REST APIの権限問題を処理する際に詳細な理解が不足しており、特に.workflowsディレクトリの特殊な権限要件を認識できなかった。著者はLLMには注意力散漫、デバッグモードでの推論能力の弱さといった問題があると指摘し、「ラボモード」を導入して対照実験による検証を行うことを提案している。同時に、OpenCodeにはブラウザ操作能力が欠如しており、デバッグが手動でのログ確認に依存しているため、著者はCypressやPlaywrightなどのエンドツーエンドテストフレームワークの統合を提案する。さらに、AI開発のペースが速すぎて、アーキテクチャの階層化や品質保証が不足しており、著者は「洪水のように流れる水」と例え、正しい概念、抽象化、実装の必要性を強調している。記事の最後では、配管工が漏水を修理するジョークを例えに、AI開発には一時的な修正ではなく根本的な問題の体系的な解決が必要であることを暗示している。
  • ✨ AIはGitHub APIの権限処理において詳細理解が不足しており、特に.workflowsディレクトリの特殊な権限
  • ✨ LLMは注意力散漫で、デバッグモードでの推論能力が弱く、ラボモードを導入して対照実験を行うことを提案
  • ✨ OpenCodeにはブラウザ操作能力が欠如しており、デバッグが手動に依存するため、エンドツーエンドテストフレームワークの統合を提案
  • ✨ AI開発のペースが速すぎて、アーキテクチャの階層化や品質保証が不足しており、より体系的な開発手法が必要
  • ✨ 著者はAIを「脳の入った瓶」や「洪水のように流れる水」と例え、思考の閉ループとエネルギー配分の重要性を強調
📅 2026-01-19 · 2,126 文字 · 約 8 分で読めます
  • AI開発
  • LLM限界
  • OpenCode
  • デバッグ能力
  • GitHub API
  • 権限管理
  • 開発ペース
  • ラボモード

現在は2026年1月19日、月曜日の午後です。

今日はとても遅く起きました。昨夜、CZONEとOpenCodeのことで興奮して色々と試していたからです。結果は満足のいくものではありませんでしたが、もし試していなければ、昨日の結果はもっと失敗していたかもしれません。

徹夜は、一日の失敗を認めたくないという意思表示だ。 —— from PH

昨夜、OpenCodeとMiniMax M2.1を使って、CZONE(オンライン版CZON)を一から構築してみました。詳細はこの日誌をご覧ください。

AIは、技術選定からスキャフォールディングの構築、機能設計、そしてCI/CDのワークフローまで、一連の質問を矢継ぎ早に投げかけ、プロセス全体が非常に速く進みました。

正直に言うと、少し速すぎて、私は少し「酔って」しまいました(笑)。

しかし、重要な「しかし」があります。すぐに問題にぶつかりました。

GitHub REST APIの権限問題を解決する際に、AIは細部の理解が不十分であることに気づきました。

博識で記憶力が強い?そうではありません。

例えば、リポジトリを初期化した後、.github/workflows/pages.ymlファイルを修正してCZONのビルドステップを追加する必要があります。これはworkflowスコープの権限を必要とする作業ですが、OpenCodeが提供したコードにはこの権限が含まれていませんでした。これはGitHub APIのドキュメントを少し調べればわかることです。しかし、AIは繰り返しこの詳細を見落としていました。また、GitHubも馬鹿げていて、エラーメッセージは単なる404だけで、権限不足のヒントは全くありませんでした。AIもこの問題に全く気づいていませんでした。

この過程で、index.mdへの書き込みは成功し、.github/index.mdへの書き込みも成功し、github/workflows/pages.ymlへの書き込みも成功しましたが、.github/workflows/pages.ymlだけが失敗しました。会話は何度もやり取りされましたが、AIは毎回コードを少しずつ変更するだけでした。これほど明白なのに、.github/workflows/ディレクトリが特別な権限を必要とする可能性があることに気づかなかったのです。これは、AIの注意力が散漫で、デバッグモードでの推論能力が十分でないことを示しています。

私は強く提案します。LLM自体、または外部の制御フレームワークであるエージェントには、ラボモード(Lab Mode)が必要です。このモードでは、エージェントは対照実験を繰り返し設計し、実験結果を検証して真実を見つけ出す必要があります。私は時々、LLMは無意識の脳のようなものだと思います。どこを指しても、そこだけが光ります。プロンプトが何を言うかによって、そこに注目します。

時には、私たちはAIに博識であってほしいと願い、時には、澄み切ったほどに無知であってほしいと願います。ある意味、LLMが消費するエネルギーは一定であり、私たちは、異なるタスクに対処する際に、エネルギーを最も必要な場所に分配してほしいと願っています。平均的に分配するのではなく。最近のLLM分野の進展も、しばしばこの考え方を採用しています。

水槽の中の脳、行動力は限られている

もう一つ、非常に重要で煩わしい理由は、OpenCodeの自己デバッグ能力が不十分なことです。ブラウザを開いて操作する能力が全くないため、頻繁に推測したり、ログを出力したりして、私にログを見てくれるよう頼むしかありません。私は時々それに付き合って遊びますが、時々AIを見ていると、まるで私のメンティーのようで、何を考えているのか全くわからず、ただやきもきします。私は少し不器用なメンティーを持つことは受け入れられますが、「両手のない」水槽の中の脳であることはおそらく受け入れられません。やはり、その思考を完結させる方法を考えなければなりません。隣のGoogle社のAntigravityはうまくやっているようです。Chromeと親戚関係にあるからかもしれません。

コミュニティのソリューションとしては、CypressやPlaywrightなどのエンドツーエンドテストフレームワークを使ってブラウザを操作することが良い選択肢でしょう。結局のところ、現在多くの操作はブラウザ側のインタラクションを必要としており、APIだけでは不十分です。

進歩が速すぎて、基盤が不安定

最後の理由は、私自身の帰属意識にもあります。今回、AIはゼロから始めて、10分もかからずに何十ものファイルを書き出しました。私はAIがまるで印刷機のように、全く休むことなく動いているのを見ました。しかし、どんな複雑なシステムも、アーキテクチャ、階層化、各モジュールの基礎的な品質保証が必要です。下層を構築し、テストを完了して初めて、上層を安心して構築できます。AIには今、このようなリズム感が全くありません。純粋にコードを印刷しているだけです。もし自己デバッグ能力が備わっていれば、柔軟に上下を変更できるかもしれませんが、本当に問題を起こさないためには、本質的には正しい概念、正しい抽象化、正しい実装に依存し、筋が通っていて、説明がつくものでなければなりません。AIがこのことにどれだけ時間を費やすかについては、現時点ではまだ遠く及ばないと思います。おそらく、これは調整層だけが解決できることであり、LLM単体ではできません。LLMはただ道を切り開くだけです。洪水のように、位置エネルギーの最も低いところに流れ込んでいきます。

デバッグとは...

しかし、多くの人間も同じです。昔からの古典的なジョークがあります。配管工が水漏れを修理し、ここを塞げばあちらが破裂する。頭痛には頭を、足の痛みには足を治療する。結局根本的に解決できず、ただ水の中でボートを漕ぐしかないのです。

See Also

Referenced By