AI开发体验反思：从CZONE搭建看LLM的局限与改进方向

人工智能软件工程

👤 AI开发者、LLM研究者、技术爱好者，以及对AI在软件开发中应用感兴趣的人士。

本文记录了作者在2026年1月19日使用OpenCode和MiniMax M2.1从零搭建CZON在线版本（CZONE）的经历。AI在技术选型、脚手架搭建和功能设计上速度很快，但在处理GitHub REST API权限问题时表现出细节理解不足，特别是对.workflows目录的特殊权限要求未能识别。作者指出LLM存在注意力涣散、调试模式下推理能力弱的问题，建议引入“实验室模式”进行对照实验验证。同时，OpenCode缺乏浏览器操控能力，导致调试依赖人工查看日志，作者建议集成端到端测试框架如Cypress或Playwright。此外，AI开发节奏过快，缺乏架构分层和质量保证，作者比喻为“泄洪的水”，强调需要正确的概念、抽象和实现。文章最后以水管工修漏水的段子类比，暗示AI开发需要系统性解决根本问题而非临时修补。

✨ AI在GitHub API权限处理上细节理解不足，特别是.workflows目录的特殊权限

✨ LLM注意力涣散，调试模式下推理能力弱，建议引入实验室模式进行对照实验

✨ OpenCode缺乏浏览器操控能力，调试依赖人工，建议集成端到端测试框架

✨ AI开发节奏过快，缺乏架构分层和质量保证，需要更系统的开发方法

✨ 作者将AI比喻为“缸中之脑”和“泄洪的水”，强调思维闭环和能量分配的重要性

📅 2026-01-19 · 1,303 字 · 约 5 分钟阅读

AI开发
LLM局限
OpenCode
调试能力
GitHub API
权限管理
开发节奏
实验室模式

现在是 2026年1月19日，星期一下午。

今天起的非常晚，因为昨天夜里比较兴奋在折腾 CZONE 和 OpenCode 的事情。虽然结果不令人满意。但是如果没折腾，或许昨天的结果是更加失败的。

熬夜就是不愿意承认自己一天的失败。 —— from PH

昨天夜里，用 OpenCode + MiniMax M2.1 从零搭建了一下 CZONE (在线版本的 CZON)，见这篇日志。

AI 上来一通问问问，从技术选型到脚手架搭建，再到功能设计，最后到 CI/CD 流程，整个过程非常快。

老实说，有点太快了，我有点晕车（笑）。

但是，关键的但是，很快就遇到问题。

我发现，它在解决 GitHub REST API 的权限问题上，细节理解不到位。

博闻强识？并不。

例如，我们初始化 Repo 之后要修改 .github/workflows/pages.yml 文件，来添加 CZON 的构建步骤。这件事是需要 workflow scope 的权限的，但是 OpenCode 给出的代码里，并没有包含这个权限。这个翻一下 GitHub API 文档就能看出来的。但是它反复忽略了这个细节。另外 GitHub 也是傻逼，报错信息就一个 404，完全没提示权限不足。它也完全没有意识到这个问题。

在这个过程中，我们展示了，写入 index.md 成功，写入 .github/index.md 成功，写入 github/workflows/pages.yml 也成功，唯独 .github/workflows/pages.yml 失败。虽然对话进行了多轮，因为它每次都要改改代码。但是这么明显了，没有意识到 .github/workflows/ 或许是一个特殊权限的目录。说明它的注意力涣散，在调试模式下的 Reasoning 能力不够强。

我强烈建议，LLM 自身或者外置控制框架 Agent，需要有一个实验室模式(Lab Mode)，在这个模式下，Agent 需要反复设计对照实验，验证实验结果，从而找到真相。我有时候觉得 LLM 是一个无意识的大脑，你点哪里，它就亮哪里。提示词说什么，它就关注什么。

有时候我们又想要它博闻强识，有时候又希望它无知到清澈。从某种意义上，LLM 消耗的能量是一定的，我们希望它在应对不同任务时，能把能量分配到最需要的地方，而不是平均分配。最近出的一些 LLM 领域的进展，也往往采用了这种思路。

缸中之脑，行动力有限

另外一个很重要也很烦人的原因是，OpenCode 的自我调试能力不足。它完全没有打开 Browser 进行操控的能力，所以它只能频繁地猜测、打日志，然后拜托我去看日志。我有时候就陪它玩玩，但是有时候看着它，真像看着我的 Mentee，完全不知道它在想什么，干着急。我可以接受我有一个笨笨的 Meetee，但是我恐怕不能接受它是个“没有双手”的缸中之脑——还是要想办法完成它思维的闭环——隔壁 Google 家的 Antigravity 就做得不错，可能也是 Chrome 一家亲的缘故。

就社区方案而言，使用一些端到端测试框架（例如 Cypress, Playwright）来操控浏览器，应该是一个不错的选择。毕竟现在很多操作都需要浏览器端的交互，光靠 API 是不够的。

进展太快，境界虚浮

最后一个也是我归因的。这次 AI 从0开始，不到 10 分钟框框给我写了几十个文件。我看它就像打印一样，完全没有停下来休息的感觉。但是，任何一个复杂系统，都需要架构，都需要分层，都需要保证每个模块的基础质量。做完底层，做好测试，你才能放心地做上层。AI 现在完全没有这种节奏感，它就纯印刷代码。虽然说如果自带调试能力了，它或许能灵活地上下改动，但是真正不出问题，本质上靠得还是正确的概念、正确的抽象、正确的实现，要靠顺理成章，要靠说得通。至于 AI 会花多少时间在这件事情上，我觉得目前还远不及。或许这件事是只有协调层才能解决的，靠 LLM 自己做不到。LLM 只管开路，如泄洪的水一样，倾泻到势能的最低处。

Debugging is like..

不过很多人类也是这样的，以前的经典段子：一个水管工修理漏水，这里补上那里又炸开。头疼医头脚疼医脚。最后根本解决不了，只能在水里划船了。

RE:CZ

AI开发体验反思：从CZONE搭建看LLM的局限与改进方向

See Also

Referenced By