Super Mario Replica

我用 Godot 花了一周左右做了一个类超级马里奥的横版过关。游戏本身是复刻——跑跳、金币、砖块，常规要素。真正的实验是工作流：先写一份完整需求规格，再在 Cursor 里 vibe code，并加一个自定义命令，让 agent 自审代码、决定下一步、跑单测、跑 e2e 黑盒、把进度记进 SQLite。仓库里有详细 README 给想跑或想改的人看。

实验怎么跑

用 spec-kit 给项目写了一份完整需求规格，让 agent 在写第一行代码前就有清晰契约。然后搭好 Cursor vibe code 环境，加了一个命令来驱动循环：agent 自审代码、选下一步、跑单测、跑 e2e 黑盒测试，并把进度持久化到 SQLite。目标是缩短「agent 写了东西」和「我们知道它能跑」之间的距离，并通过记忆给 agent 足够上下文，让它能在多数时候自己决定下一步，不必每次都有我参与。

有效的地方

这套设置提前发现了大量否则会在手动试玩或用户反馈里才出现的 bug。让 agent 在自己的循环里跑测试和 e2e，回归和集成问题会早暴露。规格充当共享的真相源；SQLite 记忆让 agent 能回溯已经做过什么。实践中，spec-kit + vibe coding + 这些命令确实大幅减少了需要人一直盯着的部分，说明这条路是通的。

需要我介入的地方

能跑通一截，但没法从头到尾完全不用我。有些节点 agent 会打转或漏掉需要产品/设计判断的决策，我得掰方向、定优先级或在不被命令覆盖的场景里解围。缺口主要不是 agent 能力，而是命令和决策规则的覆盖度。有些情况仍然需要人说「下一步做这个」或「这块算完」。

小结

实验很有价值。流水线证明：结构化规格 + 自审 / 测试 / 记忆的 agent 命令，能撑起大部分路程，不需要每个改动都盯着。剩下的是补洞：更多命令、更清晰的决策点、对边界情况的处理。我相信这类东西补够之后，人类操作员最终可以从循环里退场。

Super Mario Replica

动机

问题

关键收获

实验怎么跑

有效的地方

需要我介入的地方

小结