Manus 初体验 – 博海拾贝

@木遥：Manus 初体验

如果你有过用 agentic AI（cursor etc..）的经验，你就会知道这种体验非常难以描述，因为这不是人类惯常的感受。一个 AI 助手在某些方面如此强大又在某些方面如此弱智，很难找到合理的比喻来形容和它的合作。

和 cursor 合作（我前两天看到有人说2025年 cursor 已经是是程序员的第一工具了）尤其如此。它当然极大提高了生产力，提高的效率倍数再怎么形容也不过份（事实上习惯了之后我已经忘了古代——也就是去年——程序曾经是怎么写的，感觉像是茹毛饮血）。但那个体验非常一言难尽，因为它虽然高效但永远在犯错，很多错误还非常隐蔽。如果一定要比喻，你可以想象你找了一个实习生，工作效率是正常人类的一万倍，但粗心、编程习惯糟糕、写了测试代码之后不清理、对错误不敏感、并且一种错误即使指出了过一会儿还是照犯不误。一方面你觉得这个实习生给你省了很多时间，一方面它又添了很多麻烦，以至于你觉得每时每刻都在和它斗智斗勇。我用 cursor 一天能完成的工作量大概是以前的一个月，但我一天下来通常头痛欲裂，关上电脑眼睛都是花的。

然后上帝（不是）给我们送来了 manus。

用 manus 的体验和 cursor 相比明显有个代差。Cursor 需要你全程微操，它只负责干具体的事，但把事情归拢起来成为一个成品是你的任务。Manus 把这一步也包揽了下来。你告诉它你最终的目标，然后它就开始干活了，最终给你的就是你要的那个东西。——至少形式上是。

这个形式上的「是」确实会给每个第一次实验的人极大的心理震撼。前几天很多没有亲自上手的人说关于 manus 的一切报道都是自媒体炒作。并不是。如果他们的算力跟上邀请码发得更多，热搜上出现狂潮是一定的。

问题隐藏在细节里。它背后的 AI 模型还是那些——现在用的应该是 Claude Sonnet，国内据说要换成阿里千问——所以它只是显得更有主观能动性，具体的活儿质量并不比 cursor 更好或更差（因为底层的大脑就那样）。但它又不像 cursor 一样容许你在每一步介入，于是如果它暗戳戳写了个 bug，它不知道你也不知道。我们人类是怎么避免这种 bug 的？一靠反复自我审查，二靠海量单元测试和端到端测试，三靠同行代码审查。AI 这些都没有。于是那个成品质量就很难深究，有点像学生作业，而且是包装得非常好的学生作业，让你第一眼很想打 A，然后越看越皱眉最后给个 D+ 的那种。

这些问题能不能改进呢？肯定可以，以目前 agentic AI 的发展速度，没准几个月后就是另一番光景。但立足此刻就事论事，只能说它很好玩，还没到让它真的帮你干活挣钱的时候。

但是话说回来体验是真的好啊……我前几天和 cursor 一起写的一个程序，写了两天才大概能用。把同样的需求发给 manus，去洗个澡的功夫人家已经写完了。有一说一，那一刻是有一丝想要跪拜的。

继续写点 Manus 使用感受。其实下面这些感受对一般的 agentic AI 也成立，只是在 manus 身上正好最集中体现出来。

AI agent 写的程序，一个显而易见的缺点是代码能跑但不健壮。比方说基本没有单元测试，噼里啪啦一顿写，写的全是业务代码，写完了直接跑端到端测试，测试过了就交卷，测试不过就头痛医头脚痛医脚地去 debug。——任何在厂子里干过活的老同志都能一眼看出这里的问题：端到端测试考察的是模块之间的连接，对模块内部的各种 edge cases 覆盖接近于零。这样写出来的代码，规模越大越没法用，只能不断返工。

这在碳基人现实中也是常见的问题，实习生都不爱写单元测试，因为懒。而众所周知，硅基人懒起来比碳基人还要诡计多端花样迭出，直接伪造结果都面不改色，何况单元测试这种吃力不讨好的事。当下的 AI agent 唯一比碳基人表现更勤快的地方可能体现在不怕写注释和文档，可能因为对它们来说这非常顺手。

要敲掉实习生的这个坏毛病，靠的除了每天骂，还要给ta算账。人只要聪明，是能理解算大账和算小账的区别的。一旦ta发现把活做细整体上节省的是ta自己的总工作量，这个弯很快就能绕过来。——当然现实中也有人始终绕不过这个弯，但一个人如果能从实习生一步步成长为成熟的工程师，这一步总要跨过去。

对 AI agent 来说这就有点 tricky，因为来回返工消耗的是 token，付钱的是你，不是它。这个大账很难跟它算清楚。

要解决这个问题，比较治标的办法也是靠骂。我用 cursor 的时候就是这样，它写出来的模块，只要业务逻辑稍微复杂，我一般看都不看就先问它：「你自己再读一遍看看有没有什么 bug？」一般还真的总能发现一些问题。对 AI 来说，这个骂的过程本身也可以自动化，让居中负责指挥的那个 agent 去督促其他工兵们。之所以是治标，是因为对人类这么 PUA 会形成长期记忆，对 AI 并没有效果，所以你只能每天骂。

比较治本的办法可能是把「工程质量」这个东西以某种形式内化在强化学习的训练过程里。这技术上不太容易，因为工程质量天生就难于量化。大规模软件工程实践本身就是一门还不成熟的学科，不然也不会有那么多关于代码屎山的程序员笑话。当然，从最基本的单元测试覆盖率这种基础指标做起总是可以的。

在这一步跨过去之前，agentic AI 写出来的代码就总有一种 demo 感。看起来像那么回事，要想大规模用在生产环境里就总是还差点意思。效率抵得上一万个 L3，质量比不上一个 L4。就，很微妙。