博海拾贝 文摘 Manus 初体验

Manus 初体验

@木遥:Manus 初体验

如果你有过用 agentic AI(cursor etc..)的经验,你就会知道这种体验非常难以描述,因为这不是人类惯常的感受。一个 AI 助手在某些方面如此强大又在某些方面如此弱智,很难找到合理的比喻来形容和它的合作。

和 cursor 合作(我前两天看到有人说2025年 cursor 已经是是程序员的第一工具了)尤其如此。它当然极大提高了生产力,提高的效率倍数再怎么形容也不过份(事实上习惯了之后我已经忘了古代——也就是去年——程序曾经是怎么写的,感觉像是茹毛饮血)。但那个体验非常一言难尽,因为它虽然高效但永远在犯错,很多错误还非常隐蔽。如果一定要比喻,你可以想象你找了一个实习生,工作效率是正常人类的一万倍,但粗心、编程习惯糟糕、写了测试代码之后不清理、对错误不敏感、并且一种错误即使指出了过一会儿还是照犯不误。一方面你觉得这个实习生给你省了很多时间,一方面它又添了很多麻烦,以至于你觉得每时每刻都在和它斗智斗勇。我用 cursor 一天能完成的工作量大概是以前的一个月,但我一天下来通常头痛欲裂,关上电脑眼睛都是花的。

然后上帝(不是)给我们送来了 manus。

用 manus 的体验和 cursor 相比明显有个代差。Cursor 需要你全程微操,它只负责干具体的事,但把事情归拢起来成为一个成品是你的任务。Manus 把这一步也包揽了下来。你告诉它你最终的目标,然后它就开始干活了,最终给你的就是你要的那个东西。——至少形式上是。

这个形式上的「是」确实会给每个第一次实验的人极大的心理震撼。前几天很多没有亲自上手的人说关于 manus 的一切报道都是自媒体炒作。并不是。如果他们的算力跟上邀请码发得更多,热搜上出现狂潮是一定的。

问题隐藏在细节里。它背后的 AI 模型还是那些——现在用的应该是 Claude Sonnet,国内据说要换成阿里千问——所以它只是显得更有主观能动性,具体的活儿质量并不比 cursor 更好或更差(因为底层的大脑就那样)。但它又不像 cursor 一样容许你在每一步介入,于是如果它暗戳戳写了个 bug,它不知道你也不知道。我们人类是怎么避免这种 bug 的?一靠反复自我审查,二靠海量单元测试和端到端测试,三靠同行代码审查。AI 这些都没有。于是那个成品质量就很难深究,有点像学生作业,而且是包装得非常好的学生作业,让你第一眼很想打 A,然后越看越皱眉最后给个 D+ 的那种。

这些问题能不能改进呢?肯定可以,以目前 agentic AI 的发展速度,没准几个月后就是另一番光景。但立足此刻就事论事,只能说它很好玩,还没到让它真的帮你干活挣钱的时候。

但是话说回来体验是真的好啊……我前几天和 cursor 一起写的一个程序,写了两天才大概能用。把同样的需求发给 manus,去洗个澡的功夫人家已经写完了。有一说一,那一刻是有一丝想要跪拜的。

继续写点 Manus 使用感受。其实下面这些感受对一般的 agentic AI 也成立,只是在 manus 身上正好最集中体现出来。

AI agent 写的程序,一个显而易见的缺点是代码能跑但不健壮。比方说基本没有单元测试,噼里啪啦一顿写,写的全是业务代码,写完了直接跑端到端测试,测试过了就交卷,测试不过就头痛医头脚痛医脚地去 debug。——任何在厂子里干过活的老同志都能一眼看出这里的问题:端到端测试考察的是模块之间的连接,对模块内部的各种 edge cases 覆盖接近于零。这样写出来的代码,规模越大越没法用,只能不断返工。

这在碳基人现实中也是常见的问题,实习生都不爱写单元测试,因为懒。而众所周知,硅基人懒起来比碳基人还要诡计多端花样迭出,直接伪造结果都面不改色,何况单元测试这种吃力不讨好的事。当下的 AI agent 唯一比碳基人表现更勤快的地方可能体现在不怕写注释和文档,可能因为对它们来说这非常顺手。

要敲掉实习生的这个坏毛病,靠的除了每天骂,还要给ta算账。人只要聪明,是能理解算大账和算小账的区别的。一旦ta发现把活做细整体上节省的是ta自己的总工作量,这个弯很快就能绕过来。——当然现实中也有人始终绕不过这个弯,但一个人如果能从实习生一步步成长为成熟的工程师,这一步总要跨过去。

对 AI agent 来说这就有点 tricky,因为来回返工消耗的是 token,付钱的是你,不是它。这个大账很难跟它算清楚。

要解决这个问题,比较治标的办法也是靠骂。我用 cursor 的时候就是这样,它写出来的模块,只要业务逻辑稍微复杂,我一般看都不看就先问它:「你自己再读一遍看看有没有什么 bug?」一般还真的总能发现一些问题。对 AI 来说,这个骂的过程本身也可以自动化,让居中负责指挥的那个 agent 去督促其他工兵们。之所以是治标,是因为对人类这么 PUA 会形成长期记忆,对 AI 并没有效果,所以你只能每天骂。

比较治本的办法可能是把「工程质量」这个东西以某种形式内化在强化学习的训练过程里。这技术上不太容易,因为工程质量天生就难于量化。大规模软件工程实践本身就是一门还不成熟的学科,不然也不会有那么多关于代码屎山的程序员笑话。当然,从最基本的单元测试覆盖率这种基础指标做起总是可以的。

在这一步跨过去之前,agentic AI 写出来的代码就总有一种 demo 感。看起来像那么回事,要想大规模用在生产环境里就总是还差点意思。效率抵得上一万个 L3,质量比不上一个 L4。就,很微妙。

本文来自网络,不代表博海拾贝立场,转载请注明出处:https://www.bohaishibei.com/post/98221/
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
Telegram
返回顶部