Agent商业化进入新阶段：为什么稳定性正在成为新的竞争壁垒

明略科技近日发布端侧GUI模型Mano-CUA-4B-2.0，同步上线Thinking模式。官方公布的一组测试数据值得注意：在100道真机macOS GUI任务中（MacBook Pro、Apple M5、16GB内存），Thinking模式下的整体任务成功率较1.0版本提升约9%，中高难度任务上较快速模式提升约10%至13%。

在行业普遍关注“模型跑多快、参数有多大”的当下，这组关于“稳定”的数据指向了一个更接近企业真实采购逻辑的问题。

一、一个被低估的瓶颈

过去两年，企业对AI Agent的兴奋大多停留在演示层面。一段流畅的录屏——Agent自动打开软件、填好表单、点完提交——确实令人印象深刻。但尝试把Agent推向生产环境的企业会发现，演示和规模化之间隔着一条不小的鸿沟。

道理并不复杂。假设一个Agent单步操作的成功率是95%，听起来不错。但一个真实的企业流程往往需要连续完成几十步操作——20步连续操作，整体成功率大约会降到36%；40步则只剩下约13%。单步表现不错的Agent，一旦放入长链路、全流程，失败率会迅速累积。而企业自动化恰恰由大量长链路、高重复的任务构成。

这大致解释了为什么一些Agent项目“叫好不叫座”：它能跑通一次给你看，却很难承诺跑通一千次。对企业而言，一次失败可能意味着一笔错账、一条错误的客户记录、一次需要人工返工的中断。当失败以一定概率反复发生，自动化带来的效率优势，很快会被“还得派人盯着、随时救火”的隐性成本抵消。不少Agent项目因此卡在试点阶段，迟迟不敢上量。

真正的瓶颈，或许不在“快不快”，而在“稳不稳”。

二、行业正在补同一堂课

明略并非孤例。把视野放到整个行业，2026年上半年有一个比较明显的转向：Agent竞争的叙事，正从“能不能做”转向“能不能稳定地、反复地做成”。

几个信号值得放在一起看。

评测口径在变。衡量Agent操作电脑能力的权威基准OSWorld，整体成功率在大约一年内从12%跃升至66%。这意味着行业已经跨过了“Agent能不能操作电脑”的初步门槛，接下来的竞争焦点正在向“准不准、稳不稳”迁移。值得一提的是，即便66%的成功率，也意味着在普通桌面任务的基准测试中，最好的Agent仍有约三分之一的情况会失败——稳定性依然是有待补齐的短板。

技术动作在往“可靠”上靠。微软在其Agent Framework中引入了明确的检查点（checkpoint）机制，用于保存工作流状态并在故障后恢复；Anthropic在强化Computer Use能力的同时，也在强调Agent需要在清晰的规则、权限和审计框架下运行。无论云端还是端侧，行业头部玩家都在回答同一个问题：怎么让Agent的长链路任务少出错。

商业模式也在佐证这一点。 Agent的付费逻辑正在从“卖订阅”向“按结果付费”迁移。但“按结果付费”有一个隐含前提：Agent需要能稳定交付结果。一个频繁出错的Agent，很难支撑起“按结果收钱”的生意。稳定性不只是技术指标，它也在影响Agent能否跳出“按人头卖工具”的传统模式。

各家路径各有侧重：海外厂商强在云端通用能力与开发者生态；字节跳动的UI-TARS走的是开源桌面Agent路线，覆盖PC、浏览器和安卓三大平台；面壁智能则在端侧模型的小参数高性能方向上持续打磨。明略这次把重点放在“端侧长链路稳定性”上，可以看作是对行业共同命题的一个具体回应。

三、Thinking模式在解决什么

Mano-CUA 2.0的关键升级——Thinking模式，针对的正是长链路任务的稳定性问题。

端侧Agent过去在处理复杂任务时不够稳定，一个核心原因是“想”得不够。受限于本地算力，模型常常来不及充分规划就匆忙动手，长链路任务里一步出错，后面便容易步步偏离。Thinking模式做的事情，是让模型在执行之前先分解任务、推理判断、规划路径——对需要多步骤操作、跨界面理解和动态判断的GUI任务，先想清楚再动手。

这种“先想后动”带来的，是稳定性指标的实质性提升。前面提到的数据——整体成功率较1.0版本提升约9%、中高难度任务较快速模式提升约10%至13%——单看百分点似乎不大，但放回“多步连乘”的规模化语境里，意义会被放大：单步可靠性每提升一点，长链路任务的整体成功率就会有更明显的改善。越是步骤多的任务，Thinking模式的价值越突出——而企业里最需要被自动化、也最难啃的，往往正是这类复杂任务。

成功率提升的本质，或许不是“跑得更漂亮了”，而是企业终于有理由考虑把它铺开了。

四、“敢铺开”为什么是质变

企业采购AI自动化，决策逻辑其实很朴素：这套东西，能不能放心交给它、不用一直盯着？

这正是行业当下的真实焦虑——从“能不能用Agent”，转向“敢不敢把Agent放进生产、铺到全流程”。一个只能在试点里演示的Agent，价值是有限的；只有当它的稳定性足够高、高到企业愿意把成百上千个工位的重复工作整体托付给它时，AI自动化才真正从“降本的点缀”变成“生产力的底座”。

Mano-CUA 2.0的成功率提升，给的或许正是这份“敢铺开”的底气。它让企业可以把自动化从“挑几个简单任务试水”，推进到“覆盖长链路、全流程”；从“派人盯着、随时接管”，走向“放手让它批量跑”。这中间的差别，可能不是效率的线性改善，而是自动化规模的量级跃迁。

端侧形态还为这份“稳”多了一层经济性。在云端，让模型“想得更深”意味着更长的思考链、更高的Token消耗；而端侧算力是买断制——硬件一旦购置，思考深度的延伸不会带来额外的边际成本。企业可以放心地让Agent“每一步都多想一层”以换取稳定，却不必为这份谨慎支付递增的账单。

五、稳定，可能是规模化的真正入场券

明略此次的动作不止于一个模型。开源项目Mano-P已升级为面向端侧的统—模型序列，原有Mano-P模型更名为Mano-CUA，作为序列中的GUI操控模型。未来还会有更多不同参数量级、不同模态的端侧模型陆续开源。对企业而言，这意味着拿到的或许不再是一个孤立的模型，而是一个持续迭代的端侧能力底座。

回到那组数据。当行业还在讨论谁的模型跑分更高、谁的响应更快时，明略选择把力气花在了一个更接近企业真实决策逻辑的地方：让Agent不只是跑得快，而是跑得稳；不只是能演示一次，而是能反复交付。

对企业自动化来说，效率或许只是入场资格，稳定才是规模化的真正入场券。这大概也是明略Mano-CUA 2.0试图给出的回答。

Agent商业化进入新阶段：为什么稳定性正在成为新的竞争壁垒

热门评论

热门推荐

Agent商业化进入新阶段：为什么稳定性正在成为新的竞争壁垒

相关推荐

热门评论

热门推荐