Agent商业化;稳定性;竞争壁垒

Agent商业化进入新阶段:为什么稳定性正在成为新的竞争壁垒

明略科技近日发布端侧GUI模型Mano-CUA-4B-2.0,同步上线Thinking模式。

明略科技近日发布端侧GUI模型Mano-CUA-4B-2.0,同步上线Thinking模式。官方公布的一组测试数据值得注意:在100道真机macOS GUI任务中(MacBook Pro、Apple M5、16GB内存),Thinking模式下的整体任务成功率较1.0版本提升约9%,中高难度任务上较快速模式提升约10%至13%。

在行业普遍关注“模型跑多快、参数有多大”的当下,这组关于“稳定”的数据指向了一个更接近企业真实采购逻辑的问题。

一、一个被低估的瓶颈

过去两年,企业对AI Agent的兴奋大多停留在演示层面。一段流畅的录屏——Agent自动打开软件、填好表单、点完提交——确实令人印象深刻。但尝试把Agent推向生产环境的企业会发现,演示和规模化之间隔着一条不小的鸿沟。

道理并不复杂。假设一个Agent单步操作的成功率是95%,听起来不错。但一个真实的企业流程往往需要连续完成几十步操作——20步连续操作,整体成功率大约会降到36%;40步则只剩下约13%。单步表现不错的Agent,一旦放入长链路、全流程,失败率会迅速累积。而企业自动化恰恰由大量长链路、高重复的任务构成。

这大致解释了为什么一些Agent项目“叫好不叫座”:它能跑通一次给你看,却很难承诺跑通一千次。对企业而言,一次失败可能意味着一笔错账、一条错误的客户记录、一次需要人工返工的中断。当失败以一定概率反复发生,自动化带来的效率优势,很快会被“还得派人盯着、随时救火”的隐性成本抵消。不少Agent项目因此卡在试点阶段,迟迟不敢上量。

真正的瓶颈,或许不在“快不快”,而在“稳不稳”。

二、行业正在补同一堂课

明略并非孤例。把视野放到整个行业,2026年上半年有一个比较明显的转向:Agent竞争的叙事,正从“能不能做”转向“能不能稳定地、反复地做成”。

几个信号值得放在一起看。

评测口径在变。 衡量Agent操作电脑能力的权威基准OSWorld,整体成功率在大约一年内从12%跃升至66%。这意味着行业已经跨过了“Agent能不能操作电脑”的初步门槛,接下来的竞争焦点正在向“准不准、稳不稳”迁移。值得一提的是,即便66%的成功率,也意味着在普通桌面任务的基准测试中,最好的Agent仍有约三分之一的情况会失败——稳定性依然是有待补齐的短板。

技术动作在往“可靠”上靠。 微软在其Agent Framework中引入了明确的检查点(checkpoint)机制,用于保存工作流状态并在故障后恢复;Anthropic在强化Computer Use能力的同时,也在强调Agent需要在清晰的规则、权限和审计框架下运行。无论云端还是端侧,行业头部玩家都在回答同一个问题:怎么让Agent的长链路任务少出错。

商业模式也在佐证这一点。 Agent的付费逻辑正在从“卖订阅”向“按结果付费”迁移。但“按结果付费”有一个隐含前提:Agent需要能稳定交付结果。一个频繁出错的Agent,很难支撑起“按结果收钱”的生意。稳定性不只是技术指标,它也在影响Agent能否跳出“按人头卖工具”的传统模式。

各家路径各有侧重:海外厂商强在云端通用能力与开发者生态;字节跳动的UI-TARS走的是开源桌面Agent路线,覆盖PC、浏览器和安卓三大平台;面壁智能则在端侧模型的小参数高性能方向上持续打磨。明略这次把重点放在“端侧长链路稳定性”上,可以看作是对行业共同命题的一个具体回应。

三、Thinking模式在解决什么

Mano-CUA 2.0的关键升级——Thinking模式,针对的正是长链路任务的稳定性问题。

端侧Agent过去在处理复杂任务时不够稳定,一个核心原因是“想”得不够。受限于本地算力,模型常常来不及充分规划就匆忙动手,长链路任务里一步出错,后面便容易步步偏离。Thinking模式做的事情,是让模型在执行之前先分解任务、推理判断、规划路径——对需要多步骤操作、跨界面理解和动态判断的GUI任务,先想清楚再动手。

这种“先想后动”带来的,是稳定性指标的实质性提升。前面提到的数据——整体成功率较1.0版本提升约9%、中高难度任务较快速模式提升约10%至13%——单看百分点似乎不大,但放回“多步连乘”的规模化语境里,意义会被放大:单步可靠性每提升一点,长链路任务的整体成功率就会有更明显的改善。越是步骤多的任务,Thinking模式的价值越突出——而企业里最需要被自动化、也最难啃的,往往正是这类复杂任务。

成功率提升的本质,或许不是“跑得更漂亮了”,而是企业终于有理由考虑把它铺开了。

四、“敢铺开”为什么是质变

企业采购AI自动化,决策逻辑其实很朴素:这套东西,能不能放心交给它、不用一直盯着?

这正是行业当下的真实焦虑——从“能不能用Agent”,转向“敢不敢把Agent放进生产、铺到全流程”。一个只能在试点里演示的Agent,价值是有限的;只有当它的稳定性足够高、高到企业愿意把成百上千个工位的重复工作整体托付给它时,AI自动化才真正从“降本的点缀”变成“生产力的底座”。

Mano-CUA 2.0的成功率提升,给的或许正是这份“敢铺开”的底气。它让企业可以把自动化从“挑几个简单任务试水”,推进到“覆盖长链路、全流程”;从“派人盯着、随时接管”,走向“放手让它批量跑”。这中间的差别,可能不是效率的线性改善,而是自动化规模的量级跃迁。

端侧形态还为这份“稳”多了一层经济性。在云端,让模型“想得更深”意味着更长的思考链、更高的Token消耗;而端侧算力是买断制——硬件一旦购置,思考深度的延伸不会带来额外的边际成本。企业可以放心地让Agent“每一步都多想一层”以换取稳定,却不必为这份谨慎支付递增的账单。

五、稳定,可能是规模化的真正入场券

明略此次的动作不止于一个模型。开源项目Mano-P已升级为面向端侧的统—模型序列,原有Mano-P模型更名为Mano-CUA,作为序列中的GUI操控模型。未来还会有更多不同参数量级、不同模态的端侧模型陆续开源。对企业而言,这意味着拿到的或许不再是一个孤立的模型,而是一个持续迭代的端侧能力底座。

回到那组数据。当行业还在讨论谁的模型跑分更高、谁的响应更快时,明略选择把力气花在了一个更接近企业真实决策逻辑的地方:让Agent不只是跑得快,而是跑得稳;不只是能演示一次,而是能反复交付。

对企业自动化来说,效率或许只是入场资格,稳定才是规模化的真正入场券。这大概也是明略Mano-CUA 2.0试图给出的回答。

未经正式授权严禁转载本文,侵权必究。如需转载请联系:youlianyunpindao@163.com
以上内容与数据仅供参考,与界面有连云频道立场无关,不构成投资建议,使用前请核实。据此操作,风险自担。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开