合集回顾:手机智能体的来龙去脉 4个问题带你看

合规科技肖潇,王俊,章驰 2025-12-12 08:30

21世纪经济报道 肖潇 王俊 章驰

从2024年12月发布第一篇手机智能体的报道开始,我们就意识到,这不是一个简单的功能升级故事,而是一场对AI生态控制权的重新分配。

在过去一年里,不少产品崭露头角,荣耀YOYO、智谱AutoGLM、豆包AI手机助手……技术毫无疑问在狂奔,这时候需要有人客观呈现全貌,适时地“唱唱反调”。

围绕手机智能体对无障碍权限的灰色调用、读屏的滥用空间、系统权限的失控风险,我们一直在追问:当手机能替你做事,谁来定义它的边界? 

如果你依旧觉得手机智能体是一个混乱而模糊的概念,那么这篇报道能为你提供一个系统性的框架——能力变化、技术方案、商业竞合关系,和如影随形的合规阴影。

这是我们过去一年对手机智能体的重要报道合集,带你完整走一遍它的来时路。

同时,我们也将再次出发,根据最新动态对行业手机智能体开展新一轮的测评,输出最新的内容,敬请期待。


一 核心能力

过去十年,我们习惯了围绕App行事。现在,手机助手/智能体(统称手机智能体)正在改变这种路径依赖。它不再只是初级的聊天助手,而是一个能直接替你操作手机的私人助理。 

从去年11月荣耀YOYO用“一句话帮你点咖啡”开始,展示手机智能体的自主操作功能,几乎成了每场新机发布会的固定环节。目前小米、荣耀、vivo、OPPO、华为、三星的量产机中均已配备自家智能体,第三方阵营中还有智谱AI的AutoGLM、字节跳动的豆包手机助手。

但在今年初,手机智能体的宣传噱头还远大于真实能力。当时实验室论文里的任务成功率大概能到70%,而在现实环境里,能成功点外卖的手机智能体不超过3家。成功率低、响应不稳定、耗时长都是常态。

这背后既有技术局限,也有工程问题。技术层面,手机智能体理解屏幕的方法依赖逐步推理,每执行一个操作前都要 “思考” 下一步该做什么,效率不高。而工程层面,不同 App 之间没有统一的调用方式,手机智能体很难绕过限制直接调动第三方服务,能力有限。 

因此,围绕“怎么真正把手机用起来”,智能体走出了几条技术路线:

第一种路线叫意图框架,本质是App和手机智能体的合作方案。经过App授权后,手机智能体用过应用编程接口(API)或者开发套件(SDK)调用App的特定功能。这种方式效率高、可控安全,但难点在于如何说服每一款App达成合作

第二种路线,是基于视觉路线的GUI Agent(图形界面智能体)。智能体像真人用户一样读屏幕、思考过程、模拟点击。不用挨个去跟App谈判,流程更简单,但技术要求更高,同时还容易撞上隐私和App红线。 

好在解决方案不是单选题,几乎所有手机智能体“两个都要”,但视觉路线更主流。大部分手机智能体都会用到“无障碍权限”,其拥有系统级别的最高权限,可以看到屏幕上银行卡密码、聊天记录等所有信息,继而替用户点击、长按、滑动屏幕,相当于手机里的一双“上帝之手”。

但无障碍权限作为手机的系统权限,第三方想获得授权并非易事,因此又出现了第三种技术方案:云手机。智谱在AutoGLM 2.0 中创造了一个独立的“虚拟手机”界面,所有操作都在云端完成。这一方案解决了无障碍权限调用的问题,不再依赖本机的无障碍权限,但依旧需要读屏。

把局势推到下一个阶段的,是豆包手机助手。豆包直接与中兴合作了工程机,让手机操作系统第一次为智能体“让位”。下一代AI原生手机有了雏形,同时,也带来了关于商业生态、合规风险的大讨论。



二 隐私与安全

大模型的建立离不开大量数据训练,在“推理黑箱”本就难解释的情况下,手机智能体还叠加了一层“执行黑箱”——拥有能打破平台的超级权限,把一个人的所有数据汇总在一起。

担心隐私泄露、数据滥用的焦虑不难理解。作为一个普通用户,可以从三个方面了解手机智能体的风险:

第一个是读屏能力带来的隐私问题。走视觉路线的手机智能体,不可避免要分析屏幕上的所有内容,包括聊天记录、商业会议内容,甚至网银App里安全键盘输入的支付密码。一旦被滥用,电信诈骗的门槛可能进一步降低,而持续性的行为监控与画像能力也会更隐蔽、更精准。

第二个风险,来自控制权的让渡,这可能比隐私泄露更紧迫。一方面,AI 幻觉并未消失,已有航空公司智能客服因提供错误优惠信息而引发诉讼,智谱AutoGLM被指出多买了优惠券。在智能体代劳中,欺骗、误导和误执行的概率会迅速放大。

另一方面,针对智能体的主动攻击也在变化。比如,攻击者甚至无需入侵手机或系统,只需要在网页、GitHub 项目或邮件中预埋恶意指令,就可能诱导智能体主动泄露隐私,或者植入木马病毒。

因此第三个风险,也是数据安全的系统性风险。在缺乏外部约束、仅靠自我监督的情况下,高权限应用很容易滑向灰色地带。比如,过去大量“跳广告”神器、自动抢红包、抢外卖外挂,以及手游脚本黑产,正是利用无障碍服务形成的完整黑灰产业链。 

风险并非没有应对方案,作为普通用户,可以关注的是透明度和控制权。

在此前竞争秩序场课题组的测评中,许多手机厂商的智能体被指出无障碍权限使用混乱,多家手机智能体结束任务后,无障碍权限还保持打开状态。调用无障碍权限之前,一些手机智能体也未提示风险,甚至没有征求同意。 

竞争秩序场课题组曾发出对于无障碍权限使用的倡议,这6条倡议已被吸纳进入行业协会标准。

行业逐渐形成的共识是:应当让用户清晰掌握各类执行环境中的数据使用状况,避免超权限、超范围、超目的的访问行为。拿无障碍权限来说,手机智能体需要事前充分告知,并征得同意;事中还应该允许用户随时拒绝、终止接管。 

 





三 商业冲击

除了技术与安全的拉锯,手机智能体还面临商业博弈。

博弈场上站着的是互联网App和手机智能体。对于互联网App,一旦智能体能完全替代真人操作手机,短期冲击的是App拉新率、留存率、用户活跃时长,直接拖累广告回报率这一核心变现指标;长期担忧更深,互联网App可能被管道化(OTT化),退化为智能体的工具零件。

豆包手机助手是一个最直观的样本。发布四天内,这款限量的“工程机” 售罄。在用户交流群中,有人使用豆包手机助手在拼多多刷视频领金币,在抖音极速版获取流量激励,以及尝试让 AI 代打《王者荣耀》。

类似的生态摩擦其实在MCP身上也上演过一轮。MCP试图用统一接口连接AI与外部工具,这是智能体真正“动手做事”的起点。

2024年11月,Anthropic推出MCP协议后,OpenAI、谷歌迅速跟进,国内的阿里云百炼、腾讯云知识引擎、字节跳动扣子空间、百度智能云也相继发布完整MCP服务。但互联网平台的抗拒从未真正消失,甚至时至今日,Anthropic自己也坦言MCP发展得不顺利。

互联网App的顾虑主要是失去场景控制权。举个例子,要开放完整的点外卖服务,必须让智能体接到触价格、店铺信息,甚至用户地址和联系方式等敏感个人数据。而MCP的权限管理、调用审计能力,成熟程度都尚不足以让大型平台放心托付。

更重要的是,如果智能体参与全程交易——帮用户比价,甚至直接推荐哪家餐厅性价比最高,对用户是效率革命,对App却意味着权力让渡。推荐权、排序权和算法优势被抽空,App被降级为普通的供应商。

即便围墙花园开放了,也会有新的矛盾:不透明的排序机制不仅存在被诱导的安全风险,也天然带着“自我优待”的疑云。当服务供给过剩时,智能体该调用谁?是打开淘宝闪购还是美团外卖?是选择高德地图还是百度地图?

这场博弈何时松动,接下来可能有两个触发器:

第一,技术和产品能否真的跑通,市场成熟到足以反向逼迫App接入。这是许多中小平台在观望的态势。 

其二,头部大平台在力争“正当性”问题。开放是否必须、授权要不要给,它们与手机智能体的硬仗会打到法规层面。

 




四 代理的未来深思

智能体授权争端并非始于今日。2017年,腾讯也曾指控华为荣耀手机,收集微信聊天记录用于智能推荐,侵犯了其与用户的数据权益;华为则认为数据属于用户,自己已获用户授权。 

8年后这场战争又迎来了续篇。上线一周后,豆包手机助手接连被微信、支付宝、淘宝、王者荣耀等App限制操作。

在大洋彼岸,冲突已经从明枪暗箭上升至正面法律对抗。11月,亚马逊起诉AI公司Perplexity,指控其浏览器智能体Comet伪装成人类用户、秘密访问并操控亚马逊账户购物,违反了计算机欺诈罪等法律。Perplexity则反击称智能体只是用户的“代理”,将亚马逊的诉讼称为对创新的“霸凌”。 

互联网大公司在争规则制定权,谁能把自己的利益写进行规里,谁就站在更高的博弈位阶上。而面对AI代劳,现有规则体系确实也有无力的地方。

目前规则争议主要集中在两条红线:

其一,代理/代劳授权问题。智能体代劳前自然需要用户授权,但和长期被诟病的隐私政策类似,智能体的“授权”往往存在信息不对称。只有当用户真正理解调用范围、潜在风险与后果,知情同意才有实质意义。

除了用户同意,是否也需要App授权,争议更大。理论上,智能体的合法性来源于用户授权,而非 App 协议;但现实中,智能体的行为直接冲击 App 的商业利益和数据控制权。用户数据被平台视作核心资产,要求开放的智能体可能被指不正当竞争,拒绝开放的App也可能有垄断和阻断创新之嫌。

其二,代劳责任问题。在竞争秩序场课题组的测评中,智谱AutoGLM2.0就“自作主张”地加购了一张“神抢手”优惠券,最终导致账单多出7.9元。智能体并非每次都能准确理解用户需求,“贴心之举”与“越界之嫌”仅一线之隔,极易演变为信任危机

要推动AI代劳具备制度上的正当性,必须建立透明的授权机制、清晰的责任链条以及可靠的安全兜底。在此基础上,智能体与平台方才有谈判的现实土壤。

目前,技术界已率先抛出了自己的理解和方案:给智能体一个主体身份、搭建一套基础设施,围绕此来设计规则方案。

比如,给智能体开设独立钱包,规定其能自由发挥的金额和商品类型;提供“撤销—追溯”的保障机制,让智能体的退款能迅速被处理,从而给AI代劳更自由、更可控的边界。通过技术规则,为AI代劳划出一条“可控的边界”。

这会是一个务实的起点吗?




(作者:肖潇,王俊,章驰 编辑:王俊)

肖潇

记者

关注国内外互联网合规问题。

王俊
向TA提问

记者

做数字经济时代的观察者。