21对话丨全国政协委员、中国工程院院士王坚：发展AI，最重要的是找到真问题

21世纪经济报道 21财经APP

2024-03-12

21世纪经济报道记者冯恋阁李玉敏王俊北京报道

AI，是今年全国两会的热词之一。除了频频在代表委员的提案中被提及，“人工智能+”还首次被写入政府工作报告。

赛迪研究院数据显示，2023年中国AIGC的企业采用率已达15%，市场规模约为14.4万亿元。专家预测，2035年生成式人工智能有望为全球贡献近90万亿元的经济价值，其中我国将突破30万亿元。

百模大战升级，跟不跟？OpenAI发布Sora，意味着什么？AI带来的颠覆性变革下，还有许多追问。

什么是人工智能产业发展的真问题？全国两会期间，南方财经全媒体-21世纪经济报道记者就此对全国政协委员、中国工程院院士王坚进行了专访。

（全国政协委员、中国工程院院士、之江实验室主任、阿里云创始人王坚）

切忌人工智能庸俗化

《21财经》：从22年年底ChatGPT登场至今，产业界已经历经多轮搏杀。您认为，国内的“百模大战”跑出了哪些您认为比较成功的场景、产品或者技术？

王坚：要谈优劣，首先需要明确讨论的对象。我认为当前所谓的百模大战优劣讨论中，包含了几个不同层面的概念。

首先，真正意义上的大模型包括两种类型：第一种是基础模型（foundation model）；第二种是基于基础模型做了一些针对性调试（fine-tuning）的模型，这种大模型在某一个领域、场景表现得更好。前者可以叫通用模型，后者可以称作是应用模型（专用模型）。

在这两类模型之外，还有模型应用。所谓模型应用，是指根据现有的模型开发一个应用来提供服务。在模型应用背后提供支持的，可以是通用模型，也可以是垂直模型。

以OpenAI为例，该公司的GPT是早在2017年就已经存在的技术概念，GPT-3、GPT-4等，是公司开发的基础模型，而ChatGPT、Sora则是基于基础模型的应用产品。

不同层级的概念，比较的标准也不同。因此，比较应该在同类型的技术或产品间展开。

如果是在基础模型的领域作比较，Hugging Face社区上的模型榜单是相对更有参考性的。这个社区汇集了世界各国、各种版本的大语言模型，样本量较大，所以如果模型能上榜，其质量相对来说会有一定保障。

不过，虽然目前行业内有一些共识，但是要给出确切的指标和“谁比谁好”的定论，并不容易。

处在大模型创业初期的公司为了展现其潜力，可能会倾向于强调他们的应用拥有大量的用户；一些更关注底层技术的公司会更注重其基础模型是否优越。我个人观点还是支持基础模型的能力更重要。毕竟，如果能力一成不变，用户的数量增长和留存率都很难维持。

总而言之，我认为谈比较还太早。对于这种还处于发展早期的技术，讨论出一个确切的答案要考虑太多复杂的因素，还需要投入更多的精力和资源研究讨论。

《21财经》：两会期间发布的政府工作报告首次提出了“人工智能＋”的概念，您怎么理解这个词？您认为它会对AI以及其他行业产生怎样的影响？

王坚：“人工智能＋”是对未来人工智能产业非常好的总结，对推动人工智能技术在我国快速发展有着极其关键的引导作用。但需要我们认真理解“人工智能+”的机理以及它对产业变革影响的内在规律。我们一定要防止出现“AI”的深刻、长远影响走向庸俗化，产业发展上只是“新瓶装旧酒” 的情况，让我们失去一次历史性机会。

除了要警惕AI庸俗化，我认为还应该思考“人工智能＋”的真正含义，明确人工智能的概念和对千行百业的真正意义。需不需要用？具体用在哪个方面？该怎么用？不同行业面对这些问题的答案不尽相同。

同时，只想到AI的加和效应，可能太过简单。人工智能未来不会只是一个叠加在现存的应用上的工具，它可能会改变一个行业的生产方式。以Sora为例，它的出现可以简单看作是“AI+短视频”的成果，但本质是智能技术除了理解语言之外，开始理解和生成物理世界，尽管它的表达是用视觉的。

发展新技术需要审慎考量。从业者要思考究竟如何与AI结合能够实现质的突破，而不是把“人工智能＋”当成一个框，把所有已有的东西都套进来。

人类暂时无法预测AI的最佳实践

《21财经》：今年年初，OpenAI发布了新产品Sora。Sora的出现对国内AI产业冲击大吗？

王坚：很多人看到Sora后只觉得它可以用来做短视频，其实是对这个技术的低估。

过去讨论大模型，很多时候主要说的是大语言模型。语言模型输出局限于文字的表达；Sora这类产品和技术不同，它们输出的是视觉性的结果。尽管仍有许多无法通过视觉呈现的东西，但相对文字，视觉描述的真实世界能提供更多细节。

Sora给人类社会带来的惊喜在于其通过精准的视频生成，展现出了对物理世界优秀的理解能力。Sora和ChatGPT背后的基础模型其实都基于GPT-4，但输出上已经从文字迈向视觉，这种优异表现，让我们意识到其背后的基础模型在理解能力上又有了极大进步。

它的出现也会让人开始思考：人工智能模型是否真正能够理解我们的世界，甚至能够在理解和生成方面超越我们？Sora展现出的潜力让我意识到，这个问题的答案很有可能是肯定的。

回到国内产业影响这个问题。我认为，需要坦率地承认，在这个赛道上国内外确实是有一定差距。以前国内也出现过类似的产品，但是生成的视频不超过10秒，技术效果和市场表现都比较一般，企业最终也没能长久存活。

根源问题无非就是在类似GPT4的基础模型技术上还有差异和壁垒。我认为，不需要心急，也没必要盲目地追逐热点，扎扎实实地在基础模型研究的过程中，不断发现和解决问题，最终会开发出属于中国的基础模型和商业模式。

《21财经》：今年可以称得上人工智能的应用元年，阿里云也在不久前发布能让图片“开口唱歌”的技术EMO。您观察比较现实的落地应用场景有哪些？

王坚：现实的应用场景是什么，这个问题很难说清楚。我认为，至少会比大家目前着眼较多文字、图片、视频等生成领域要广泛得多。

Sora的出现使我们意识到人工智能在世界理解问题上的进步，这是AI智能程的革命性突破，使其超越了其传统意义上只会模仿人的程序，进一步迈向数字智能。AI未来的可能性是无限的。

在我看来，最重要的还是坚持基础上的研究突破，把基础打牢、筑高，应用才能充分探索。

简单来说，我认为云计算-人工智能-AI应用的关系，和电-电动机-电动汽车的关系非常相似。

电能被发现之后，电动机也被发明和广泛使用。但从电动机出现到人们开上电动车，中间走过了百年时光。我们花费这么多年才发现电动车这一最佳应用，要花多长时间才能发现AI的最佳应用呢？坦白讲，AI技术还处在相当早期的阶段，可能谁都给不出答案。

AI之于当前的人类社会，就如同电灯之于百年前的人。现在的文生图、文生视频的模式，就类似电气时代早期电灯这类很初级的电能使用。

人类会从电灯一步步走向电动汽车，不能说还没把灯点亮就想到更远的事，同时也不能觉得电灯就是电力使用的全部。AI发展也是同理，其应用突破会随着技术不断升级一一出现，不是一蹴而就的。

在电动车成为现实的时候，电灯依旧是我们生活的基本单元，而电气化几乎涵盖了我们生产生活的近乎全部。我对人工智能引领的“第四次工业革命”也有这样的期待。

《21财经》：近期阿里、京东云降价相继降价，背后有何战略思考？人工智能应用浪潮下云计算有何新的增长点？

王坚：当下，人工智能的带来的工业革命浪潮正在全方位影响人类社会。作为一名云计算领域的从业者，我认为，AI同时也给云计算的带来了第三次革命浪潮。

算力是人工智能发展的三要素之一，而云计算是最好的提供算力的技术手段，英伟达的黄仁勋也表达过类似的观点。

云计算的算力，无疑会给大模型进步提供很大支持。这一轮的降价，最直观的效果是对AI发展有积极作用。之前从业者都担心算力贵导致无法支持AI训练，现在算力成本降低了，研发者在这方面的受到的掣肘会小一些。

我还是希望算力供给方和大模型开发方的关系能够越来越良性，大家共同成长。

开发基础模型是发展核心

《21财经》：您之前在受访时谈到，对人工智能技术来说，最重要的是找到每一轮发展的真问题。您认为当前AI产业的真问题是什么？

王坚：在我看来，当下的真问题就是如何打造一个属于中国的、足够强大的基础模型。

人工智能在很长时间里面找的都是玩具性问题（toy problem），比如，最早的时候，科学家尝试教人工智能下象棋。从深蓝的对弈到AlphaGo打败了李世石，AI在象棋界的成就次次都能引起很大轰动，但是后续对其他产业产生的影响可能不多。

ChatGPT和后续Sora的出现改变了这一点，它让我们意识到，AI的理解力已经能够涉足其他领域解决事实性的问题，我认为未来这样的情况会越来越多。我想我们可以设想一个这样的终极场景——让AI解决一个城市的运行和发展问题，城市GDP是多少、日常如何运转，都可以通过强大的基础模型来协调解决。

不过，从ChatGPT开始，到人工智能能够理解世界，还有很多工作要做。所以，专注打造基础模型，从根源上提升技术能力，是产业发展的核心。

《21财经》：数据也是产业发展不可缺少的动力，您认为当前高质量数据荒的问题应该如何解决？

王坚：数据问题的解决与建立一个真正的大模型息息相关。

以OpenAI为例，大部分ChatGPT的训练数据是互联网公开数据。技术人员开发了大模型，在使用数据训练迭代的过程中判断数据的优劣。换言之，如果不开始做模型，从业者就无法知道哪些数据真正有用。

把好的模型建起来，在运行的过程中，自然会找到合适的数据。基础模型的构建能够帮助人类完成AI“三驾马车”的考验：数据的数量和质量如何，算力的供给够不够，算法是否足够优秀……只有在一个真实的模型中，才可以完成对这些问题的检证。

治理是法律和技术配合

《21财经》：AI发展以来，这个行业在不同层面的“路线之争”常常被人们关注和讨论。随着应用变多，有人觉得AI变得“头脑发达，四肢简单”，没有解决人类发展的真问题。您觉得人工智能走偏了吗？

王坚：我也听过类似的观点——“人工智能应该先做到替人类下矿井、检修高压线、在空中擦玻璃；而不是先能够做视频、写文章、画画。”我对此非常赞成。

但是这其实并不是走偏，是技术发展还没到达让人工智能“四肢发达”的阶段。对AI目前的水平来说，让头脑发达（以GPT为代表），比让四肢灵巧容易。人类的灵巧的四肢是不断进化的结果，机器人短时间内可能很难实现。

至于为什么AI已经足够聪明，却还是出现“一本正经说瞎话”的情况。我认为还是基础模型能力不足，导致它没有办法真正理解世界。

《21财经》：人工智能，虽然可能在您看来我们才刚刚起步。但目前在应用中已经出现了AI换脸诈骗这类问题。您在AI治理方面有何建议？

王坚：我个人认为，技术投入使用后发现问题是非常正常的，问题的出现和解决会推动产业的发展。

我倾向于相信，技术发展会带来的问题一定会被人类自己解决。不过，这并不意味着问题会被自动解决，需要订立规则。解决AI应用导致的法律和伦理问题，需要法律和技术的协作配合。

以AI换脸诈骗为例，诈骗的成因之一，是日常生活中对人脸数据识别的大量使用。通过技术手段加强保护，或者制定规则减少使用、加大对滥用行为的惩罚，可能可以有效地阻止此类情况发生。

不管怎么样，我们对此要有信心。技术产生的问题，人类定会解决，历史证明了这一点。

(作者：冯恋阁,李玉敏,王俊编辑：王俊）