21对话丨全国政协委员、中国工程院院士王坚：发展AI，最重要的是找到真问题

合规科技

冯恋阁,李玉敏,王俊 2024-03-12 11:38

关联内容

展开更多

21世纪经济报道记者冯恋阁李玉敏王俊北京报道

AI，是今年全国两会的热词之一。除了频频在代表委员的提案中被提及，“人工智能+”还首次被写入政府工作报告。

赛迪研究院数据显示，2023年中国AIGC的企业采用率已达15%，市场规模约为14.4万亿元。专家预测，2035年生成式人工智能有望为全球贡献近90万亿元的经济价值，其中我国将突破30万亿元。

百模大战升级，跟不跟？OpenAI发布Sora，意味着什么？AI带来的颠覆性变革下，还有许多追问。

什么是人工智能产业发展的真问题？全国两会期间，南方财经全媒体-21世纪经济报道记者就此对全国政协委员、中国工程院院士王坚进行了专访。

（全国政协委员、中国工程院院士、之江实验室主任、阿里云创始人王坚）

切忌人工智能庸俗化

《21财经》：从22年年底ChatGPT登场至今，产业界已经历经多轮搏杀。您认为，国内的“百模大战”跑出了哪些您认为比较成功的场景、产品或者技术？

王坚：要谈优劣，首先需要明确讨论的对象。我认为当前所谓的百模大战优劣讨论中，包含了几个不同层面的概念。

首先，真正意义上的大模型包括两种类型：第一种是基础模型（foundation model）；第二种是基于基础模型做了一些针对性调试（fine-tuning）的模型，这种大模型在某一个领域、场景表现得更好。前者可以叫通用模型，后者可以称作是应用模型（专用模型）。

在这两类模型之外，还有模型应用。所谓模型应用，是指根据现有的模型开发一个应用来提供服务。在模型应用背后提供支持的，可以是通用模型，也可以是垂直模型。

以OpenAI为例，该公司的GPT是早在2017年就已经存在的技术概念，GPT-3、GPT-4等，是公司开发的基础模型，而ChatGPT、Sora则是基于基础模型的应用产品。

不同层级的概念，比较的标准也不同。因此，比较应该在同类型的技术或产品间展开。

如果是在基础模型的领域作比较，Hugging Face社区上的模型榜单是相对更有参考性的。这个社区汇集了世界各国、各种版本的大语言模型，样本量较大，所以如果模型能上榜，其质量相对来说会有一定保障。

不过，虽然目前行业内有一些共识，但是要给出确切的指标和“谁比谁好”的定论，并不容易。

处在大模型创业初期的公司为了展现其潜力，可能会倾向于强调他们的应用拥有大量的用户；一些更关注底层技术的公司会更注重其基础模型是否优越。我个人观点还是支持基础模型的能力更重要。毕竟，如果能力一成不变，用户的数量增长和留存率都很难维持。

总而言之，我认为谈比较还太早。对于这种还处于发展早期的技术，讨论出一个确切的答案要考虑太多复杂的因素，还需要投入更多的精力和资源研究讨论。

《21财经》：两会期间发布的政府工作报告首次提出了“人工智能＋”的概念，您怎么理解这个词？您认为它会对AI以及其他行业产生怎样的影响？

王坚：“人工智能＋”是对未来人工智能产业非常好的总结，对推动人工智能技术在我国快速发展有着极其关键的引导作用。但需要我们认真理解“人工智能+”的机理以及它对产业变革影响的内在规律。我们一定要防止出现“AI”的深刻、长远影响走向庸俗化，产业发展上只是“新瓶装旧酒” 的情况，让我们失去一次历史性机会。

除了要警惕AI庸俗化，我认为还应该思考“人工智能＋”的真正含义，明确人工智能的概念和对千行百业的真正意义。需不需要用？具体用在哪个方面？该怎么用？不同行业面对这些问题的答案不尽相同。

同时，只想到AI的加和效应，可能太过简单。人工智能未来不会只是一个叠加在现存的应用上的工具，它可能会改变一个行业的生产方式。以Sora为例，它的出现可以简单看作是“AI+短视频”的成果，但本质是智能技术除了理解语言之外，开始理解和生成物理世界，尽管它的表达是用视觉的。

发展新技术需要审慎考量。从业者要思考究竟如何与AI结合能够实现质的突破，而不是把“人工智能＋”当成一个框，把所有已有的东西都套进来。

人类暂时无法预测AI的最佳实践

《21财经》：今年年初，OpenAI发布了新产品Sora。Sora的出现对国内AI产业冲击大吗？

王坚：很多人看到Sora后只觉得它可以用来做短视频，其实是对这个技术的低估。

过去讨论大模型，很多时候主要说的是大语言模型。语言模型输出局限于文字的表达；Sora这类产品和技术不同，它们输出的是视觉性的结果。尽管仍有许多无法通过视觉呈现的东西，但相对文字，视觉描述的真实世界能提供更多细节。

Sora给人类社会带来的惊喜在于其通过精准的视频生成，展现出了对物理世界优秀的理解能力。Sora和ChatGPT背后的基础模型其实都基于GPT-4，但输出上已经从文字迈向视觉，这种优异表现，让我们意识到其背后的基础模型在理解能力上又有了极大进步。

它的出现也会让人开始思考：人工智能模型是否真正能够理解我们的世界，甚至能够在理解和生成方面超越我们？Sora展现出的潜力让我意识到，这个问题的答案很有可能是肯定的。

回到国内产业影响这个问题。我认为，需要坦率地承认，在这个赛道上国内外确实是有一定差距。以前国内也出现过类似的产品，但是生成的视频不超过10秒，技术效果和市场表现都比较一般，企业最终也没能长久存活。

根源问题无非就是在类似GPT4的基础模型技术上还有差异和壁垒。我认为，不需要心急，也没必要盲目地追逐热点，扎扎实实地在基础模型研究的过程中，不断发现和解决问题，最终会开发出属于中国的基础模型和商业模式。

《21财经》：今年可以称得上人工智能的应用元年，阿里云也在不久前发布能让图片“开口唱歌”的技术EMO。您观察比较现实的落地应用场景有哪些？

王坚：现实的应用场景是什么，这个问题很难说清楚。我认为，至少会比大家目前着眼较多文字、图片、视频等生成领域要广泛得多。

Sora的出现使我们意识到人工智能在世界理解问题上的进步，这是AI智能程的革命性突破，使其超越了其传统意义上只会模仿人的程序，进一步迈向数字智能。AI未来的可能性是无限的。

在我看来，最重要的还是坚持基础上的研究突破，把基础打牢、筑高，应用才能充分探索。

简单来说，我认为云计算-人工智能-AI应用的关系，和电-电动机-电动汽车的关系非常相似。

电能被发现之后，电动机也被发明和广泛使用。但从电动机出现到人们开上电动车，中间走过了百年时光。我们花费这么多年才发现电动车这一最佳应用，要花多长时间才能发现AI的最佳应用呢？坦白讲，AI技术还处在相当早期的阶段，可能谁都给不出答案。

AI之于当前的人类社会，就如同电灯之于百年前的人。现在的文生图、文生视频的模式，就类似电气时代早期电灯这类很初级的电能使用。

人类会从电灯一步步走向电动汽车，不能说还没把灯点亮就想到更远的事，同时也不能觉得电灯就是电力使用的全部。AI发展也是同理，其应用突破会随着技术不断升级一一出现，不是一蹴而就的。

在电动车成为现实的时候，电灯依旧是我们生活的基本单元，而电气化几乎涵盖了我们生产生活的近乎全部。我对人工智能引领的“第四次工业革命”也有这样的期待。

《21财经》：近期阿里、京东云降价相继降价，背后有何战略思考？人工智能应用浪潮下云计算有何新的增长点？

王坚：当下，人工智能的带来的工业革命浪潮正在全方位影响人类社会。作为一名云计算领域的从业者，我认为，AI同时也给云计算的带来了第三次革命浪潮。

算力是人工智能发展的三要素之一，而云计算是最好的提供算力的技术手段，英伟达的黄仁勋也表达过类似的观点。

云计算的算力，无疑会给大模型进步提供很大支持。这一轮的降价，最直观的效果是对AI发展有积极作用。之前从业者都担心算力贵导致无法支持AI训练，现在算力成本降低了，研发者在这方面的受到的掣肘会小一些。

我还是希望算力供给方和大模型开发方的关系能够越来越良性，大家共同成长。

开发基础模型是发展核心

《21财经》：您之前在受访时谈到，对人工智能技术来说，最重要的是找到每一轮发展的真问题。您认为当前AI产业的真问题是什么？

王坚：在我看来，当下的真问题就是如何打造一个属于中国的、足够强大的基础模型。

人工智能在很长时间里面找的都是玩具性问题（toy problem），比如，最早的时候，科学家尝试教人工智能下象棋。从深蓝的对弈到AlphaGo打败了李世石，AI在象棋界的成就次次都能引起很大轰动，但是后续对其他产业产生的影响可能不多。

ChatGPT和后续Sora的出现改变了这一点，它让我们意识到，AI的理解力已经能够涉足其他领域解决事实性的问题，我认为未来这样的情况会越来越多。我想我们可以设想一个这样的终极场景——让AI解决一个城市的运行和发展问题，城市GDP是多少、日常如何运转，都可以通过强大的基础模型来协调解决。

不过，从ChatGPT开始，到人工智能能够理解世界，还有很多工作要做。所以，专注打造基础模型，从根源上提升技术能力，是产业发展的核心。

《21财经》：数据也是产业发展不可缺少的动力，您认为当前高质量数据荒的问题应该如何解决？

王坚：数据问题的解决与建立一个真正的大模型息息相关。

以OpenAI为例，大部分ChatGPT的训练数据是互联网公开数据。技术人员开发了大模型，在使用数据训练迭代的过程中判断数据的优劣。换言之，如果不开始做模型，从业者就无法知道哪些数据真正有用。

把好的模型建起来，在运行的过程中，自然会找到合适的数据。基础模型的构建能够帮助人类完成AI“三驾马车”的考验：数据的数量和质量如何，算力的供给够不够，算法是否足够优秀……只有在一个真实的模型中，才可以完成对这些问题的检证。

治理是法律和技术配合

《21财经》：AI发展以来，这个行业在不同层面的“路线之争”常常被人们关注和讨论。随着应用变多，有人觉得AI变得“头脑发达，四肢简单”，没有解决人类发展的真问题。您觉得人工智能走偏了吗？

王坚：我也听过类似的观点——“人工智能应该先做到替人类下矿井、检修高压线、在空中擦玻璃；而不是先能够做视频、写文章、画画。”我对此非常赞成。

但是这其实并不是走偏，是技术发展还没到达让人工智能“四肢发达”的阶段。对AI目前的水平来说，让头脑发达（以GPT为代表），比让四肢灵巧容易。人类的灵巧的四肢是不断进化的结果，机器人短时间内可能很难实现。

至于为什么AI已经足够聪明，却还是出现“一本正经说瞎话”的情况。我认为还是基础模型能力不足，导致它没有办法真正理解世界。

《21财经》：人工智能，虽然可能在您看来我们才刚刚起步。但目前在应用中已经出现了AI换脸诈骗这类问题。您在AI治理方面有何建议？

王坚：我个人认为，技术投入使用后发现问题是非常正常的，问题的出现和解决会推动产业的发展。

我倾向于相信，技术发展会带来的问题一定会被人类自己解决。不过，这并不意味着问题会被自动解决，需要订立规则。解决AI应用导致的法律和伦理问题，需要法律和技术的协作配合。

以AI换脸诈骗为例，诈骗的成因之一，是日常生活中对人脸数据识别的大量使用。通过技术手段加强保护，或者制定规则减少使用、加大对滥用行为的惩罚，可能可以有效地阻止此类情况发生。

不管怎么样，我们对此要有信心。技术产生的问题，人类定会解决，历史证明了这一点。

（作者：冯恋阁,李玉敏,王俊编辑：王俊）

南方财经全媒体集团及其客户端所刊载内容的知识产权均属其旗下媒体。未经书面授权，任何人不得以任何方式使用。详情或获取授权信息请点击此处。

加载全文

关联专题

筑梦现代化共绘新图景

冯恋阁

记者

关注人工智能、知识产权、数据合规等互联网科技领域新动向。微信：isfenglg

李玉敏向TA提问

资深记者

专注于深度调查和金融风险领域报道。