院士谈AI大模型:“不是喊口号那么容易”,目前数据量“不解渴”

数字生产力马嘉璐 2023-05-23 17:10

南方财经全媒体见习记者马嘉璐 南沙报道

 

人工智能发展正在驶入“快车道”。面对ChatGPT,我们如何发展自己的人工智能大模型?5月22日,2023大湾区科学论坛人工智能分论坛——第四届广东人工智能发展论坛暨2023新一代人工智能院士论坛在广州南沙举办,以“智创大引擎,赋能新未来”为主题,邀请各领域院士、行业专家围绕大数据、大算力和大模型等内容进行深入探讨。

“要想做大模型,不是说拍拍脑袋、喊个口号那么容易,需要有算力,是有几十亿、上百亿的投入才能做出点像样的东西。”中国工程院院士、鹏城实验室主任高文表示,目前我国的人工智能大模型在算力、算法、数据方面不同程度地面临挑战,需要逐个击破。希望能够进一步发挥数据的价值,融合算力、算法,使大模型性能更加优化。

中国科学院院士、深圳大学校长毛军发认为,ChatGPT既不是“洪水猛兽”,也不是“灵丹妙药”,应抓住机遇,借助ChatGPT的热潮使更多的人工智能项目落地。

2023大湾区科学论坛人工智能分论坛现场,中国工程院院士、鹏城实验室主任高文致辞

“既不是洪水猛兽,也不是灵丹妙药”

“的确是百年一遇的技术变革。”IEEE Fellow、广东省人工智能与机器人学会常务理事王孝宇长期在产业界深耕,他表示,这次通用人工智能表现出通用能力的突破,不管是对其他领域的技术,还是对整个产业的商业化,都带来非常深刻的变革影响,

在人工智能行业已工作三十余年的ACM/IEEE Fellow、腾讯首席科学家张正友坦陈自己看到ChatGPT“确实感到震惊”。他认为,ChatGPT带来的虽然不是“互联网时代”,但可以说是“iPhone时代”。“ChatGPT确实展现出当前人工智能研究已经取得‘质’的进步,但还没到毁灭人类的地步。”

张正友以计算器举例:在计算器被发明出来时,有人认为不再使用算盘会让人类的脑力下降,但实际上这种情况并没有发生。他认为,同样的,拥抱ChatGPT也可以使人类的能力再次得到质的飞跃。不过,张正友也指出,ChatGPT并不完美,“一本正经胡说八道”的问题仍待解决,此外还面临着算力成本高、多个模型竞争与协作等问题。最重要的是,“GPT算法是否就是通往通用人工智能的唯一路径,仍然值得探讨。”

IEEE Fellow、国际欧亚科学院院士、新一代人工智能产业技术创新战略联盟联合秘书长李世鹏分析,GPT的大规模参数,使其基础模型在零样本学习的情况下就能很好地工作,经过少数样本的监督学习就能有惊人的性能。非监督学习使它具有了一些初步的抽象能力,并进一步具有了归纳能力,即可以将类似属性的数据聚集在一起,尽管它本身并不知道到底是什么属性。通过提示训练,ChatGPT将这些属性打上能够被人类理解的标签,使它能够更好地理解人类意图,这也使其与用户的交互更智能、更准确,进而为进一步自我增强采集了更多的数据。基于完备的基础模型、人类的提示训练和初现的归纳能力,ChatGPT就可以生成很合理的答案框架。

中国工程院外籍院士、香港中文大学(深圳)副校长罗智泉也认为,人类的智慧可以集中体现在记忆、关联、举一反三和计算四个方面,ChatGPT目前在记忆、计算能力方面已经可以超越人类,又显示出一定的举一反三能力。但关键的是,ChatGPT不具备人类的原始创新能力,也就是“从0到1”。利用它可以使各行各业的人们的工作更加简化。同时,罗智泉也提醒到,ChatGPT将对社会产生很大冲击,尤其是带来的失业问题,应该提前部署应对。

此前,包括特斯拉 CEO 联合创始人埃隆·马斯克在内的企业家和学者发布公开信,呼吁全球所有AI实验室要暂停训练比GPT-4更强的系统六个月。对此,香港大学副校长(学术发展)、地球科学系全球可持续发展讲席教授、国际欧亚科学院院士宫鹏认为,ChatGPT的出现离不开人工智能行业几十年的积累,有其存在的客观规律,它的发展进程并不是少数人就可以改变的。而且,目前人类对ChatGPT是“知其然而不知其所以然”,仍然需要进一步研究。

“ChatGPT既不是洪水猛兽,也不是灵丹妙药,要一分为二地来看待。”毛军发总结道,ChatGPT掀起了人工智能的又一次高潮,我们应该抓出机遇,借助ChatGPT的热潮使更多的人工智能项目落地。

2023大湾区科学论坛人工智能分论坛现场

对大模型来说 数据量“仍然不解渴”

“要想做大模型,不是说拍拍脑袋、喊个口号那么容易,需要有算力,是有几十亿、上百亿的投入才能做出点像样的东西。”高文表示,目前我国的大模型在算力、算法、数据三个基本要素方面不同程度地面临挑战,需要逐个击破。

山东大学信息科学与工程学院教授、华为昇腾计算业务CTO周斌详细介绍道,大模型的系统工程围绕着从基础硬件到算法、算力、开发工具、调试调优、部署等一系列非常复杂的应用开发系统,每一环节都存在着大量的工程和技术挑战。他表示,希望有高质量的数据、高性能的计算平台以及更好的框架设计,来支撑大规模的训练和调优、支撑大规模并发系统的优化。

鹏城实验室作为国家战略科技力量的重要组成部分,建设了具有E级AI算力的“鹏城云脑”重大科技基础设施。高文透露,在算力方面,鹏城实验室已投入大量资源建设“鹏城云脑II”,并将投入更多用于建设“鹏城云脑III”,面向全社会提供大模型训练的算力底座。

得益于开源生态,算法几乎是“公开的知识”。高文指出,下一个需要攻克的,就是数据量不足的问题。目前企业可以通过公开渠道相对容易地购买数据,但“仍然不解渴”。此次论坛发布的“鹏城·星云系统”和“鹏城·星方数据集”,就是聚焦天文和遥感两大学科的科研云平台,希望用数据让AI更加“聪明”,从而更好地满足国际大科学计划和工程的需求。高文还介绍,鹏城实验室也将实施增强大模型技术平台计划,数据持有方能够通过数据在有限范围共享的方式对大模型进行微调适配,换取大模型的使用权益;鹏城通过使用更广泛的数据获得更普适的大模型,形成互利共赢。

数据到底有多重要、难在哪儿?鹏城实验室云脑使能研究所所长张伟进行了详细解释:“数据之于大模型就像石油之于汽车,汽车是无法直接使用原油的,原油经过一系列复杂的过程炼化成汽油后,才能给汽车使用。”同样的,海量原始数据需要经过“炼化”构建成数据集,这样才能真正有效地提供给大模型训练。

在不同专业领域,数据体现出不同方面的复杂性。广州大学天体物理中心副主任王锋面对的数据量是“太多”。他参与的目前世界最大的500米口径球面射电望远镜(FAST),每天处理的数据量与全国互联网一天产生的数据量相当;正在参与建设的平方公里阵列射电望远镜,每天处理的数据量将可能与全球互联网一天产生的数据量相当。

中山大学中山眼科中心副院长、广东省近视防空专家指导委员会主任委员卓业鸿面对的数据量则是“太少”。卓业鸿说,病例数据存在共性,但更多是个性化的,难以用同一个标准去统一。一方面,是因为每个病人的情况都不尽相同,又会分散到不同科室;另一方面,每位医生的记录习惯也有所不同,更重要的是,不同医院不同检测设备的数据质量参差不齐。这就造成了在医疗领域能够实际用于大模型训练的数据并不多,需要进行特殊的“炼化”。

以前,这个“炼化”过程基本是依靠人工清洗、标注等来完成的,成本高且效率有限。张伟透露,鹏城实验室正在尝试构建一整套数据加工的能力,将数据和算力、算法真正融通,在多领域形成系统性的研究能力。

 

大湾区人工智能布局应“顶天立地”

作为全国高精尖企业和人才的聚集地,粤港澳大湾区高规格谋划了人工智能的产业和技术布局。数据显示,2022年广东省人工智能企业已超过1500家,人工智能核心产业规模突破1500亿元,带动相关产业产值近万亿元,位列全国第一梯队。

张伟认为,粤港澳大湾区具备人才优势,不仅聚集国内人才,也在逐渐吸引国际人才;大湾区还具有传统产业优势,可以为人工智能行业发展提供软硬件支持。在政策的大力扶持下,大湾区已经成为人工智能行业发展的沃土。

“用一句老话来说,就是‘顶天立地’。”毛军发提醒,粤港澳大湾区在人工智能领域虽然具备明显优势,但也要清醒地认识到,很难面面俱到。因此,一方面要“顶天”,抓紧推动数据、算力、算法基础设施的构建;另一方面要“立地”,选准一些重点应用场景进行落地。

布局人工智能大模型,下一步应该怎么做?毛军发建议进一步加强开放,提高数据、算力和算法的泛用性、多元服务,让更多的用户能够方便地使用。罗智泉认为,算法不能仅仅停留在“微调”的层面,还是应该做原创,要把复杂度、成本降下来,使各项性能得到综合优化。李世鹏则强调,要以基础研究的创新引领产业发展。

“一个大模型很难解决所有问题。”张正友认为,如果多个大模型之间可以实现良好的协作,将会“发挥出巨大威力”。IEEE/IET Fellow、鹏城实验室副主任石光明表示,在鹏城实验室提供的算力、算法支持下,如果能够进一步发挥数据的价值,我国的人工智能大模型将有望迈上新的台阶。

 

 

(作者:马嘉璐 编辑:李苑立)