香港科技大学(广州)信息枢纽院长陈雷:AI大模型构建需产业角色加强协同

21Tech骆轶琪,郭美婷 2023-05-25 20:05

可以考虑探索算力交换、数据共享、软硬件协同等方式帮助实现能力优化。

21世纪经济报道记者骆轶琪、郭美婷 广州报道

回看人工智能发展的历史浪潮,上一次备受关注的是由深度学习、CNN(卷积神经网络)技术突破,实现对文字和图像识别的良好成果。但相比之下,此次由Transformer架构推动的AI大模型成效更是为人惊艳。

近日,香港科技大学(广州)(以下简称“港科广”)信息枢纽院长、讲座教授陈雷接受21世纪经济报道记者专访,谈到当前AI大模型构建的核心要点,后续竞争赛道以及由此对学科教育体系带来的影响和变革。

陈雷教授是IEEE(电气与电子工程师协会)会士,ACM(美国计算机协会)杰出科学家,也是IEEE旗下专注计算机领域数据挖掘方向TKDE期刊主编。

他认为,当前构建AI大模型面临着数据、算法模型、算力三方面难题,可以考虑通过算力交换、数据共享、软硬件协同等方式帮助实现能力优化,但当前在执行中还面临一定挑战。而AI大模型兴起对学科教育和人才培养也提出新的思考。

Transformer+强化学习

陈雷教授分析道,此前深度学习和CNN主要是在解决时序数据、图像等方面取得了很大成绩。但是在解决长文本,尤其是语言文本理解、长序列、视频的时候,就显示出了弊端。

Transformer架构解决了这些弊端,是在于其通过encoder-decoder(编码-解码模型)方式,在另一个空间生成内容,再通过人类反馈强化学习的方式构建奖励模型,由模型学习其中的反馈打分机制,因此可以有广泛的应用空间,也打破了原本壁垒,对长序列、长文本可以有更好理解。

尤为重要的是,Open AI引入1000多名语言学家对生成的文章进行打分。其要点就在于用Transformer架构+强化学习的方式,让大模型学习人类对所生成内容的打分机制,那么机器可以自己对生成的内容进行打分,就有无限多“高分”的内容被生成出来。

这也导致AI大模型容易出现“胡言乱语”的现象:因为GPT的工作机制,就是把内部生成分数最高的内容作为答案输出,不会不给出答案,且这些预训练模型利用的训练信息是收录在某一个时间段内,因此就会出现并不正确的信息。

但由此意味着在落地到场景中会面临挑战。比如在对精度要求高的自动驾驶场景,容错机制会更为严苛。实际上业界认为,GPT此番成果更多是验证了该生成式AI的可行性,那么后续具体应用中可以进一步对其进行改善。

陈雷教授分析认为,构建大模型目前面临的难题包括数据、算法模型、算力三个方面。

第一重困难是数据质量。在抽取数据时要进行数据清洗、标注,剔除诸如广告等内容。“怎么实现以一当十的标注效果,就是我们所在学域探究的问题。比如进行数据分析时,把数据集合起来,相似的数据放在一起,标注一个数据头,其他数据都有类似标签,把冗余的数据清除掉。”他指出,以自动驾驶场景为例,比如相比雷达的信息,有些摄像头捕捉的信息就是冗余部分。在数据分析时,如果不清除冗余数据,将极大加重模型训练的时间。

他介绍道,现有的一些实验表明,假如对一个基本模型用原始数据训练要花费超过200个小时,但是完成数据精细化抽取后,只需要6秒左右即可完成训练。因此数据清洗和抽取的过程就需要人来干预,以期用相对精简的数据,让训练效率进一步提升。

第二重难题是算法模型改善。比如要实现自动驾驶更高的稳健度和鲁棒性,遇到紧急问题不仅仅是直接选择暂停,需要对算法模型进行优化,提出安全的解决方案。

第三重就是备受关注的算力问题。Open AI训练GPT耗费了数万块GPU芯片,这所需要的采购成本不是一般学校和小机构可以担负得起。借助探索软件协同、算力交易等方式就变得重要。

软硬件的难题

Open AI通过“暴力美学”方式构建出让人惊艳的AI大模型,但背后所需的算力成本也让人瞠目。寻找更多元化的方式训练和计算正成为重要命题。

算力交换是很好的课题。”陈雷教授指出,业界在探索研究,能否借助诸如区块链等平台实现算力交换。“比如把算力放在区块链上,用token自主交换。那么要用到大模型训练、需要算力的时候,用token‘买’过来算力,用完了再释放出去算力,还可以挣一些token。”

但这是理想状态,在实际应用中还需要面临算力定价、政策监管等问题。很多人不愿意交换算力,根本原因在于担心被恶意使用而报废。因此倘若完全在乌托邦一般的区块链空间中交换使用并不现实,需要借助联盟链等方式实现。这就需要有机构牵头,把算力联合起来并落实。

除了算力,数据共享也是搭建大模型要攻克的一个难题。因为不同的数据对不同所有人的意义有差异,数据本身的质、量也不同,那么按照什么标准进行数据定价还需要界定。

同时交易双方面临的客观环境不同,带宽、传输等差异可能也会影响到算力共享效果。这些背后都涉及对交易进程进行监管。

在搭建大模型过程中,除了算力这种底层硬件,软件也发挥着重要作用。倘若能实现软硬件优化协同,最终或许能通过更少的GPU芯片来实现同样好的训练和应用效果。

陈雷教授指出,如何与硬件更好匹配,这就对云计算资源提出要求。这也是微软选择收购Open AI的原因,用软件反推对硬件的能力调优。

举例来说,在未来,人与手机的交互可能将不只是通过触控键盘,而是仅通过语音。这时候手机硬件就需要实现,如何在噪声环境下,明确手机主人的声音、准确收音并实现功能。这就同时对软硬件提出新要求。

培养模式思变

AI大模型无可避免会对既有日常工作和生活模式带来一定程度变化。首要关注的就是人才培养,过往一股脑刷题的模式可能要思变。

大模型工具与教学的边界到底在哪里也受到争议。此前在大学校园就曾有两大阵营:一方对GPT严防死守,一方对GPT充分拥抱。香港科技大学就是后者。

陈雷教授介绍,港科广正筹备在校园内大规模使用GPT4,已经在通过向微软购买云服务的方式铺设。

这对老师提出的挑战是,一成不变的教学和考试方式该怎么改变。”他举例道,比如今年的期中考试,港科广允许借助GPT工具,采用开放式提问的评估方式,而不是有固定答案评判正误。

据介绍,在教学设计方面,港科广今年开始招收本科生,在入校后前两年不会安排选择专业,而是给学生提供更多空间,让他们持续与教授磨合研习,自己发掘感兴趣的专业领域。

对于人才能力培养,陈雷教授认为,大模型提供了大量数据,提问能力会很重要;培养交叉学习研究能力也很关键。

“我们的研究生和博士生都采用双导师制度,不可以只跟着一位导师,要交叉学习。”他举例道,比如让学生同时跟随数据分析和生物学两个专业的老师学习,做交叉的学科研究,如此也让学生更有学习动力。“港科广信息枢纽学院陆续与工业界成立了联合实验室,宗旨就是把工业界的问题拿来探讨。”

对于基础教学来说,AI大模型也可以提供帮助。比如通过学生做错的题目,AI判断到底是哪些前序基础教学内容没有被消化,就通过大模型生成相关基础教学题型,而不是死记硬背错题的方式解决问题。由此实现对学生的个性化教学和训练。

同时业界也在探讨,如何在AI大模型大规模应用后,防范学术造假等问题。诸如用生成文本的方式,比较学术文本和生成文本的相似性来判别,这背后就需要数据库支撑。

目前看,AI大模型对既有产业角色的改变和替代已经在发生。智能客服就是当前最大的落地应用,通过收集历史问题放在大模型中训练,可以减少大量人工客服的体量。

但这是否意味着所有企业都需要搭建一个自己的大模型?“AI大模型在智能问答、网络零售、金融科技、办公自动化、无人驾驶、元宇宙等很多新领域都将很有价值。”陈雷教授分析道,但对于一些传统产业如制造、制衣、机械等怎样利用大模型还是一个值得讨论的问题。

(作者:骆轶琪,郭美婷 编辑:骆一帆)

骆轶琪

资深记者

关注5G、半导体、智能硬件等前沿硬科技的发展脉络和上市公司财报,尤其是国产力量的崛起;也关注游戏趋势及房地产生态的演变。联系邮箱:luoyq@21jingji.com

郭美婷

记者

数字经济观察者,聚焦数据产业、数据基础制度、个人信息保护等。欢迎探讨交流!微信:gmt_lalala2017