可以考虑探索算力交换、数据共享、软硬件协同等方式帮助实现能力优化。
21世纪经济报道记者骆轶琪、郭美婷 广州报道
回看人工智能发展的历史浪潮,上一次备受关注的是由深度学习、CNN(卷积神经网络)技术突破,实现对文字和图像识别的良好成果。但相比之下,此次由Transformer架构推动的AI大模型成效更是为人惊艳。
近日,香港科技大学(广州)(以下简称“港科广”)信息枢纽院长、讲座教授陈雷接受21世纪经济报道记者专访,谈到当前AI大模型构建的核心要点,后续竞争赛道以及由此对学科教育体系带来的影响和变革。
陈雷教授是IEEE(电气与电子工程师协会)会士,ACM(美国计算机协会)杰出科学家,也是IEEE旗下专注计算机领域数据挖掘方向TKDE期刊主编。
他认为,当前构建AI大模型面临着数据、算法模型、算力三方面难题,可以考虑通过算力交换、数据共享、软硬件协同等方式帮助实现能力优化,但当前在执行中还面临一定挑战。而AI大模型兴起对学科教育和人才培养也提出新的思考。
Transformer+强化学习
陈雷教授分析道,此前深度学习和CNN主要是在解决时序数据、图像等方面取得了很大成绩。但是在解决长文本,尤其是语言文本理解、长序列、视频的时候,就显示出了弊端。
Transformer架构解决了这些弊端,是在于其通过encoder-decoder(编码-解码模型)方式,在另一个空间生成内容,再通过人类反馈强化学习的方式构建奖励模型,由模型学习其中的反馈打分机制,因此可以有广泛的应用空间,也打破了原本壁垒,对长序列、长文本可以有更好理解。
尤为重要的是,Open AI引入1000多名语言学家对生成的文章进行打分。其要点就在于用Transformer架构+强化学习的方式,让大模型学习人类对所生成内容的打分机制,那么机器可以自己对生成的内容进行打分,就有无限多“高分”的内容被生成出来。
这也导致AI大模型容易出现“胡言乱语”的现象:因为GPT的工作机制,就是把内部生成分数最高的内容作为答案输出,不会不给出答案,且这些预训练模型利用的训练信息是收录在某一个时间段内,因此就会出现并不正确的信息。
但由此意味着在落地到场景中会面临挑战。比如在对精度要求高的自动驾驶场景,容错机制会更为严苛。实际上业界认为,GPT此番成果更多是验证了该生成式AI的可行性,那么后续具体应用中可以进一步对其进行改善。
陈雷教授分析认为,构建大模型目前面临的难题包括数据、算法模型、算力三个方面。
第一重困难是数据质量。在抽取数据时要进行数据清洗、标注,剔除诸如广告等内容。“怎么实现以一当十的标注效果,就是我们所在学域探究的问题。比如进行数据分析时,把数据集合起来,相似的数据放在一起,标注一个数据头,其他数据都有类似标签,把冗余的数据清除掉。”他指出,以自动驾驶场景为例,比如相比雷达的信息,有些摄像头捕捉的信息就是冗余部分。在数据分析时,如果不清除冗余数据,将极大加重模型训练的时间。
他介绍道,现有的一些实验表明,假如对一个基本模型用原始数据训练要花费超过200个小时,但是完成数据精细化抽取后,只需要6秒左右即可完成训练。因此数据清洗和抽取的过程就需要人来干预,以期用相对精简的数据,让训练效率进一步提升。
第二重难题是算法模型改善。比如要实现自动驾驶更高的稳健度和鲁棒性,遇到紧急问题不仅仅是直接选择暂停,需要对算法模型进行优化,提出安全的解决方案。
第三重就是备受关注的算力问题。Open AI训练GPT耗费了数万块GPU芯片,这所需要的采购成本不是一般学校和小机构可以担负得起。借助探索软件协同、算力交易等方式就变得重要。
软硬件的难题
Open AI通过“暴力美学”方式构建出让人惊艳的AI大模型,但背后所需的算力成本也让人瞠目。寻找更多元化的方式训练和计算正成为重要命题。
“算力交换是很好的课题。”陈雷教授指出,业界在探索研究,能否借助诸如区块链等平台实现算力交换。“比如把算力放在区块链上,用token自主交换。那么要用到大模型训练、需要算力的时候,用token‘买’过来算力,用完了再释放出去算力,还可以挣一些token。”
但这是理想状态,在实际应用中还需要面临算力定价、政策监管等问题。很多人不愿意交换算力,根本原因在于担心被恶意使用而报废。因此倘若完全在乌托邦一般的区块链空间中交换使用并不现实,需要借助联盟链等方式实现。这就需要有机构牵头,把算力联合起来并落实。
除了算力,数据共享也是搭建大模型要攻克的一个难题。因为不同的数据对不同所有人的意义有差异,数据本身的质、量也不同,那么按照什么标准进行数据定价还需要界定。
同时交易双方面临的客观环境不同,带宽、传输等差异可能也会影响到算力共享效果。这些背后都涉及对交易进程进行监管。
在搭建大模型过程中,除了算力这种底层硬件,软件也发挥着重要作用。倘若能实现软硬件优化协同,最终或许能通过更少的GPU芯片来实现同样好的训练和应用效果。
陈雷教授指出,如何与硬件更好匹配,这就对云计算资源提出要求。这也是微软选择收购Open AI的原因,用软件反推对硬件的能力调优。
举例来说,在未来,人与手机的交互可能将不只是通过触控键盘,而是仅通过语音。这时候手机硬件就需要实现,如何在噪声环境下,明确手机主人的声音、准确收音并实现功能。这就同时对软硬件提出新要求。
培养模式思变
AI大模型无可避免会对既有日常工作和生活模式带来一定程度变化。首要关注的就是人才培养,过往一股脑刷题的模式可能要思变。
大模型工具与教学的边界到底在哪里也受到争议。此前在大学校园就曾有两大阵营:一方对GPT严防死守,一方对GPT充分拥抱。香港科技大学就是后者。
陈雷教授介绍,港科广正筹备在校园内大规模使用GPT4,已经在通过向微软购买云服务的方式铺设。
“这对老师提出的挑战是,一成不变的教学和考试方式该怎么改变。”他举例道,比如今年的期中考试,港科广允许借助GPT工具,采用开放式提问的评估方式,而不是有固定答案评判正误。
据介绍,在教学设计方面,港科广今年开始招收本科生,在入校后前两年不会安排选择专业,而是给学生提供更多空间,让他们持续与教授磨合研习,自己发掘感兴趣的专业领域。
对于人才能力培养,陈雷教授认为,大模型提供了大量数据,提问能力会很重要;培养交叉学习研究能力也很关键。
“我们的研究生和博士生都采用双导师制度,不可以只跟着一位导师,要交叉学习。”他举例道,比如让学生同时跟随数据分析和生物学两个专业的老师学习,做交叉的学科研究,如此也让学生更有学习动力。“港科广信息枢纽学院陆续与工业界成立了联合实验室,宗旨就是把工业界的问题拿来探讨。”
对于基础教学来说,AI大模型也可以提供帮助。比如通过学生做错的题目,AI判断到底是哪些前序基础教学内容没有被消化,就通过大模型生成相关基础教学题型,而不是死记硬背错题的方式解决问题。由此实现对学生的个性化教学和训练。
同时业界也在探讨,如何在AI大模型大规模应用后,防范学术造假等问题。诸如用生成文本的方式,比较学术文本和生成文本的相似性来判别,这背后就需要数据库支撑。
目前看,AI大模型对既有产业角色的改变和替代已经在发生。智能客服就是当前最大的落地应用,通过收集历史问题放在大模型中训练,可以减少大量人工客服的体量。
但这是否意味着所有企业都需要搭建一个自己的大模型?“AI大模型在智能问答、网络零售、金融科技、办公自动化、无人驾驶、元宇宙等很多新领域都将很有价值。”陈雷教授分析道,但对于一些传统产业如制造、制衣、机械等怎样利用大模型还是一个值得讨论的问题。
(作者:骆轶琪,郭美婷 编辑:骆一帆)
21世纪经济报道及其客户端所刊载内容的知识产权均属广东二十一世纪环球经济报社所有。未经书面授权,任何人不得以任何方式使用。详情或获取授权信息请点击此处。