王华强:灵活利用英特尔®CPU特性加速AI推理,赋能企业优化OCR应用

21世纪经济报道 21财经APP 中国司法大数据研究院
2023-01-16 12:59
多名重量级院士专家齐聚智慧法院建设应用高峰论坛 助推智慧法院建设进程

1月12日,第二届全国智慧法院建设应用高峰论坛暨第五届“中国法研杯”司法人工智能挑战赛颁奖典礼在北京召开。此次活动由最高人民法院信息中心指导,中国电子科技集团、北京市石景山区政府支持,由中国司法大数据研究院(最高人民法院智慧法院重点实验室)主办,中国法学会案例法学研究会、中南大学、西南政法大学、华东政法大学、中南财经政法大学、西北政法大学、湘潭大学、国家法官学院、教育部哲学社会科学实验室—中国政法大学数据法治实验室、上海交通大学智慧法院研究院、华中科技大学法学院等共同参与协办。

据悉,中国司法大数据研究院开展全国智慧法院建设应用高峰论坛旨在搭建智慧司法高端交流平台,作为业内颇具规模及影响力的论坛,此次高峰论坛邀请了重量级政、产、学、研、用院士专家及行业领袖齐聚论坛,一起探讨智慧法院建设进展、创新技术和难题破解。

在本次论坛上,中国法学会案例法学研究会会长、最高人民法院咨询委员会副主任委员胡云腾、最高人民法院信息中心主任许建峰、福建省高级人民法院党组成员、副院长董明亮、中国司法大数据研究院院长梁新和中国政法大学副校长时建中共同为新设立的智库平台互联网司法研究中心、金融司法研究中心揭牌,此外,胡云腾和许建峰、时建中分别为第五届“中国法研杯”司法人工智能挑战赛技术方向赛道和创新创业方向赛道获奖选手代表现场颁奖。

在主旨分享环节,Intel数据中心和人工智能事业部资深系统架构师王华强做了有关“CPU加速人工智能推理”的主题分享。

人工智能,AI时代 这样的概念大家已经不是很陌生。以智能推荐技术,计算机视觉技术为代表的大数据人工智能应用已经深入到人们生活的方方面面了,大数据人工智能渗入生活,改变着生活。 这些人工智能应用通常需要大量的运算,而提供算力是CPU,GPU,FPGA这样的硬件。英特尔的通用处理器,在人工智能这块,尤其是推理运算这块占有一席之地,有着相当多的方案是基于CPU来完成的。我们将和大家介绍Intel的最新的CPU产品,并分享几个功能的优化部署案例,向大家介绍 英特尔是如何在软硬件层面、助力AI以及、赋能企业、优化应用。

英特尔®持续投入人工智能算力技术,我们可以从服务器CPU技术演化的历史看出来。在2017年发布的第一代xeon

可扩展Skylake处理上,引入了512位宽的向量运算指令。在第二代的两个可扩展处理器系列上,我分别支持了卷积指令集和Bf16半精指令集,加强了低精度运算性能。在第四可扩展处理上, 我们引入了AMX矩阵运算加速器,进一步提升低精度运算的性能。未来Intel还会发布很多的高性能计算指令集。值得在大数据的客户期待。

英特尔在2023年CES大会上隆重推出第四代至强可扩展处理器。和目前主流的第三代ICX相比,它采用了最新的intel7工艺进行制造,最高可达56个核心,最高支持8路服务器,多达 448 个内核。并且单路性能较上一代ICX-SP提高60%。在外设方面,SPR将支持PCI

Express 5.0,每个处理器多达 80 个通道 ,支持DDR5内存,将为内存密集型应用带来极大的性能提升。另外,SPR还有一些特殊型号是携带了高达1TB带宽的的片上HBM。针对安全,虚拟化,AI等方面SPR也做出了很多加强和特尔下优化。

得益于这颗新CPU上专有AI运算单元,相较于上代支持卷积指令集的ICX,深度学习推理性能是达到上一代的四倍。相较于上代支持半精浮点指令的CooperLake-SP,深度学习训练性能有额外一倍的增加。深度学习的应用往往是计算密集集的业务,通常呢它也是内存密集性业务,内存也是关键资源,这代CPU内存的带宽和速度也比上代大了和快了50%。最新的这颗CPU上的AI加速单元的名字叫AMX, 全称是英特尔®高级矩阵扩展指令集, 它是每个核心上都有的一个专用硬件模块,主要负责进行矩阵运算,可以加速常见的AI应用场景。现在流行的深度学习框架都支持AMX加速器,象tensorflow和pytorch开源框架,英特尔以插件的形式提供了指令集的支持。英特尔同时也开发了高性能的开源深度学习框架OpenVINO。OpenVINO在深度学习领域有着不俗的性能表现。

英特尔® 至强® 处理器 +OpenVINO框架的推理解决方案赋能企业优化OCR应用。OCR技术,在生活的方方面面都有广泛的应用。比如身份证识别,医疗票据扫描上传;交通领域的车牌识别,自动驾驶中的路标识别等;办公领域的文字识别,卷宗电子化等;都用到了OCR识别。OCR本身是个很大的市场,其算法和程序需要部署在很多地方,可能是公有云,私有云或者边缘侧。 有非常多的软件开发商,算法开发商和参与其中,厂商通常需要一个相对低成本的处理方案。OCR开发厂商通常遇到两个技术痛点,第一类是使用GPU带来的成本和部署问题。第二类痛点是来自己使用CPU做OCR处理的开发者,他们常常发现所能利用的CPU算力和CPU厂商所宣传的峰值性能相差甚远。这往往是缺乏对CPU硬件加速和指令集的了解,所开发的OCR程序往往没有做到很好的优化,达不到降本增效的效果。基于这样的现状,Intel联合了多个OCR重度应用的合作伙伴,一起完成了基于CPU平台的程序、算法和部署的优化,力求为全行业OCR应用提供有益的参考。

OCR技术即,光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。常见的处理流程如图所示。首先对输入的图像文件进行预处理,也就是针对图像的成像问题进行修正,其次检测文本的所在位置和范围及其布局。通常也包括版面分析和文字行检测等,在在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。最终输出图像中的有效信息。在整个过程中文本内容的识别时最重要,计算量也最大的部分, 我们的优化通常集中在这里。

第一个案例是基于公有云的OCR业务处理优化。该业务使用定制的CRNN模型,主要用于增值税普通/专用发票检测及识别。其硬件平台是由Intel 8369B为基础的阿里云第7代计算实例。在同客户的深入合作中,我们为其在最近两代硬件平台,分别了适配最新的技术做了优化。ICX的整个优化方案,我们分为两步,第一步是通过OpenVINO和它的异步调用模式来提升性能,这一步比客户原来的方案延时加速了6倍。随后,我们继续利用VNNI指令加速整个推理过程,这又在上一步的基础上继续把延时减少了2倍。在SPR平台上,通过我们的优化,客户得到了满足业务需求的,更具性价比的CPU部署方案,并且降低了产品部署的复杂度。

第二个案例是基于私有云的医保OCR业务处理优化。该业务使用定制的CNN+Bi-LSTM模型,主要也是用于增值税普通/专用发票检测及识别。部署在由英特尔5318S处理器为基础的私有云平台上。经过基于第三代英特尔至强可扩展处理器平台的cpu加速,基于Intel®

OpenVINO™框架的异步调用加速吞吐的优化后,以处理相同的图片数据耗费的时间为基准。与用户原始深度学习框架FP32精度相比,OpenVINO FP32实现了约为性能8.9倍的提升。性价比获得大幅提升,满足了平台日常业务的需求。

第三个案例是企业OCR业务处理优化。该业务使用定制的CNN+2D Attention模型,主要是用于增值税普通/专用发票检测及识别。经过我们的整体优化后,CPU上的性能已经优于原先的GPU性能了,性价比获得提升,满足了客户从GPU迁移至CPU的需求。

第四个案例是电信智能营业厅OCR业务处理优化。该业务使用定制的CRNN模型,用于发票合同检测及识别。其硬件平台是也是由Intel 8380处理器为基础的私有云平台。经过优化后,整台服务器的吞吐量在原先增长了 7.5倍客户得到了更具性价比的部署方案,并且降低了产品部署的复杂度。该业务在第四代至强可扩展器上性能相较优化前的有25倍的提升。

(作者:中国司法大数据研究院 编辑:李玉敏)