作为一家缔造了PC时代的半导体巨头,英特尔自2016年起启动的新一轮转型使其业务逐步从“以PC为中心”向“以数据为中心”。在这个趋势当中,人工智能的应用是英特尔关注的重点之一,在产品布局上英特尔采用的则是大而全的路线,在从边缘端到数据中心,从专用芯片到通用芯片,硬件端英特尔给出了一个非常完整的产品组合,而在软件端,英特尔也做了大量的提升和优化工作,以帮助硬件发挥极限性能。
“硬汉”英特尔如何在软件上与硬件实现“刚柔并济”?带这个问题,21世纪经济报道记者近日探访英特尔亚太研发中心,对话多位专家,从PC视角一窥英特尔在终端侧AI的应用。
在过去谈及AI时往往会将其与云计算相联系,即通过云端的算力对AI进行训练,但随着AI的日益普及,终端侧的AI应用也不断增加,比如说在一般配置的超级本上实现4K视频的播放、在PC上实现传统专业导播台的功能等等。
哪些因素驱动AI应用在终端侧的普及?英特尔视觉计算软件合作部亚洲区总经理高源认为,这主要有四点:低延时要求;无网络也可以工作;隐私保护;节省服务器和带宽成本。
举例来说,像无人驾驶自动避障的应用,它需要随时随地采集视觉信息,并能非常快速做出反应,如果是将视觉信息传到云端,在云端进行AI应用后再传输回终端设备,这样对延时非常敏感的处理就可以通过终端侧AI满足低延时的要求。
在无网络环境下,比如说机器人巡检时在网络连接不佳的情况下,终端侧AI能够帮助机器人处理类似的情况。
同时,终端侧AI能够让一些涉及个人隐私的数据可以存储在终端,而不用上传云端,例如说个人生物信息、家庭私人照片等等,这些都能够通过终端侧AI解决保护隐私的问题。
此外,在目前的云端处理的情况下,在处理1080P甚至4K的视频时,相关素材通过网络传输到后端,面临着带宽和后端储存的压力。后端应用也需要对应的服务器硬件来解决,这些都会对软件服务商造成很大压力。
“如果说你的前端设备已经比较强了,那为什么不用呢?”,高源表示,前端的硬件投资是用户已经投入的,通过前端的AI应用,可以将后端的负载转移到前端,即便是很少的服务器和带宽成本的节省,对于软件服务商而言也是很大的一笔资金。
英特尔显卡软件部门工程师赵波也就该问题进一步表示,像YY(欢聚时代YY娱乐事业部)、虎牙等服务提供商、平台提供者,需要支付大量的CDN带宽费用。那么英特尔第十代酷睿IceLake移动处理器则利用其全新的HEVC编码器,在同样质量上,较此前节省了37%的带宽。此外由于编码器是全硬件的,所以功耗很低,在Ice Lake上可以实现实时4K 60的编码,也就是说在5W功耗的集成显卡上,带来了竞争对手150W的独立显卡才能带来的用户体验。
正是在这四大驱动力下,终端侧AI已经有了很广泛的使用场景。

一个典型的应用是网络直播。YY企业业务总监郑龙哲举例称,在现有的实时视频连线的应用场景下,需要解决延时的问题,还要进行降噪和分析处理。通过与英特尔的合作,在设备端就可以解决一部分服务器端需要解决的问题。
“一些大家比较熟悉的一些技术,比如美颜、美型、美妆、贴纸、AR游戏,以及虚拟人物或者虚拟表情等等目前大家看的很多的技术,在将这些技术叠加在一起的时候,对于硬件就有很高的要求”,郑龙哲表示,与英特尔的合作就是探讨双方如何一起把所有的AI和算法要求非常高的技术和应用,通过和英特尔的合作做到终端上,以保证整体实时性的质量。
赵波表示,英特尔通过大量投资在软件上,保证将最好的硬件性能带给用户,实现在用户的消费级PC上就能够传输、处理、播放4K或者是8K的HDR视频内容,实现在轻薄的设备上实现高分辨率、高品质的播放。
通过对应用简单归类,高源称,终端侧AI大致可以划分为三种特性。
一是长时间运行,耗电敏感。现有的一些公司用AI做设备的动态智能调频调压,会监测设备运行的CPU、GPU、内存占用,而AI则会对这些硬件设备进行调频调压,但这都是一开机就运行,对控制耗电量也就有了要求。此外,比如说手机端的语音噪音控制,如果没有硬件平台的承载,这些功能也会有很大的耗电量,对于用户来说这样的使用场景也是无法承受的。
第二类则是偶尔运行、延时敏感。例如在手机上进行图片处理等等,这些应用需要强大的即时处理能力。
第三点是长时间运行、计算密集。视频类应用就是此类,像AI背景转换等等就需要长时间、计算密集型的处理。
高源表示,正是因为终端侧AI面对众多的使用场景,需要不一样的特性,单一的架构就难以满足所有终端侧AI的需求。
“特别是我觉得在业内,因为历史的原因大家可能觉得一提到AI想到的就是需要一个独立显卡,其实这是一个很大的误区。AI不等于独立显卡,它需要不同平台来适应不同的AI应用”,高源说。
针对不同的终端侧AI应用,英特尔提供了包括GPU、CPU以及低功耗AI加速器在内的三类不同架构。
具体来说,GPU的硬件架构是高度并行化,所以它比较适合一些很高性能的AI计算。同时,GPU另外一个特点是数据处理带宽很大,但是延时比较高,也就是说让GPU跑起来的动作延时比较大,这就比较适合于计算密集,大量的视频分析等类型的操作。另外,因为整个显示都是通过GPU来的,所以其实GPU在渲染管线当中比较容易插入视频类的AI应用,比如说超高分辨率。
“集成显卡和CPU是共享系统内存,在很多AI应用当中,在图形图像类的应用当中不需要在CPU、GPU之间来回拷贝内存,这就能够提升响应速度”,高源说。
而CPU无处不在的特性使得CPU的架构普适性强,不像GPU一样存在比较分散的软件开发平台。高源称,为CPU设计的应用几乎是“放哪儿都能跑”,此外在软硬件上非常统一,像在大型游戏等场景下,GPU往往是超载的,这时在CPU上进行AI推理则不会影响帧率,游戏依然可以打的很流畅。
英特尔亚太研发中心总经理卢炬也表示,随着人工智能、数据中心、物联网、下一代网络、自动驾驶等工作负载不断涌现,开始需要在 CPU 核心能力的基础上,构建 GPU、FPGA、AI 芯片、视觉处理芯片等不同类型的计算架构,来满足工作负载的需求和增加。
英特尔的第三个架构则是低功耗AI加速器,或者说GNA,它不是一个独立的硬件,而是专门设计的电路,集成在CPU处理器当中。高源称,它已经集成在新一代处理器里当中,不需要做添加额外硬件,只需要把它用起来便可。
而GNA作为功耗小于100mw的低功耗平台,就能够适用于长时间运行的应用。
但总体来说,高源表示,英特尔虽然有不同的硬件架构,不同的硬件平台,但是软件编程工具是统一的,即OpenVINO,不需要开发商独立去了解下面不同硬件应该如何去做,OpenVINO为大家提供了一个统一接口,比较方便在不同架构之间做一些尝试和迁移。
相芯科技资深图形引擎开发经理蔡锐涛也在现场通过背景分割应用的案例举例称,OpenVINO在对英特尔的硬件进行了优化之后,性能提升表现非常明显。在Ice Lake上,OpenVINO(VNNI)比TfLite fp32能够得到9.82倍的性能提升,在AMD 3700上,OpenVINO也可以比TfLite有4.8倍的性能提升。
此外,英特尔也持续不断提供简便而且可扩展的工具。就在不久前,英特尔推出了OneAPI的软件工具。该工具能够提供一个统一的编程模型,以简化跨不同计算架构的应用程序开发工作,通过支持直接编程和API编程,并提供统一的语言和库,可以在包括CPU、GPU、FPGA和AI加速器等不同硬件上,提供完整的本地代码性能。
“所以英特尔提供的是一个全平台,我们希望英特尔提供的全平台可以帮助业内终端侧AI的发展”,高源说。