(经过近40年的高速发展,中国已经初步具备了一定规模的微电子人才储备和巨大的市场,正符合发展人工智能芯片的两项基本条件。图/中新)
文|陈怡然 陈逸中
过去数年之间,信息技术产业曾经接连兴起过几大热门领域,包括大数据(Bigdata)、物联网(IoT)、工业4.0以及增强和虚拟现实(AR/VR)等。但直到以深度学习神经网络模型为基础的人工智能技术出现后,这几大热门领域才第一次被整合进人工智能这一更大的发展框架内。
当前,人工智能技术仍旧需要海量数据来训练神经网络模型,从而使得计算机能够代替人类从事各种数据处理与判断。飞速发展的物联网技术首先提供了大量的数据来源,经过设计和训练好的人工智能系统则提供了工业4.0最需要的智能控制系统,也为增强和虚拟现实场景的落地提供了数据处理的技术手段。
芯片是人工智能系统最关键的技术,中国发展人工智能芯片产业的突破口到底在哪?这是人们普遍关心的问题。
芯片产业是一门具有高集成性和高成本特性的科技产业,进入门槛非常之高。随着芯片制造技术进入“x纳米”(个位数纳米制程)时代,每个晶圆代工厂的造价动辄百亿美元起,运营与折旧成本惊人。
单个芯片的设计所需要的工程师数目从几十到数百不等,开发成本少则数千万美元,多则上亿美元,周期长达1年-2年。
但是,一个成功的芯片项目所带来的不仅仅是销售芯片本身的利润,还有伴随芯片设计、制造以及销售整套流程中产生的支撑产业与生态系统,从而带动软硬件发展、行业标准制定、知识产权销售、甚至相关的机械制造和化工等产业发展。
现代芯片设计,尤其是以“片上系统”(System-on-Chip,SoC)为主体的高端芯片,已经可以影响乃至引领某一产业走向及其战略发展,甚至遏制该产业的正常运行。
由于人工智能应用的场景千变万化,而所应用的算法更是有相当的差异,可以预期未来各项应用将有不同的定制化芯片,出现人工智能芯片百家争鸣的盛况。
人工智能芯片的另一大特点在于它所面对的是一个全新的、还未被大公司充分定义的新的业务场景。
即使是NVIDIA,也只是在云计算这一领域有一定的垄断地位。因此,人工智能芯片发展有着巨大的不确定性和机会。
人工智能芯片发展很像中国另一新兴芯片产业——比特币矿机上的发展历程:比特币矿机2010年初主要用的还是以CPU为主的芯片,但是从2012年起就逐渐过渡到以图形处理器(GPU)为主,利用其强大的向量计算能力来采矿。两年以后的 2014年,大家开始通过算法优化并导入现场可编程逻辑阵列(FPGA)提升效能功耗比来达到更高挖矿效益。
时至今日,绝大多数的高采矿效益的矿机均是以定制化芯片为主,如比特大陆的蚂蚁矿机。
依照这一类似的发展趋势,我们可以期待2018年将是应用导向人工智能芯片开始跃进的一年。
中国可能弯道超车
GPU和CPU芯片设计注重通用性,但其高功耗、相对较低的单位效能以及高昂的价格并不适合于类似物联网或工业4.0这样的普及化应用。
应用导向的人工智能芯片是将抽象的神经网络算法以硬件方式加以固化来达到加速运算的效果。这样的设计有助于提升单位芯片面积上算力的密度,降低功耗和成本,从而有助于将人工智能系统更普遍地运用到各个场景。
但芯片的开发一般需要高质量的人才基础并有强大市场的需求来摊薄芯片开发的高昂成本:通常一款芯片的生命周期大约为三年,而真正产生利润的时间仅为12个-18个月。芯片企业要在这短短的时间内完成利润积累,进行下一代产品的成功开发与研制,进入新一轮的迭代周期。
经过近40年的高速发展,中国已经初步具备了一定规模的微电子人才储备和巨大的市场,正符合发展人工智能芯片的两项基本条件。
除此之外,中国还有一样更为突出的优势:大量使用数字化设备及人口数带来的庞大数据。在以应用为主体的开发概念下,每一个应用都需有各自对应的数据集来训练神经网络,有效数据的采集速度会是影响开发周期长短的最关键的因素之一。海量高质量的训练数据集可以帮助工程人员快速有效地训练神经网络,加速模型的定型,缩短人工智能芯片的设计周期。
在各国数据采集管理法规日趋收紧,尤其是欧盟最近出台通用数据保护规范(GDPR)的大环境下,宽松的数据管理制度会让中国在人工智能芯片产业上占据非常有利的位置,从而达成“弯道超车”的目标。
面临多重挑战
人工智能系统可以粗分为云端和终端两大应用。其硬件系统按照功能则可相应分为训练机和推理机两种。在过去较长一段时间,人工智能应用主要在云端,包括训练与推理两部分。云端系统的人工智能芯片能依算法与数据形态的不同来处理各式应用。
考虑到海量数据的处理需求,数据中心高昂的建设和运营成本,以及应用的多样性,云端人工智能芯片通常要求具有高集成性、高效能,以及高密度算力等特点,而且需要有一定的通用性。芯片对应各种应用场景所需的软件支持也是一项设计重点。
云端通用型人工智能芯片主要的开发难点在于如何针对业务所需的神经网络模型做相应的计算体系结构改良并同时考量通用性与应用导向设计之间的取舍。
这属于芯片开发中门槛较高的项目,而且所设计的人工智能芯片的规模通常较大,技术难度也较高。除了对应用场景有深刻理解之外,设计者也需要有长期芯片设计与流片经验的累积才能够保证拿出成熟的产品。
国内公司在经验上与国外其他领跑企业如英特尔、高通、NVIDIA等应该说还有一段差距。但国内头部企业的迭代速度非常快,加上与代工厂(比如TSMC)和后端设计服务公司的紧密合作,对于先进工艺流片经验掌握的速度非常之快。国内寒武纪和比特大陆两家公司在未来的表现非常值得期待。预计再经过一两代的开发即能迎头赶上世界最前沿产品,并可望大量使用于数据中心。
以目前发展趋势来看,终端应用将会在未来2年-3年伴随着5G网络的大量普及有爆炸性成长。终端产品的应用范围非常广,许多从云端延伸至终端的应用将会是首先被导入的产品。
终端人工智能芯片并不如云端芯片般对通用性有较高需求,而是综合考虑功耗、计算能力、面积(PPA)在终端场景下的平衡。也因为如此,终端人工智能芯片并非一定需要采用最先进的制造工艺,成熟且低成本的工艺可能更适合普及化的应用。
终端应用中人工智能推理机芯片的应用可以粗略分成影像、声音和判断三大方向。由于应用与算法的碎片化与多样性,人工智能芯片在未来一段时间将会是一个以细分市场为主的产业结构。这一特点将会在商业模式上给传统芯片设计公司带来新的挑战和机会。
大量的应用需要更多种类,满足不同具体需求的知识产权,或是将知识产权定制化以应付各类不同需求。其中一种可能是走类似ARM的道路,通过提供基本知识产权给客户做针对具体应用场景的二次定制化开发。
人工智能的广泛应用也带来了庞大产业升级芯片需求,有可能扶植许多新创公司来提供各类应用专属的知识产权。
终端应用中训练机的需求也日渐增长,其主因是许多应用由于现场特殊性,需要本地训练或是云端训练不能反映时间的要求。无人驾驶系统、先进辅助驾驶系统和智能工厂等都有大量此类需求。
在终端系统中,训练机既有可能和推理机使用同一组人工智能芯片,有能以单独的芯片形式来达到更高效的训练效率。
由于终端的训练机将会对功耗和成本有更高的要求,因此终端训练机在通用性和应用导向设计之间的取舍将会更为困难。除了传统的芯片架构分析和设计技巧外,通过神经网络算法的改良与简化来降低设计复杂度也是近些年来研究的重点。
如前所述,芯片的生态系统是面对开发者最重要的一环,并直接影响工程人员对于芯片的接受度和所应用技术的普及度。
在软件设计上,编程语言和主流编程框架的支持能提高开发者意愿并能与其他平台接轨。同时,人工智能芯片的开发也是要与软件或算法的进步而同步更新,提供诸如更高效更灵活的知识产权。
在硬件设计上,未来人工智能芯片将逐步整合其他系统,注重如感测器、通讯和协同处理器等其他相关硬件的系统整合。
对于终端应用而言,整合后的平台将有可能达到系统各部分的高度协同,提高计算效率,增加产品的通用性。
此外,建立和维护使用者社群,提供类似于开源社区那样的开放式开发平台会使得整体开发速度提升,加快系统设计的迭代速度。最近有许多新创公司聚焦于降低硬件设计的门槛,以编程语言来取代硬件语言实现芯片设计,或是以软硬件协同设计来降低芯片设计的门槛,也有助于这一目的。
最后则是知识产权 (IP)的重复使用,尤其是功能和需求验证通过后的知识产权,将会是人工智能芯片在各种应用中快速布局的助力之一。
站在巨人和独角兽的肩膀上
人工智能应用对于算力的高要求使得我们在具体实践中必须将算法、数据与计算平台紧密结合,从而设计出针对具体需求的高度优化的计算平台。
因此,许多拥有数据和算法的传统软件及互联网公司如微软、谷歌、亚马逊等最近都纷纷跨界到芯片设计。
芯片行业的沙场老将们如英特尔、高通等也都看准了商机,以自身已有的生态系统和知识产权为基础快速布局于各种人工智能芯片应用中。
雨后春笋般出现的人工智能芯片独角兽更是遍布于各个开发层级,利用创新的科研成果与传统行业相竞争,形成了百家争鸣的局面。
我们粗略统计整理了国内外著名的人工智能芯片公司的主要技术方案和其所针对的应用场景,绝大多数公司尤其是初创公司纷纷看好在终端应用(尤其是终端推理)上的发展机会,以期待人工智能技术引入传统行业之后所带来的巨大商机。
在未来数年,人工智能技术的应用场景将会更加明确。赛道上的主流公司及其所代表的各种技术也会随之通过公司收购、兼并等手段逐渐融合至少数高度集成的技术平台。初创公司的重点也将转移至类似终端训练这样的新型应用场景。
在技术发展上,未来人工智能芯片则可能采用更为先进的制造工艺,甚至是诸如忆阻器或者神经形态计算这样全新的纳米器件和计算架构。这将成为AI芯片下一阶段竞争的风向标。
(作者陈怡然为美国杜克大学电子计算机工程系教授、陈逸中为美国纽约州立大学教授,编辑:谢丽容)