AI推论进驻边缘节点影像/语音应用各占半边天

2018年AIoT(AI+IoT)市场成长惊人，驱动了各种装置的发展，同时也促使深度学习功能逐渐由云端转向边缘运算，以实现低延迟、低网络带宽、高隐私、高效率的人工智能应用体验。

随着人工智能(AI)、边缘运算(Edge Computing)等技术近年快速发展，智能家庭这个概念所包含的各种消费性电子及家电产品，都将陆续发生革命性的转变。最终，由各种家庭设备所组成的人工智能网络，可能将成为你我看不到的另一个家庭成员。而本地云端的概念及其相关设备，将是实现家庭人工智能网络不可或缺的要素。

智能音箱/监控将成消费性AI两大主轴

研究机构Ovum负责追踪消费性科技发展的研究员Ronan de Renesse(图1)表示，AI在消费性电子领域的应用，近一两年常常成为媒体关注的焦点，但消费性电子与AI结合的趋势，现在才刚开始发展而已。在未来三到五年内，许多消费性电子产品都会搭载AI功能，而且会彼此链接，组成家庭里的人工智能网络。

图1 Ovum消费性科技研究员Ronan de Renesse认为，未来家庭中的各种电子设备，将成为一个隐形的家庭新成员。
对硬件产业链而言，这个趋势固然会带来许多新的商机，但若从更高的层次来看，这个悄悄进驻家中的人工智能网络，将会成为你我看不到的另一个「家庭成员」。

就硬件面来说，大家耳熟能详的智能音箱，基本上是个相对成熟的产品，在未来五年虽然销量还会有明显成长，但成长力道将逐渐放缓。预估到2022年时，全球智能音箱的销售金额将接近95亿美元。事实上，Renesse认为，亚马逊(Amazon)跟Google未来很可能不会再推出自有品牌的智能音箱，因为这类产品本身的获利空间不大，对这两家网络巨头来说，只要硬件业者用的是它们的平台服务，能搜集到其所需要的用户数据，目的就达成了。

同一期间，家用智能监控系统这类产品的变化，会比智能音箱更明显。目前所谓的家用智能监控产品，其实并没有人工智能的成分，而是将摄影机、警报器、门锁、传感器等硬件产品彼此连接，形成一个支持事件触发(Event Trigger)功能的保全系统。但随着相关软硬件技术日益成熟，未来家用监控摄影机搭载人工智能的比例将会越来越高，同时也能实现更多应用，例如和语音助理搭配应用，在多人使用的环境下，更准确地为多名用户提供不同服务。

消费性AI应用首重隐私保障

不过，对硬件业者来说，最值得注意的，可能是本地云端(Local Cloud)的概念及相关应用产品，将随着家中设备普遍支持AI而窜起。 Renesse指出，搭载AI功能的电子产品会产生大量用户数据，而且其中有很多是攸关个人隐私的数据。因此，如果这些搭载人工智能的家庭电子产品完全得仰赖外部云端才能运作，显然会造成隐私疑虑。

另一方面，很多功能比较单纯的消费性物联网装置，受到电力、运算能力、生产成本等条件限制，未必能支持很高阶的AI算法。这时候，本地云端装置将可扮演大脑的角色，统一对这些装置发号施令。

但Renesse也坦言，目前还很难断言哪种设备会扮演本地云端中心。有可能是比较高阶的智能音箱，也可能是智能电视或其他产品。

Arm资深市场营销总监Ian Smythe(图2)也认为，相信未来将会有越来越多的运算和推论(Inference)引擎移至终端。促成此一转移的主要驱动力，就是为了保障用户的隐私。藉由在终端处理分析的工作，可以轻易的将数据匿名，并确保敏感数据不会透过网络外泄。以家庭应用为例，消费者不会希望有人能从网络上得知自己家里没人的时间，进而轻易地到家中偷窃。

图2 Arm资深市场营销总监Ian Smythe表示，对消费性AI应用来说，隐私保障机制是否可靠，将是应用能否普及的关键。
针对视觉应用，Smythe认为，支持视觉辨识功能的相机在本质上有些重要隐私问题的考虑。很显然地，这些装置必须经过设计，使其不论在本机储存或是传输到云端时，都能保护隐私及敏感的信息。由于传输通常以无线方式连接，必须特别留心无线传输功能安全。设计装置的工程师必须确保网络联机的装置不会被黑客入侵、窥伺。

电池寿命仍为主要技术挑战

不过，要将AI推向边缘节点，目前最大的技术挑战仍是系统的耗电量。以消费型监控摄影机为例，消费者可能期望这类产品是完全无线的，最好连电源线都不要。这意味着这类产品必须以电池供电，而且还要支持无线网络。此外，它还要能够辨识所有物品，以及需要无限的储存空间。

上述需求对系统设计带来很大的挑战，需要能够数月不断电的电池以运行机器学习(ML)的能力，以及持续上传档案至云端储存的能力。这些极端的情况对芯片设计和系统组件的要求相当严苛，最重要的是，他们掌握了在何时启用这些功能的编排，以延长电池寿命。

以家用监控摄影机来说，摄影机并不需要24小时传送空房内的影像，仅在有未确认身分的人出现时上传该部分的影像才合理。同样道理，在像空房这样场景不变的情况下，启用ML算法并没有意义。缜密地安排在何处、何时启用这些功能，才能让消费性装置得以在预期运作模式下，仅需2颗AA电池，便能长期正常使用。

也因为功耗是AI进驻终端装置的主要障碍之一，目前市场上有许多家新创公司均看准这个机会，推出低功耗神经网络(NN)加速器硅智财(IP)，以便协助芯片开发商在降低功耗的同时，又能满足算法推论所需要的效能。耐能智能(Kneron)日前正式发布其神经网络处理器(NPU)系列，是针对终端装置所设计的专用人工智能处理器IP。该系列包括三款产品，分别为超低功耗版KDP 300、标准版KDP 500、以及高效能版KDP 700，可满足智能手机、智能家居、智能安防、以及各种物联网装置的应用。全系列产品具备低功耗、体积小的特性，且提供强大的运算能力。有别于市面上用于人工智能的处理器功耗动辄数瓦起跳，Kneron NPU IP的功耗为100毫瓦(mW)等级，针对智能型手机脸部辨识专用的KDP 300，功耗甚至不到5毫瓦。

耐能产品营销暨应用经理史亚伦(图3左)指出，要在终端装置上进行人工智能运算，同时满足功耗与效能需求是首要考虑。因此，针对个别应用推出优化的解决方案，是非常关键的。目前人工智能的应用可大致分为语音跟影像两大类，其所使用的神经网络结构是不同的。语音应用的重点在自然语言分析，主流的网络架构是递归神经网络(RNN)；影像分析所使用的主流网络结构则是卷积神经网络(CNN)。为针对不同网络结构进行优化，耐能提供的解决方案也不一样。

耐能软件设计经理沈铭峰(图3右)则补充，虽然自然语言分析对芯片运算效能的需求较低，但由于语言的腔调、说话习惯有很大的歧异，因此其模型训练所需的数据集远比影像辨识来得庞大。另一方面，由于消费者已经很习惯使用苹果(Apple) Siri、Google Assistant等以云端为基础的语音助理，因此，脱机式的语意分析应用要获得消费者青睐，先决条件是必须在有限的运算资源下提供消费者近似的使用体验。这对于芯片供货商跟系统开发商来说，挑战还是不小。

图3 耐能产品营销暨应用经理史亚伦(左)认为，语音跟影像辨识在本质上有很大的不同，需要靠不同解决方案来满足。右为耐能软件设计经理沈铭峰。
事实上，目前绝大多数的智能音箱，都还不算是边缘运算产品。史亚伦指出，不管是亚马逊(Amazon)的Echo、苹果的Homepod或是采用百度、阿里巴巴平台的智能音箱，都还是要将数据传回云端进行处理跟语意解析，才能响应用户。能在终端产品上直接执行的语音操作，基本上多半采用规则模式(Rule-based)，而非基于机器学习的自然语意理解。

耐能自2016年推出该公司首款终端装置专用的人工智能处理器NPU IP后，就不断改善其设计与规格，并针对不同产业应用进行优化。在目前已开始提供给客户的IP中，KDP 500已获得系统厂客户采用，将于第二季进入量产制造(Mask Tape-out)。与搜狗合作的语音识别，也已经实现脱机语意解析，让终端设备即便不连上网络，也能听得懂用户的语音指令。

Kneron NPU IP是针对终端装置所设计的专用人工智能处理器，让终端装置在脱机环境下，就能运行ResNet、YOLO等深度学习网络。 Kneron NPU为完整的终端人工智能硬件解决方案，包含硬件IP、编译程序(Compiler)以及模型压缩(Model Compression)三大部分，可支持各种主流的神经网络模型，如Resnet-18、Resnet-34 、Vgg16、GoogleNet、以及Lenet等，以及支持主流深度学习框架，包括Caffe、Keras和TensorFlow。

Kneron NPU IP功耗为100毫瓦等级，超低功耗版的KDP 300甚至不到5毫瓦，全系列产品的每瓦效能在1.5 TOPS/W以上，由于采用了多项独家技术，因此能满足芯片商、系统商对低功耗、高运算力的需求。

锁定基本元素硬件加速器不怕技术迭代

使用固化(Hardwired)电路来提升某些特定运算任务的执行效率、降低功耗，在芯片设计领域行之有年，但其代价是应用弹性较低，万一市场对芯片功能的需求出现重大变化，或是软件算法大幅修改，芯片设计者就得重新开发新的芯片。

在市场对芯片功能的需求已经大致底定的情况下，这种设计方式不是问题，但在技术迭代速度很快的新兴技术领域，采取这种设计途径，在商业上就会有比较大的风险。人工智能就是技术迭代十分快速的领域，几乎年年都有新的算法跟模型问世。研究机构Open AI更指出，过去6年间，AI模型训练对运算效能需求，每3.43个月就会增加一倍。

对此，沈铭峰指出，硬件加速器未必是毫无弹性的。以耐能的产品为例，在架构设计上，该公司运用卷积核拆分(Filter Decomposition)技术，将大卷积核的卷积运算区块分割成多个小卷积运算区块分别进行运算，然后结合可重组硬件卷积加速(Reconfigurable Convolution Accelerating)技术，将多个小卷积运算区块的运算结果进行融合，以加速整体运算效能。

用比较容易理解的比喻，就像乐高积木可以组合搭建成各种型态的对象，但整个对象本身仍是由少数几种基本方块堆栈而成。耐能的方案是针对AI算法不可或缺的基本元素进行加速，藉此提升整个算法的执行效能，因此，即便AI算法更新的速度极快，耐能的方案还是能发挥加速效果。

除了加速器本身的设计是针对基本元素，而非特定算法整体进行加速外，耐能还提供其他与AI应用加速或部署的技术，例如其模型压缩(Model Compression)技术便将未经优化的模型压缩数十倍；内存分层储存技术( Multi-level Caching)可减少占用CPU资源以及降低数据传输量，进一步提升整体运作效率。此外，Kneron NPU IP能结合Kneron影像辨识软件，提供实时辨识分析、快速响应，不仅更稳定，也能满足安全隐私需求。由于软硬件可紧密整合，让整体方案体积更小、功耗更低，以协助产品快速开发。

影像辨识AI走向边缘更迫切

整体来说，目前市场对影像辨识的需求较为迫切，脱机语意分析虽然有智能音箱这个潜在的庞大应用市场，但业者对此投注的资源反而较少。造成此一现象的关键原因在于，影像传输会占用大量带宽，从而垫高整个系统的持有成本，语音则没有这个问题。

晶心科技总经理林志明(图4)说明，在人工智能与物联网结合的过程中，也将带动边缘运算技术导入的需求。边缘运算技术将会被应用于各种不同的新兴应用领域，在此趋势之中，弹性、快速是台湾厂商的最大优势。对于大多台湾厂商与IC设计公司而言，由边缘端切入人工智能市场也较为容易。

图4 晶心科技总经理林志明预估，IP Cam将是率先在边缘装置上执行AI推论的主要应用之一。
同时，由于边缘运算技术的导入，也将带来内存、传输等等硬件需求的提升，将大幅拉高制造成本。由于影像相关的系统单芯片(SoC)原先就相对于其他应用更加复杂，对于成本的耐受度也较大，因此，边缘运算技术预计将由IP Cam等影像相关应用率先导入。

人工智能应用可以分为训练以及辨识两个部分讨论。在深度学习的巨量运算过程，短时间内依然会由云端运算处理。而边缘运算所负责的任务，则是将搜集到的信息先做初步的处理，将不重要的信息过滤掉之后，再将数据上传至云端，以节省传输成本。另一方面，由云端完成的深度学习成果，也能够使终端的辨识功能更加智能。以IP Cam为例，影像深度学习的工作能够先由云端运算完成，待机器学会辨认行人、车辆之后，边缘端的IP Cam只须执行辨认工作即可。

另一方面，更由于IP Cam在治安维护、小区安全上的应用广泛，因此政府与企业相对愿意支持投入，这也将成为IP Cam发展较为快速的原因。

林志明分享，目前许多厂商皆在摸索该如何将人工智能导入自家芯片、系统之中。目前的状况类似于物联网刚开始兴盛时，大家都还在摸索应用该如何切入，估计在2020年左右厂商会推出更多实际的产品。

实时性应用必然采用边缘运算架构

人工智能是时下热议题，其中，由云端运算架构逐渐转移至边缘运算架构，将会为供应链各厂商带来不小的影响。尽管短时间内人工智能的发展将依然以云端运算为主，然而，许多关于视觉应用人工智能功能将开始导入边缘。

赛灵思(Xilinx)视觉智能策略市场开发总监Dale K. Hitt(图5)指出，在可预见的未来里，AI发展中的训练组件可能仍由云端运算主宰。然而，推论/部署组件已开始使用边缘运算来支持各种需要低延迟与网络效率的应用。

图5 赛灵思视觉智能策略市场开发总监Dale K. Hitt认为，对需要极低延迟的应用来说，边缘运算将是最好的解决方案。
对于边缘操作数件而言，用于视觉相关应用的机器学习，将是其中一项关键且影响深远的大趋势。并且，在工业机器视觉、智能城市、视觉分析以及自驾车市场都有强劲的成长潜力。就工业视觉与消费应用而言，由于边缘运算须执行机器学习算法，因此对于效能的要求也比先前世代方案高出许多。此外，机器学习边缘算法/功能也已快速演进，因此各界需要具备自行调适能力的硬件，来针对未来机器学习推论架构进行优化。

Hitt以自驾车为例，自驾车中每个传感器背后都有精密算法支持，负责从传感器数据中产出感知判读的结果。最新的趋势是运用深度学习算法来产出这些感知判读结果，然而，深度学习算法必须透过数量庞大的潜在情境加以训练，来学习如何判读所有可能出现的传感器数据。

在经过训练后，深度学习算法需要极高的运算效能与超低的延迟，才能安全地操控车辆。对于电动车而言，则必须运用低功耗来因应工作温度限制及延长电池电力。半导体商的目标，是提供高效能、低耗电、具调适能力的解决方案，来满足自驾车运行边缘AI的各种需求。

在边缘运算发展的过程中，最大挑战在于市场的需求变化太快速，因此能针对各种变化快速调适的技术极为重要，才能让企业维持竞争力。

Hitt进一步说明，深度学习算法正以飞快的速度持续进步，许多2017年的领先解决方案至今已面临淘汰的命运。即使现在具有高出他人许多的能力，随着运算需求不断攀升，硬件方面仍须进行优化。硬件必须以更快的速度更新，才能避免被淘汰，有些硬件甚至在投产中就面临须更新的需求。许多替代技术还须召回原厂来更新芯片。

Hitt补充，FPGA独特的优势在于包括运算、内存架构以及链接等方面都能进行深度硬件优化。和CPU与GPU相比，优化后能以更低的功耗达到较高的效能，而前两者的硬件架构无法针对新衍生的需求快速进行优化。

边缘运算大势不可挡

仰赖云端数据中心运作的AI应用，虽然有极高的运算能力支持，使其辨识正确性普遍高于依照简化模型推论的边缘装置，但在考虑到隐私疑虑、实时响应与联机成本等诸多因素后，直接在边缘装置进行推论，仍是十分有吸引力的选择。另一方面，终端装置的市场规模远比云端数据中心大，有很强的经济诱因。这也是过去一年AIoT口号喊得震天价响，各大半导体业者积极布局的原因。

展望未来，完全由云端支撑的AI应用仍会存在于市场上，但比重势必逐年降低，取而代之的将是混合了云端与边缘运算的新架构。对AI应用开发者来说，云端不可被替代的价值在于进行模型训练，而不是执行推论。也因为这个缘故，对应用开发者来说，解决方案供货商能否在「云」与「端」之间实现无缝接轨，将是应用开发者在评估供货商时，最重要的考虑。