人工智能开启视觉处理新篇章：如何更好的理解这个世界

作者：陈玲丽时间：2020-07-20来源：电子产品世界收藏

人工智能的第三次浪潮正席卷全球，而在这次计算机视觉功不可没。视觉处理的终极目标在于使得计算机能像人一样观察感知世界，核心任务就是对图像进行理解，场景分类、目标识别/图像分类、目标定位、目标检测、语义分割、三维重建、目标跟踪都是其研究内容。

本文引用地址：http://www.amcfsurvey.com/article/202007/415836.htm

视觉与人工智能的融合

纵观信息产业发展历程，从个人电脑时代到移动互联网时代，承载高性能计算的芯片决定新型计算平台的基础架构和发展生态，并掌握着产业链最核心的话语权。传统硬件架构难以满足人工智能时代深度学习的要求，新的算法需要新的硬件来支撑。同时，芯片的结构将越来越像“大脑”，类脑芯片、智能芯片等将是人工智能的发展方向。

视觉芯片集成高速图像传感器和大规模并行图像处理电路，能够模仿人类视觉系统视觉信息并行处理机制，解决现有视觉图像系统中数据串行传输和串行处理的速度限制瓶颈问题。人工智能（AI）视觉芯片与摄像头的关系是：芯片做的是大脑，摄像头做的是眼睛。

人眼的成像是非常聚焦的，只看到关注的东西。而当AI算法解决了“要看什么”的问题后，前端成像就有了目标，可以把所有的资源都调配到关注的对象上，做到“指哪打哪”，也就是取出噪音的处理过程，可以更高效智能地处理视觉信息。这种根据AI的需求来成像，能解决很多以前解决不了的问题。

现在，人工智能视觉处理已从数据中心迅速发展到边缘，最新的专用集成电路（ASIC）和片上系统（SoC）IP正在围绕一个主题发展，即从视觉信息的预处理，到传统的计算机视觉算法，然后再用神经网络进行边缘推理，产生对象检测、识别以及适当的动作，是包括计算机视觉深度学习在内的多种机器学习的总称。

这些网络的设计旨在使用数字等效物和感知器来模拟人脑的神经元和突触，它们通常需要经过训练，才能识别视觉等数据中的模式，然后当遇到新的数据时，就可以从中推断出数据可能的含义。

在过去十年，由于可负担计算能力的增加，以及卷积神经网络（CNN）及其所用传感器的发展，视觉处理一直在以指数级的速率进步。具体而言，若能根据传感器、数据集和SLAM（同时定位与映射）算法输入去“了解”世界并对其“开发出”表征模型，那么系统就可以开始掌握周围环境及其在空间中的位置，并做出预测和采取行动。

在对人工智能而非提高像素的需求推动下，特别是在由计算机视觉和数据驱动的决策制定方面，GPU（图形处理单元）领域已出现一场革命：神经网络的到来已使视觉处理成为现代世界的关键因素。因此，机器人处理操作、智能监控摄像头以及汽车高级驾驶辅助系统（ADAS）等相关行业都发生了变化 —— 随着这类技术的全面涌现，未来还将出现更多新的应用。

人工智能视觉处理都能做什么？

一片小小的人工智能视觉芯片能做什么？无人驾驶汽车主动识别并避让行人、摄像头实时甄别在逃犯，这些影视作品中的情节，或许不久将可通过基于嵌入式人工智能视觉芯片的“解决方案”成为现实。人工智能芯片被视为未来人工智能时代的战略制高点。在视觉感知领域，人工智能视觉芯片正逐步应用于智能手机、安防监控、自动驾驶、医疗成像和智能制造等领域。

· 自动驾驶：自动驾驶汽车上装有多个摄像头，用来实现计算机视觉、对象识别、车道警告和驾驶员监控，以及其他传感器（例如，热成像、RADAR和LiDAR）而实现传感器融合。人工智能和路径规划可以识别和预测是否有小孩会走到公路上，从而让车辆预测和减速，以便采取规避行动。在更简单的层面上，自动代客泊车可以使驾驶员省去寻找停车位的负担。

· 医疗成像：其中最突出的应用领域是医疗计算机视觉和医学图像处理，这个区域的特征的信息从图像数据中提取用于使患者的医疗诊断的目的。可以从图像数据中提取的一个例子是检测的肿瘤，动脉粥样硬化或其他恶性变化，它也可以是器官的尺寸，血流量等。

· 智能制造：信息被提取为支撑的制造工序的目的，例如，质量控制其中的信息或最终产品被以找到缺陷自动检测。同时也被大量用于农业的过程，从散装材料，这个过程被称为去除不想要的东西，食物的光学分拣。

· 军事应用：最明显的例子是探测敌方士兵或车辆和导弹制导。更先进的系统为导弹制导发送导弹的区域，而不是一个特定的目标，并且当导弹到达基于本地获取的图像数据的区域的目标做出选择。现代军事概念，如“战场感知”，意味着各种传感器，包括图像传感器，提供了丰富的有关作战的场景，可用于支持战略决策的信息。在这种情况下，数据的自动处理，用于减少复杂性和融合来自多个传感器的信息，以提高可靠性。

视觉处理行业的产业链是由上游基础层、中游技术层以及下游应用层组成的。

· 上游基础层基础层：主要包括CPU、GPU等芯片硬件，深度神经网络、循环神经网络、卷积神经网络等算法，以及由真实数据和模拟数据共同构成的数据集。核心芯片被Intel、Nvidia等传统芯片厂商把控，新型芯片厂商尚未崛起，规模应用有待时日；开源平台以谷歌的Tensorflow、Facebook的Caffe等为主，其它企业的深度学习框架多为二次开发。

· 中游技术层：主要包括视频识别、图片识别、模式匹配等嵌入式视觉软件，以及一站式解决方案。算法，初创企业占优；云计算，几乎被AWS、Google Cloud、Azure、阿里云等垄断。

· 下游应用层：为计算机视觉的落地场景，包括智慧安防、智慧金融、手机应用、无人驾驶等商业领域。垂直行业龙头占据场景，技术层初创企业向上渗透。

由此，可以将国内计算机视觉的玩家分为三类：

1. 海康威视、大华股份、宇视科技等安防厂商：安防影像分析的市场需求驱动此类企业的技术研发，近年来安防行业头部厂商纷纷推出自家智能化产品和解决方案。作为人工智能范畴中最关键的子领域之一（人类从外界获取的信息中有80%~85%是依靠视觉实现的），计算机视觉技术的愿景是利用摄像机等视觉传感装置来代替人眼对物体进行识别、跟踪和测量，再由计算机处理这些视觉信息，从而达到像人眼一样对事物进行感知和认知，直接对应安防监控系统“看得懂”的需求。

2. 互联网巨头公司：近年来基于深度学习的智能语音、计算机视觉、自然语言处理等技术开始向各个应用领域渗透，全球人工智能产业规模快速增长。为抢占人工智能高地，谷歌、微软、阿里巴巴、百度、腾讯、IBM、Facebook 等国际知名企业均持续增加在人工智能领域的资本投入。美国、中国、英国、德国、日本等国家也分别出台人工智能相关支持政策及国家战略规划，为整个产业的发展创造良好的政策环境。

3. 创业公司：包括商汤科技、依图科技和旷视科技等企业，普遍以细分领域为发力点，布局思路各异。在商汤、旷视、依图等头部企业看，各家战略思路差异明显。商汤致力于构造平台，专注底层基础应用，力图在完善平台后于其他领域快速落地。旷视则在致力于在安防、金融、零售、汽车、教育等广泛领域提供软硬件一体化的解决方案。依图则表现出对安防、医疗两大领域的专注深耕，依托产品化、工程化能力深入落地。

AI视觉未来的发展

视觉人工智能行业的发展，离不开技术的驱动：一方面诸如GPU、FPGA、ASIC等一系列AI芯片的出现极大提升了芯片计算能力，突破了传统CPU的算力瓶颈；另一方面以深学习为代表的AI算法的崛起，使得AI视觉的识别能力有了很大的提高。硬件算力的提升以及软件算法的进步都对视觉人工智能的发展起到了重要的推动作用。

AI视觉行业的快速发展一方面得益于现阶段算力的大幅提升及算法的大幅改善（国内算法甚至已经达到国际水平），另一方面则受益于下游应用市场的广阔空间。机器学习、深度学习等算法能力的不断增强促进了视觉人工智能行业的高速发展。

视觉处理的工作流程包含四个模块：检测、分类、跟踪与语义分割。具体为成像设备首先捕获图像，然后对每个图像进行预处理，提取特征后输入到分类模型中。人工智能视觉是采用图像处理、模式识别、人工智能技术相结合的手段，着重于一幅或多幅图像的计算机分析。

图像可以由单个或者多个传感器获取，也可以是单个传感器在不同时刻获取的图像序列。在消费级领域，随着数据量上涨、运算力提升和深度学习算法的发展，计算机视觉技术越来越多地被应用在各类消费级应用场景中，典型的如人脸识别服务，具体包括人脸检测、人脸关键特征点、人脸对比、人脸搜索、人脸属性、人脸聚类、人力活体检测等。

AI视觉处理就是用各种成像系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理，计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。

当前人工智能理论和技术日益成熟，应用范围不断扩大，产业正在逐步形成、不断丰富，相应的商业模式也在持续演进和多元化。据IDC统计，2018年我国人工智能市场规模为161.9亿元，预计到2022年市场规模将接近700亿元，年复合增长率超过50%。据中国人工智能学会和罗兰贝格咨询公司预测，2025年市场规模将达到3万亿美元。

以深度学习为代表的人工智能算法的出现极大推动了视觉人工智能行业的发展。计算机视觉是人工智能行业的最大组成部分，与其他细分的比较来看，计算机视觉技术应用的市场规模也远远大于其他细分。

那么，视觉系统芯片如果在未来实现产业化，其市场空间有多大？据推算，2018年，图像传感器的市场规模在150亿美元左右，虽然其中120亿美元发生在智能手机领域，但未来发展比较快的4个领域是安防、国防、汽车、医疗，到2021年将会迎来40亿美元的市场空间，年增长率约10%—20%。

视觉处理器的需求增长会更快，目前该市场的整体规模（包括硬件、软件、服务）在170亿美元至180亿美元，单从硬件来看也占到约30亿美元。如果视觉系统芯片可以覆盖70亿美元的市场规模，企业在这中间拿到1%的话，其盈利空间就已经很大了。

近年来，国内外一批新型人工智能企业，依托人工智能领域技术和算法优势向芯片行业渗透，加强人工智能芯片基础层研发。从市场格局来看，已经发展成为一个相对独立又相互依存的产业生态。在前端，索尼是图像传感器市场、生产和技术的领导者，紧随其后的三星和豪威科技也保持着不错的竞争力；在后端，Mobileye和英伟达（NVIDIA）是提供视觉处理芯片的主要厂商，在国内该领域的公司有地平线等。

然而，截至目前，尚未有企业实现“图像传感器+视觉处理器”集成式芯片的大规模量产。不管是现在的创业企业，还是已经在市场上占有一定份额的大企业，不是做图像传感器，就是做后端的视觉处理器，这将给初创企业带来机会。