从场景中来，让视觉AI更智能

新闻动态

科技向善安全可信

从场景中来，让视觉AI更智能

行业新闻

2022.04.24

“横看成岭侧成峰，远近高低各不同。”这两句诗形象地概括了移步换形、造化万千的庐山风景，庐山的一峰一岭一丘壑，游人所处的位置不同，看到的景物也各不相同。人类视觉感知的一个关键点是将视觉场景解析为物体，并进一步解析为物体的各个局部，从而形成部分 - 整体层次结构。结构化视觉作为人们容易理解的神经网络语言，对于大脑的推理决策活动提供着基础支撑。

场景的结构化，通俗理解就是将我们所看到的一草一木，一楼一隅进行抽丝剥茧，叠层解刨分析。场景结构化描述是对场景的语义化理解，场景分割可以完成场景图像中视觉要素的识别、检测和分割，通过部分 - 整体层级结构诱导出丰富的语义概念和关系，从而在解释和组织视觉信息方面，以及视觉感知和推理的泛化方面发挥着重要作用。

智慧眼场景理解引擎，依托于星辰人工智能中台，基于深度学习算法构建了多层神经网络，模仿人脑的机制来分析和理解图像，可以从大规模数据中学习逐渐抽象的层次化特征，从而建立场景图像到语义类别的映射，使计算机能够充分理解场景内容进行推理活动。

场景理解引擎具有预训练、轻量级、时序性特点。

预训练

利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性，只需在小规模标注数据上进行微调，就可以在相应任务上有所提高。场景理解引擎依托于AI底层基座星辰人工智能中台，涵盖图像应用各类场景模型，囊括智慧眼底层算法，支持可视化的模型效果评估，海量GPU资源分布式训练，预置模型调参及作业建模方式、自研高精度模型，不必从头开始构建，可以节省用户大量时间和成本。

轻量级

为了达到高精度的视觉感知，目前市场上的场景算法倾向于使用较大较深的神经网络结构，导致计算复杂度高、场景分割速度慢、限制了智能引擎在自动驾驶、视频监控、移动平台等场景中的应用。场景理解引擎基于快速和轻量级智能引擎，可以有效解决碎片设备之间的差异，不同训练框架的差异，实现快速的在端侧部署运行。

时序性

面对非静态的场景图像，视频中的物体由于拍摄角度、快速运动和部分遮挡等原因常常表现得模糊和多样，这使得对视频结构化分析难度较大。场景理解引擎利用多维循环神经网络、概率图模型和注意力机制等算法，可以通过挖掘时序上下文信息中的时序连续性提升场景分析精度，以云边协同视频结构化分析方法，在突发事件预警、上报、响应、指挥等各个环节实现及时有效的可视化指挥，满足突发事件现场实时图像传送和视频会商的快速响应需求。

场景理解引擎在泛安防、金融、医疗、工业、政务等领域得到广泛应用。

在医疗领域，一方面，根据医学检测图识别肿瘤、皮肤、心脏以及眼科等疾病，辅助医生高效完成诊断，提升基层医疗机构诊断水平。另一方面，通过使用细粒度场景识别理解模型，计算机视觉、传感器和视频流让很多安全性应用在临床和居家环境中变为可能，为医护工作者扩展了监测病人的能力，包括ICU中的患者监测、诊所中的行为监测、异常事件监控等。

在交通领域，针对目标模态多变、类型多样、动静混存的复杂场景，场景理解引擎通过对视频/图像资源进行深度学习分析，形成抽象、归纳、分析的结果，对人、车、物、行为等进行智能判断。

智慧眼承建的长沙市交通运输局TOCC项目，通过“视频+AI”形成了一套强大的交通视觉感知系统，基于结构化交通场景理解，对公交、出租、轨道、公路和水运等全行业状况进行实时监测，以标准化和规范化的管理体系为保障，服务于交通综合业务辅助与决策、行业监测与预警、应急指挥与调度、综合服务协调与管理等工作。交通运输局依托TOCC全面实时监测的功能，可进行现场调度指挥，30分钟内可召开全市交通系统的连线会议，实现了看得见、听得到、指挥得动的功能。智慧信控系统“站岗”路口，红绿灯会思考，视频AI获取实时车流和人流信息，综合平衡车辆通行和行人过街需求进而智能研判，再也不用空等红灯。此项目获评“新型智慧城市十大典型应用案例”，获得行业专家的高度认可。

在城市数字化应用中，纷繁复杂的口岸现场，实现异常旅客监控、高温旅客监控、安检图像监控、应急与可视化。至关紧要的安防场景，实现行李物品智能审图，智能安检系统能够对已部署的X光安检机具获取的百余类图像进行实时动态分析，并对限制携带物品进行实时动态预警和数据推送。

智慧眼场景理解引擎，正在解锁更多场景，为机器与人之间的交互方式提供更多可能。未来，智慧眼将继续深化“AI+”的应用，以星辰人工智能中台为创新载体，深入赋能场景，不断增强数字化与智能化能力，打造可视、可感、可分析、可决策的新型城市智能体。

上一篇：赋能提升！智慧眼助力中国建设银行人脸识别业务高效落地

下一篇：云问丨让机器读懂语言，开启认知之门

关注智慧眼

及时了解更多新闻动态

推荐阅读