计算机视觉领域的五类关键技术-科能融合通信

计算机视觉领域一般包括如下五类关键技术。

（1）图像分类

图像分类主要研究内容是对图像进行特征描述。通常，图像分类算法通过手工特征或者特征学习方法对整个图像进行全局描述，并依据图像特征图的不同语义信息进行分类，该技术广泛应用于人脸识别、手写文件或印刷识别、车辆识别等场景。常用的图像分类模型包括：AlexNet[1]、VGG[2]、ResNet[3]、InceptionV4、MobileNetV3[4]、ShuffleNet等。

（2）目标检测

作为计算机视觉的一个重要分支，目标检测的任务是在一幅图像或视频中找到目标类别以及目标位置。与图像分类不同，目标检测侧重于物体搜索，被检测目标必须有固定的形状和轮廓；而图像分类可以是任意目标包括物体、属性和场景等。目标检测已在人脸识别和自动驾驶领域取得了非常显著的效果，经典的检测模型有YOLOV3、SSD[t5]和Faster RCNN[6]。

（3）图像分割

图像分割指的是将数字图像细分为多个图像子区域（像素的集合，也被称作超像素）的过程。图像分割的目的是简化或改变图像的表示形式，使得图像更容易理解和分析。图像语义分割是一个像素级别的物体识别，即每个像素点都要判断它的类别。Mask R-CNN[7]就是一种经典的实力分割网络。

（4）场景文字识别

场景文字识别分为两部分，首先通过目标检测检测出目标区域，然后通过CRNN-CTC模型将网络特征转为文字序列。场景文字识别广泛应用于路牌识别、车牌检测等领域。

（5）图像生成

图像生成是指使用对抗网络（GAN）根据输入的随机噪声或向量生成目标图像。生成器、识别器是对抗网络（GAN）的重要组成部分。

计算机视觉领域的五类关键技术

SBC是什么-企业为什么需要SB以及应用场景

相关内容

北斗通信模块(应用领域、技术优势、市场前景)

电子与通信工程(该领域的前景如何发展)

555定时器电路的发展历程

视频客服

外呼系统

IPPBX

呼叫中心方案

对讲系统

IP广播系统

一键报警

指挥调度系统

电话系统

软交换系统

会议电话

网络电话机

网关