专注SIP通讯产品与方案

计算机视觉领域典型算法模型

近年来,计算机视觉领域的优秀算法层出不穷,以下择要简介研究使用的一些模型。
 
(1)VGG
 
2014年,牛津大学计算机视觉组和谷歌公司的研究员联合研发出一种新的深度卷积神经网络,即VGGNet,并获得当年ILSVRC分类比赛的亚军。VGGNet分为VGG16和VGG19:VGG16通过13层3×3的卷积网络和3层全连接网络构建,VGG19则通过16层3×3的卷积网络和3层全连接网络构建。VGG19被广泛应用于不同行业的图像特征提取领域。
 
(2)Resnet
 
深度残差网络(Residual Network, ResNet)是过去几年中计算机视觉领域颇具开创性的工作。因其强大的表征能力,除图像分类以外,包括目标检测和人脸识别在内的许多计算机视觉应用都得到了性能提升。ResNet101是其中的一种网络堆叠方式,101层网络指齐总的卷积或全连接层数目。
 
(3)SIFT
 
尺度不变特征转换(Scale-invariant feature transform,SIFT)是一种用来侦测与描述影像局部性特征的重要算法,由 David Lowe在1999年所发表,并于2004年总结完善。SIFT算法主要用于处理两幅图像之间发生平移、旋转、仿射变换情况下的匹配问题。
 
(4)Mask R-CNN
 
Mask R-CNN是华人学者何恺明提出的一种简洁、灵活的图像实例分割框架,用于判断图像中不同目标的类别和位置,并可做出像素级预测。该算法不仅能够有效地检测图像中的目标,而且还能为每个实例生成一个高质量的分割掩码。