基础网络的训练

我们这里主要介绍以下几个网络的训练与使用:

以上这些网络涵盖了日常使用网络设计到的大部分功能,一些相关的应用也可以通过这些网络的变通,修改进行试验。

1.MobileNet

2.MnasNet

MnasNet同样是谷歌发布的高效移动端分类网络,与Mobilenet不同之处在于网络的设计借助deepmind AI的能力,不是hand craft手动设计的网络,相比于mobilenet,速度快大约1.5倍,准确度提高将近两个点。我们同样复现了该网络,并且提供了该网络再标准ImageNet上的pretrain model,接近了官方的精度。连接地址:

3.MTCNN

MTCNN是一个非常优秀的单一物体检测框架,可以用这个框架进行人脸、车辆、行人等单一物体的检测,该网络的主要问题在于单帧图像中包含多个物体时,检测速度下降严重。mtcnn的复现在github上有多个版本,包括caffe、keras、TensorFlow等,我们测试了不同版本,有一些存在问题,https://github.com/AITTSMD/MTCNN-Tensorflow 这个repo能够基本复现作者的精度,训练过程中,一定要注意正负样本保持1:3的比例。其实,mtcnn框架具有一些优化的方法和空间,包括用卷积替代polling,采用dw卷积等等,相关修改可以参考我们的文章: . 我们的工程师同样提供了一个优化的mtcnn模型:https://github.com/szad670401/Fast-MTCNN ,大家可以参考修改。

4.MobileNet-SSD

5.ArcFace

6.insightface

7.VanillaCNN

VanillaCNN是针对香港中文大学人脸关键点定位网络TCDCN的一个复现,大家可以参考 。稠密人脸关键点定位(通常关键点50点以上)同样是一个回归问题,让网络能够通过对人脸边缘特征的提取,回归出准确的定位,这篇文章采用了多任务进行定位,取得了很好的效果,后来几年的的很多算法,在准确度上有提升,但是在速度上不具有优势。大家可以利用高效的网络结构提取特征并加速,取得更好的人脸关键点定位准确度和速度。大家在训练关键点定位的网络时,可以结合可视化的技术,将网络后面基层的feature map显示出来,观察网络对输入人脸边缘提取的效果,改进网络结构。

8.YOLO-V3

通用物体检测近年来也是研究人员关注的人们领域,从RBG、何凯明大神的RCNN,Fast RCNN,Faster RCNN,MASK RCNN等,Single Shot的Yolo系列、SSD等,以后后来的RetinaNet,我们对这一系列的网络都进行过测试,由于我们算法组在日常使用中主要考虑移动端的部署以及服务器端的效率,推荐了MobileNet-SSD跟YOLO-V
3。我们对3000张行车记录仪标注图像以及2000张交通监控图片进行标注,分别在以上网络进行了测试,对于我们的图片,YOLO-V3表现最好,速度也是最快的一档。项目主页:https://pjreddie.com/darknet/yolo/

9.DeepOCR