第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用。

第2层:掌握CV算法最底层的能力,包括CNN模型,Transformer模型,图像分类,模型分析。

第3层:掌握CV算法最核心的方向,包括图像分割,目标检测,图像生成,目标跟踪。

第4层:掌握CV算法最核心的应用,包括人脸图像,图像质量,视频分析,图像编辑。

第5层:掌握算法落地的关键技术,包括模型优化,模型部署。

随着Transformer模型的诞生,自然语言处理领域进入了预训练模型时代,随后研究者开始将Transformer模型迁移到计算机视觉领域,并在学术上取得了许多进展,提出了各种各样的Vision Transformer模型,在性能上不输CNN模型。

深度学习在视觉方向介绍 · 语雀

深度学习在视觉方面有三个重要的部分:目标分类、目标检测、目标分割。

目标分类(Object Classification):判断图像中出现的物体属于哪一个类别。可实现:输入一副图片,输出该图片中物体类别的候选集合。

目标检测(Object Detection):又叫物体检测或目标分类检测,包含两个问题,一是判断出现在图片上的物体属于哪一个类别;二是对该物体进行定位,定位常用的表征就是物体的边界框。可实现:输入一副图片,输出检测到的物体的类别以及位置。

目标分割(Object Segmentation):又叫语义分割,将图片中每一个像素点进行分类。可实现:输入一副图片,输出该图片每个像素点所属的物体类别。

场景

零样本目标检测

YOLO

VIT

OCR

Segment

●图像关键词标记(Image Keywording或Image Tagging):给图像分配关键词或标签。

●物体检测(Object Detection):在照片、视频或图像中识别特定物体,并用边界框(一个准确标记物体轮廓的矩形框)进行标记。

对象检测模型

RCNN系列(RCNN、Fast RCNN、Faster RCNN)、YOLO和SSD