- COCO detection,detection最好的一篇综述
- overview :
- 2 tasks(bounding box output(画框) , object/instance segementation output(描边)),only latter featured at COCO2019
- data : COCO,200000 images,80 categories
- RCNN☞Fast RCNN☞Faster RCNN
- selective search:RCNN/Fast RCNN,1k-2k个proposal时效果最好,把image分割成很多proposal,计算相邻proposal相似度,相似度大的合并,最后输出proposal框
- region proposal:RCNN和Fast RCNN里用ss提取 2k个;faster RCNN提出用RPN(region proposal network)提取 300个
- bounding box regression: 平移+尺度缩放,学习变形比例
输入:proposal框坐标,ground truth框坐标
输出:坐标平移量
只有当Proposal和Ground Truth比较接近时(线性问题),我们才能将其作为训练样本训练我们的线性回归模型,否则会导致训练的回归模型不work(当Proposal跟GT离得较远,就是复杂的非线性问题了,此时用线性回归建模显然不合理)。这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键。 - IOU(intersection over Union,重叠度,交并比):对象类别分割问题的标准性能度量,给定一组图像,Iou测量给出了该组图像中存在的对象的prediction region和ground truth region之间的相似性
计算得是“预测的边框”和“真实的边框”的交集和并集的比值
基于坐标的交并集计算 - anchor:RPN里面提出,anchor技术将问题转换为"这个固定参考框中有没有认识的目标,目标框偏离参考框多远",不再需要多尺度遍历滑窗,真正实现了又好又快,如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分,anchor box综述
- feature map:在每个卷积层,数据都是以三维形式存在的。 你可以把它看成许多个二维图片叠在一起,其中每一个称为一个feature map。 在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)
- ROIpooling:region of interest
- pretrained model:通常指的是在Imagenet上训练的CNN(用于视觉相关任务的架构),是在训练结束时结果比较好的一组权重值;迁移学习(transfer learning)
- 反向传播:卷积操作相当于特征提取,更新卷积核里的参数值

- VGG16
mmdetecion torchvision mmdet mmcv