COCO detection

COCO detection，detection最好的一篇综述
overview :

2 tasks(bounding box output（画框） , object/instance segementation output（描边）),only latter featured at COCO2019
data : COCO,200000 images,80 categories
RCNN☞Fast RCNN☞Faster RCNN
selective search:RCNN/Fast RCNN，1k-2k个proposal时效果最好，把image分割成很多proposal，计算相邻proposal相似度，相似度大的合并，最后输出proposal框
region proposal:RCNN和Fast RCNN里用ss提取 2k个；faster RCNN提出用RPN(region proposal network)提取 300个
bounding box regression: 平移+尺度缩放，学习变形比例 输入：proposal框坐标，ground truth框坐标
输出：坐标平移量
只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键。
IOU(intersection over Union，重叠度，交并比)：对象类别分割问题的标准性能度量，给定一组图像，Iou测量给出了该组图像中存在的对象的prediction region和ground truth region之间的相似性计算得是“预测的边框”和“真实的边框”的交集和并集的比值基于坐标的交并集计算
anchor：RPN里面提出，anchor技术将问题转换为"这个固定参考框中有没有认识的目标，目标框偏离参考框多远"，不再需要多尺度遍历滑窗，真正实现了又好又快，如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分，anchor box综述
feature map:在每个卷积层，数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起，其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map（红绿蓝）
ROIpooling:region of interest
pretrained model:通常指的是在Imagenet上训练的CNN（用于视觉相关任务的架构）,是在训练结束时结果比较好的一组权重值；迁移学习（transfer learning）
反向传播：卷积操作相当于特征提取，更新卷积核里的参数值
VGG16

mmdetecion torchvision mmdet mmcv