detection综述

Posted on 2019-09-16

Rich feature hierachies for accurate object detection and semantic segmentation

Abstract
Introduction
Object detection with RCNN

module design

Test-time detection

Training

Results on OASCAL VOC 2010-12

Results on ILSVRC2013 detection

Visualization,ablation,and modes of error

Visualizing learned features

Ablation studies

Network architectures

Detection error analysis

Bounding-box regression

Qualitative results

The ILSVRC2013 detection dataset

Dataset overview

Region proposals

Training data

Validation and evaluation

Ablation study

Relationship to Overfeat

Semantic segmentation
Conclusion

这样按文章结构分take notes有些抓不住重点
分成：主要工作、概念理解、核心思路、实验过程、有用链接

detection综述
一文读懂fasterRCNN,fasterRCNN是two-stage的基础
anchor可以理解为候选框。最后分类这个框是属于背景还是前景；同时回归，修正anchor box的坐标，得到检测到的物体真正位置
two-stage:非end-to-end，要先region proposal，提取目标所在位置及大小；再把候选框输入到CNN来classification（RCNN家族）
one-stage:end-to-end,用CNN定位和识别分类（YOLO）end-to-end1、end-to-end2
区别:two-stage算法会先使用一个网络生成proposal，如selective search和RPN网络，前者是基于一些人造特征来的，RPN是一个也需要进行训练的网络，RPN出现后，ss方法基本就被摒弃。RPN网络接在图像特征提取网络backbone后（和之后的fast-RCNN网络架构共用特征提取层），会设置RPN loss（bbox regression loss+classification loss）对RPN网络进行训练，RPN生成的proposal再送到后面的网络中进行更精细的bbox regression和classification。One-stage追求速度舍弃了two-stage架构，即不再设置单独网络生成proposal，而是直接在feature map上进行密集抽样，产生大量的先验框，如YOLO的网格方法和SSD沿用Faster-RCNN的Anchor方法。这些先验框没有经过两步处理，且框的尺寸往往是人为规定，精度肯定会比较低，而且Retina-Net论文中提到，one-stage产生的先验框正负样本比例严重失衡（背景样本占多数），会引起训练上的问题（Focal Loss正是为了解决这个问题）

Region-CNN features
主要工作：

1.基于区域，用CNN来localize和segment目标

2.训练样本很少时，在额外数据上预训练的模型经过fine-tuning能取得好的效果

rcnn

概念理解

fine-tuning:

Overfeat:

SIFT,HOG: