detection综述

Rich feature hierachies for accurate object detection and semantic segmentation

  • Abstract

  • Introduction

  • Object detection with RCNN

module design
Test-time detection
Training
Results on OASCAL VOC 2010-12
Results on ILSVRC2013 detection
  • Visualization,ablation,and modes of error
Visualizing learned features
Ablation studies
Network architectures
Detection error analysis
Bounding-box regression
Qualitative results
  • The ILSVRC2013 detection dataset
Dataset overview
Region proposals
Training data
Validation and evaluation
Ablation study
Relationship to Overfeat
  • Semantic segmentation
  • Conclusion

  • 这样按文章结构分take notes有些抓不住重点
  • 分成:主要工作、概念理解、核心思路、实验过程、有用链接

  • detection综述
  • 一文读懂fasterRCNN,fasterRCNN是two-stage的基础
  • anchor可以理解为候选框。最后分类这个框是属于背景还是前景;同时回归,修正anchor box的坐标,得到检测到的物体真正位置
  • two-stage:非end-to-end,要先region proposal,提取目标所在位置及大小;再把候选框输入到CNN来classification(RCNN家族)
    one-stage:end-to-end,用CNN定位和识别分类(YOLO)end-to-end1end-to-end2
    区别:two-stage算法会先使用一个网络生成proposal,如selective search和RPN网络,前者是基于一些人造特征来的,RPN是一个也需要进行训练的网络,RPN出现后,ss方法基本就被摒弃。RPN网络接在图像特征提取网络backbone后(和之后的fast-RCNN网络架构共用特征提取层),会设置RPN loss(bbox regression loss+classification loss)对RPN网络进行训练,RPN生成的proposal再送到后面的网络中进行更精细的bbox regression和classification。One-stage追求速度舍弃了two-stage架构,即不再设置单独网络生成proposal,而是直接在feature map上进行密集抽样,产生大量的先验框,如YOLO的网格方法和SSD沿用Faster-RCNN的Anchor方法。这些先验框没有经过两步处理,且框的尺寸往往是人为规定,精度肯定会比较低,而且Retina-Net论文中提到,one-stage产生的先验框正负样本比例严重失衡(背景样本占多数),会引起训练上的问题(Focal Loss正是为了解决这个问题)

  • Region-CNN features
  • 主要工作:
1.基于区域,用CNN来localize和segment目标
2.训练样本很少时,在额外数据上预训练的模型经过fine-tuning能取得好的效果

rcnn

  • 概念理解
fine-tuning:
Overfeat:
SIFT,HOG: