感谢子豪兄的分享-关于RCNN的学习(一)
红色表示图像分类算法,绿色表示目标检测算法,但是这个年份是不是有点问题
语义分割:区分每一个像素的类别
实例分割:在语义分割的基础上区分每个物体
keypoint detection:关键点检测
做一些单词区分
detection 意味着你能看到目标。比如手势识别,骨干识别,keypoint detection
recognition 意味着你能认识目标。比如它是车,人,或动物。目标检测,object recognition
identification 意味着你能分辨目标。能找出同一类下的不同,比如它是什么车。
bounding box 边界框
RCNN原理的简述
在原图上提取2000+的候选框,将候选框缩放至统一尺寸,逐一送进同一个卷积网络,每个候选框最终的到4096维的卷积特征,一方面送进class个数个用于分类的SVM中,一方面用于预测框的回归
功耗分布
光以此图来看,将2000+的候选框逐一送进网络最为耗时,可不嘛,一张图当2000张用,这数据规模可是不得了
为了解决RCNN的性能问题,有大量的方法:
像共享卷积运算,就是从原图提取卷积特征,然后所有候选框共享这个特征
RCNN的各个模块-选择搜索算法
产生2000+的候选框
通过聚类,先对图像进行初步分割,然后做融合,逐步收敛候选框的数量
得到候选框之后,将候选框缩放至227*227的尺寸
填充的灰条的值等于整张图片像素的平均值
扩大候选框dilate proposal,一边是扩大16pix
另外,
这句话说的很抽象,没看懂?
RCNN的错误分布:
为什么使用SVM而不是用softmax??
这里也是不太明白
RCNN:regions with CNN features
先讲RCNN的测试阶段:
提取好rigion proposals,对每一个proposal做dilate,目的是增加rigion的上下文信息
开始做分类
bbox回归,refinement提炼
由此产生一个问题:bbox的回归怎么做的??是有一个训练好的回归器吗??这个回归是反映到原图上,还是说只是针对这个proposal??
训练RCNN的思路(有当时的时代局限性):
鉴于当时用于目标检测的数据集很少,使用在数据丰富的辅助任务上预训练出的模型,然后再迁移到目标检测上
这个fine tune 需要做到什么程度呢??RCNN是有SVM和回归器的,这俩是否参与预训练??
还有几个问题:
1.正负样本怎么定义
正负样本是相对的概念,不同的正负样本定义对问题解决没有本质影响,但好的正负样本定义可以减轻认知负担、方便人对问题的理解。
比如说做分类任务,对于类别 cat, 的确是猫的图片就判定为正样本,否则判定为负样本
又比如说错误检测任务,那么这时候就将存在错误的样本判定为正样本,这虽然有点反直觉,但这正体现了上述的所谓相对的概念
正负样本的设定应该以目标为导向,或者说他就是为了我们的目标而服务
2.预测框回归是怎么做的?借助神经网络??
3.SVM怎么实现的分类
4.预训练模型和fine tune模型之间的关系
码密码密轰: 已打赏,期待后面更多的精彩博文输出~~~
TYSON_0401: 你好,请问怎么理解置信度标签? 文中说置信度标签使用预测框与标定框的IOU, 那么置信度标签是在训练模型后再打的?那这样损失函数加在一起还有意义吗?