Rotation Proposals

makefile 2018-03-15 原文

Rotation Proposals

论文Arbitrary-Oriented Scene Text Detection via Rotation Proposals
这篇论文提出了一个基于Faster R-CNN的支持任意角度旋转的场景文字检测框架.在Fast R-CNN的部分与论文Rotated Region Based CNN for Ship Detection的思路基本一致.不过多了候选框生成RPN的部分.
加入旋转角度的Faster R-CNN pipline如下:
R-FRCN

数据预处理

给每个标记的bbox添加旋转角度,得到5元组(x,y,h,w,θ).其中(x,y)代表中心点坐标,(h,w)是短边和长边.

Rotation Anchors

Faster R-CNN中anchors的定义是以(16,16)为基准,得到三种长宽比(0.5,1,2),三种尺度(8,16,32)的anchors,总共9个.论文提出对长宽比进行适当调整,以符合大多数文字区域的长宽比情况.另外,添加了6个不同的角度.因此在特征图上每个点预测3x3x6个box.
anchor策略如下图:
anchor-strategy

bbox回归

学习的目标是anchor与ground-truth box之间的映射关系(仿射变换与指数映射),而普通的方法里边学习的目标通常就是标签,有所不同.那么,为什么要学习一个修正值(regression),而不是直接学习真正的坐标呢?
因为在特征图上对每个点对应的原图区域进行是否是后选区域的二分类,坐标是通过类似滑窗的方式就能确定的,无需学习.这种滑窗搜索的方式还不够精确,可以再通过一个卷积学习一个变换(anchor与ground-truth box这两个框之间的映射关系可能相对比较固定,可以学习这个映射关系).
注意的是这里新增的对于角度的仿射变换是 θa − θg + kπ.

针对旋转的方法适配

IoU的计算要考虑倾斜度:
NMS除了考虑IoU,置信度,也可以考虑倾斜度,保留角度差值较小的.
RRoI Pooling Layer

需要对有角度的roi区域仿射变换到与坐标轴对齐的矩形数组中,再采用max pooling得到相同尺寸的特征图.

相似论文:
另一篇论文R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection提出了不同的做法,在RPN中任然使用与坐标平行的box做法,在分类网络中加入旋转角度.

版权声明：本文为makefile原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/makefile/p/Rotation-Proposals.html

Rotation Proposals的更多相关文章

点云3D 目标检测
点云点云是雷达采集到的信息. 关于点云基本介绍参考https://zhuanlan.zhihu.com/p/ […]...
一个可扩展的深度学习框架的Python实现（仿keras接口）
一个可扩展的深度学习框架的Python实现（仿keras接口）动机 keras是一种非常优秀的深度学习框架， […]...
TensorFlow学习笔记（七）Tonser Board
　　为了更好的管理、调试和优化神经网络的训练过程，TensorFlow提供了一个可视化工具TensorBoar […]...
Boltzmann Machine 玻尔兹曼机入门
Generative Models 生成模型帮助我们生成新的item，而不只是存储和提取之前的item。Bol […]...
torch.nn 的本质
PyTorch 提供了各种优雅设计的 modules 和类 torch.nn，Dataset 来帮助你创建并训 […]...
【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs
论文：《Learning Fashion Compatibility with Bidirectional L […]...
CNCC2017中的深度学习与跨媒体智能
CNCC2017中的深度学习与跨媒体智能转载请注明作者：梦里茶目录机器学习与跨媒体智能传统方法与深度学 […]...
理解深度学习:神经网络的双胞胎兄弟-自编码器(上)
前言本篇文章可作为<利用变分自编码器实现深度换脸(DeepFake)>的知识铺垫。自编码器是什 […]...

随机推荐

Spring Boot与日志
市面上的日志框架 JUL、JCL、Jboss-logging、logback、log4j、log4j2、slf […]...
从零开始学 Web 之 ES6（五）ES6基础语法三
大家好，这里是「从零开始学 Web 系列教程」，并在下列地址同步更新…… gith […]...
小程序参数二维码生成器
微信小程序支持带参数二维码,好推二维码的HotApp小程序统计针对这个功能推出了小程序带参数二维码生成器输入 […]...
数据结构–链表
　　网上关于链表的文章很多，比我写的好的前辈也多不胜数。工作一年总是感觉前面学的后面忘，于是就诞生了写博客的 […]...
【Java源码】集合类-LinkedList
一、类继承关系 LinkedList和ArrayList都实现了List接口。所以有List的特性，同时Lin […]...
webservice 调用时拒绝访问
<Results xmlns=”http://schemas.microsoft.com/s […]...
轻松理解非对称加密 – 三人行博客
轻松理解非对称加密 http://www.jianshu.com/p/2cdaf8e99f8d 一直以来,&# […]...
安利一个神器：Tmux
对于程序员来说，一个好用且高效的软件工具就如同加持了神技的游戏角色。下面就给大家介绍一个神器 Tmux 以及个 […]...

展开目录

目录导航