Temporal Segment Networks

demian 2021-09-07 原文

摘要

解决问题

用CNN框架有效提取video长时序特征
在UCF101等训练集受限的情况下训练网络

贡献

TSN网络，基于长时间时序结构模型。稀疏时序采样策略，视频层监督有效学习整个视频。
HMDB51（69.4%），UCF101（94.2%）

介绍

动作识别有两个重要和补充的方面

appearance和dynamic
是否有效提取了特征并充分利用了相关信息
难点：image classification的难点。提取有效特征避开这些challenge并保留分类信息

CNN的局限

CNN网络关注于appearance和短时的motion，缺少处理长时间结构的能力
目前密集间隔采样CNN方法尝试处理video

长时间视频的计算量大，不能实时应用
由于网络固定帧数的限制，视频过长会丢失重要信息
需要大量的训练集，然而目前公开数据集在大小和多样性上受限很大，过拟合的风险

TSN

在双流的基础上采用稀疏采样：k=7或9更好，不是论文中的3

连续帧有高度的冗余性相似性，密集采样是不需要的
省时，省计算
不受帧长限制可以学习整个视频

数据处理

多种输入形式预训练：单一rgb，叠加rgb，叠加光流场，叠加形变光流场
正则化
数据增强

CNN for Action Recognition

深度CNN Karpathy
双流网络 appearance + motion 缺点：单帧，短时间多帧，复杂运动及跨时间多阶段动作很难处理
C3D Tran
64-120固定帧，对长时序视频建模（受限于固定长度的帧，不能处理过长的整个视频，提取全局信息）

时序结构模型

ASM 标注视频的原子动作
隐变量做复杂动作的时域分解，迭代方法隐SVM学习模型参数
LHM SGM 分层模型和分割模型
SSM 序列骨架模型
bag of visual words 视觉词袋模型
（都不是端到端的模型）

BN-Inception 结合双流网络
- TSN在双流上改进
对一个视频，切分为K 个等长片段 {S1, S2, · · · , SK}，从每一个片段中随机抽取一个短的snippet，过双流，不同snippet的分类得分通过片段聚合函数聚合成最后的视频分类的得分，双流融合产生最后的结果
T表示不同snippet，F表示CNN双流提特征，G是融合函数，H是softmax
Loss：，标准类别交叉熵损失
聚合函数
- 平均 (最好) 对所有snippet的属于同一类别的得分做个均值
- 取最大
- 加权平均

提特征的参数W的导数可以看出，tsn网络的是从视频整体进行参数学习，不是针对特定某个短的snippet。　

网络结构：

　　 BN-Inception作为双流的基础结构，RGB：一张rgb图，光流：堆叠的光流场

几种策略减少训练时过拟合

1 跨模态pretrain:

rgb直接用imageNet就好，光流的数据分布明显不同，不能直接用rgb model pretrain optical flow model.

先线性变换，将光流离散化为0-255，修改第一个卷积层的权重，rgb通道的权重取平均后沿着光流通道数复制，从而初始化光流网络。

2 partial BN正则化:

bn，估计batch数据中的均值和方差，从而将激活值转化为标准化正太分布，加速模型收敛，由于数据量的原因可能导致过拟合，所以实验采用，除了第一层， freeze 其他层 BN 中的 mean 和 variance 参数。

在全局池化后面加了dropout

3 数据增广

random cropping, horizontal flipping

New: corner cropping and scalejittering

　　　　4 corners and 1 center 防止过于关注图片中心区域。

　　　　先将rgb或光流resize到256×340，长宽在{256, 224, 192, 168}中随机选，crop后resize到224 × 224，送入网络训练

修改版Caffe和OpenMPI，多卡并行加速训练，4块TITANX，训练时间UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。

版权声明：本文为demian原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/demian/p/9616211.html

Temporal Segment Networks的更多相关文章

Non-local Neural Networks 原理详解及自注意力机制思考
Paper：https://arxiv.org/abs/1711.07971v1 Author：Xiaolon […]...
深度残差网络 Deep Residual Networks
论文：Deep Residual Learning for Image Recognition 论文地址：ht […]...
Learning Representations from EEG with Deep Recurrent-Convolutional Neural Networks
摘要从脑电图(EEG)数据建模认知事件的挑战之一是寻找对主体之间和内部差异不变的表征，以及与脑 […]...
特征金字塔网络Feature Pyramid Networks
小目标检测很难,为什么难.想象一下,两幅图片,尺寸一样,都是拍的红绿灯,但是一副图是离得很近的拍的,一幅图是离 […]...
残差网络（Residual Networks, ResNets）
在训练集上，神经网络越深，效果会越好吗？理论上是的，但传统神经网络做不到这一点。在神经网络的深度达到一定时，在 […]...
深度学习论文翻译解析（十）：Visualizing and Understanding Convolutional Networks
论文标题：Visualizing and Understanding Convolutional Networ […]...
【翻译】给初学者的 Neural Networks / 神经网络介绍
翻译自 SATYA MALLICK 的 “https://www.learnopencv.com/ […]...
（原）Non-local Neural Networks
（原）Non-local Neural Networks 转载请注明出处：论文： https://arx […]...

随机推荐

android驱动[置顶] 我的DIY Android之旅–驱动并控制你的Android开发板蜂鸣器
改章节个人在深圳游玩的时候突然想到的…这几周就有想写几篇关于android驱动的博客，所以回家到之 […]...
postgresql的psql常用命令-4
psql是PostgreSQL的一个命令行交互式客户端工具 1. 查看postgresql账号 [root@l […]...
『代码之外』用经济学利息的角度看美债倒挂
总是写技术文章，偶尔也想写点别的。今天来说说美国十年国债倒挂这件事，我会从经济学中的利息的角度来解释分析，让 […]...
性能测试入门解读
背景介绍项目越做越大，用户量和请数量可能随时发生井喷，如果等到系统崩溃时再补救，损失可就大了，所以得想个办法 […]...
idea的下载与安装
1.下载idea。到idea的官网选择你需要下载的，你最喜欢的版本https://www.jetbrains. […]...
JS 超大文件上传解决方案:分片断点上传(一)
JS 超大文件上传解决方案:分片断点上传(一) 之前仿造uploadify写了一个HTML5版的文件上传插件， […]...
TF中conv2d和kernel_initializer方法
TF中conv2d和kernel_initializer方法 conv2d中的padding 在使用TF搭建C […]...
netstat命令详解
netstat 是查看网络连接的命令，参数嘛，有-a -b -e -n-o -p -r -s -v netst […]...

展开目录

目录导航