CVPR 2018视频行为识别挑战赛概览
今天看了下CVPR 2018视频行为识别挑战赛的结果,主要了解:都有哪些行为?通常用什么办法去识别。
- 关于Moments-in-Time数据集(视频+动作)的类别分布:
- 339 个动作类别,每个类别至少有1000个视频,动作主体可能是人,动物或一般物体;
- 802264 个训练视频;
- 33900 个验证视频;
- 67800 个测试视频。
- 动作类别示例:
- 动作类别demo示例
bouncing:蹦蹦、弹跳:婴儿在学步车里蹦、儿童在蹦床上蹦、弹簧在反弹、水滴溅到水面
swimming:游泳:鲨鱼在游泳、潜水员在潜水、泳池正在进行比赛
Falling:下落:瀑布、猫掉下来、儿童摔倒、多米诺骨牌倒下
opening:打开:婴儿张大嘴打哈欠、打开首饰盒子、打开剪纸、睁开眼睛
Eating:吃:人吃东西、猫狗吃东西、鸟类吃东西
Climbing:婴儿爬楼梯、运动员登山、熊猫爬树、攀岩
- FullTrack 排行榜:
厂家 | 竞赛排名 | 模型 | 算法说明 | 准确率(FullTrack) |
海康 | 1 |
若干模型的组合:若干个基于RGB图像、一个基于音频
|
提出一种创新的多视图卷积结构,沿着视频数据的三个正交视图进行2D卷积,带有权值共享,可以对视频片段的时空特征进行高效的编码
a novel multi-view convolutional architecture、three orthogonal views of volumetric、spatio-temporal feature
|
top-1 38.7% top-5 66.9% |
旷视 | 2 |
五个模型的组合:三个基于RGB图像、一个基于音频、一个基于光流信息
|
基于空间网络和3D卷积神经网络构建用以提取空间和时域信息。使用了多模态信息:RGB图像、光流和音频
spatial networks 、3D convolutional neural networks
spatial and temporal features、multi-modality cues、optical flow 、audio information
|
top1 38.1%
top5 65.3%
|
七牛云 | 3 |
多个模型的组合
|
基础网络为:非局部神经网络和时域分割网络。用了多模态信息:RGB图像、光流和声信号
non-local neural networks 、 temporal segment networks、Multi-modal
|
top1 35.81% top5 62.59% |
中大 | – |
多个模型的组合
|
整合了静态信息、短时信息,长时信息和声学信息
integrate static infor
mation, short-term temporal information, long-term tempo
ral information and acoustic information
|
top1 27.9%
top5 54%
|
- 小结
对比了full track排名前三及中山大学的技术报告,共同特点:
- 关于是否用到了RCNN系列
- 参考文献