简体中文 | English

前沿算法与模型

1. 概要

PaddleVideo包含视频理解方向众多模型，包括基于RGB的行为识别模型，基于骨骼点的行为识别模型、时序动作检测模型、时序分割模型、时空动作检测模型、视频目标分割模型、多模态模型。其中基于RGB的行为识别方向是PaddleVideo核心建设的方向，因其训练得到的好的特征提取器提取的特征，是众多下游任务的基础输入。

与图像识别不同的是，行为识别任务的核心是提取时序信息。按模型结构的不同，基于RGB的行为识别方法大体上可以分为基于2D网络、基于3D网络、基于RNN以及基于Transformer结构的模型。2D网络一般会使用图像预训练模型配合时序模块提取时序信息，比如TSN、TSM等，简单高效。由于视频多一个时序维度，因此很自然的会使用3D卷积提取时序信息，比如I3D、SlowFast。3D模型的计算量一般比较大，训练迭代次数也更多一些。基于RNN的网络以视频特征作为输入，利用RNN提取时序信息，如AttentionLSTM。近期学界涌现了众多基于Transformer结构的行为识别网络，如TimeSformer、VideoSwin。相较于卷积网络，transformer结构的网络精度更高，计算量也会大些。

PaddleVideo自研并开源了PP-TSM，该模型基于TSM进行优化，在保持模型参数量和计算量不增加的前提下，精度得到大幅提升，欢迎使用。更多前沿模型复现与基础模型优化工作，敬请期待～

2. 模型概览

行为识别方法
PP-TSM (PP series)	PP-TSN (PP series)	PP-TimeSformer (PP series)	TSN (2D’)	TSM (2D‘)
SlowFast (3D’)	TimeSformer (Transformer‘)	VideoSwin (Transformer’)	TokenShift (3D’)	AttentionLSTM (RNN‘)
MoViNet (Lite‘)
基于骨骼点的行为识别方法
ST-GCN (GCN’)	AGCN (GCN‘)	2s-AGCN (GCN‘)	CTR-GCN (GCN‘)
时序动作检测方法
BMN (One-stage‘)
视频时序分割
MS-TCN	ASRF
时空动作检测方法
SlowFast+Fast R-CNN
多模态
ActBERT (Learning‘)	T2VLAD (Retrieval‘)
视频目标分割
CFBI (Semi‘)	MA-Net (Supervised‘)
单目深度估计
ADDS (Unsupervised‘)

3. AI-Studio模型教程

4. Benchmark

各模型训练推理速度参考 Benchmark.

jkException / PaddleVideo

前沿算法与模型

1. 概要

2. 模型概览

3. AI-Studio模型教程

4. Benchmark

简介

发行版

贡献者

近期动态

jkException / PaddleVideo .gitee-modal { width: 500px !important; }

前沿算法与模型

1. 概要

2. 模型概览

3. AI-Studio模型教程

4. Benchmark

简介

发行版

贡献者

近期动态

搜索帮助

jkException / PaddleVideo