同步操作将从 PaddlePaddle/PaddleVideo 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
简体中文 | English
PaddleVideo包含视频理解方向众多模型,包括基于RGB的行为识别模型,基于骨骼点的行为识别模型、时序动作检测模型、时序分割模型、时空动作检测模型、视频目标分割模型、多模态模型。其中基于RGB的行为识别方向是PaddleVideo核心建设的方向,因其训练得到的好的特征提取器提取的特征,是众多下游任务的基础输入。
与图像识别不同的是,行为识别任务的核心是提取时序信息。按模型结构的不同,基于RGB的行为识别方法大体上可以分为基于2D网络、基于3D网络、基于RNN以及基于Transformer结构的模型。2D网络一般会使用图像预训练模型配合时序模块提取时序信息,比如TSN、TSM等,简单高效。由于视频多一个时序维度,因此很自然的会使用3D卷积提取时序信息,比如I3D、SlowFast。3D模型的计算量一般比较大,训练迭代次数也更多一些。基于RNN的网络以视频特征作为输入,利用RNN提取时序信息,如AttentionLSTM。近期学界涌现了众多基于Transformer结构的行为识别网络,如TimeSformer、VideoSwin。相较于卷积网络,transformer结构的网络精度更高,计算量也会大些。
PaddleVideo自研并开源了PP-TSM,该模型基于TSM进行优化,在保持模型参数量和计算量不增加的前提下,精度得到大幅提升,欢迎使用。更多前沿模型复现与基础模型优化工作,敬请期待~
行为识别方法 | ||||
PP-TSM (PP series) | PP-TSN (PP series) | PP-TimeSformer (PP series) | TSN (2D’) | TSM (2D‘) |
SlowFast (3D’) | TimeSformer (Transformer‘) | VideoSwin (Transformer’) | TokenShift (3D’) | AttentionLSTM (RNN‘) |
MoViNet (Lite‘) | ||||
基于骨骼点的行为识别方法 | ||||
ST-GCN (GCN’) | AGCN (GCN‘) | 2s-AGCN (GCN‘) | CTR-GCN (GCN‘) | |
时序动作检测方法 | ||||
BMN (One-stage‘) | ||||
视频时序分割 | ||||
MS-TCN | ASRF | |||
时空动作检测方法 | ||||
SlowFast+Fast R-CNN | ||||
多模态 | ||||
ActBERT (Learning‘) | T2VLAD (Retrieval‘) | |||
视频目标分割 | ||||
CFBI (Semi‘) | MA-Net (Supervised‘) | |||
单目深度估计 | ||||
ADDS (Unsupervised‘) |
各模型训练推理速度参考 Benchmark.
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。