同步操作将从 PaddlePaddle/PaddleVideo 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
English | 简体中文
Temporal Shift Module (TSM) 是当前比较受关注的视频分类模型,通过通道移动的方法在不增加任何额外参数量和计算量的情况下,极大地提升了模型对于视频时间信息的利用能力,并且由于其具有轻量高效的特点,十分适合工业落地。
我们提供了详尽理论及代码讲解,并可使用免费在线GPU算力资源,一键运行的AI Studio Notebook项目, 使用链接:Paddle2.1实现视频理解经典模型-TSM
本代码实现的模型为基于单路RGB图像的TSM网络,Backbone采用ResNet-50结构。
详细内容请参考ICCV 2019年论文 TSM: Temporal Shift Module for Efficient Video Understanding
Kinetics400数据下载及准备请参考k400数据准备
UCF101数据下载及准备请参考ucf101数据准备
加载在ImageNet1000上训练好的ResNet50权重作为Backbone初始化参数ResNet50_pretrain.pdparams,也可以通过命令行下载
wget https://videotag.bj.bcebos.com/PaddleVideo/PretrainModel/ResNet50_pretrain.pdparams
打开PaddleVideo/configs/recognition/tsm/tsm_k400_frames.yaml
,将下载好的权重路径填写到下方pretrained:
之后
MODEL:
framework: "Recognizer2D"
backbone:
name: "ResNetTSM"
pretrained: 将路径填写到此处
Kinetics400数据集使用8卡训练,frames格式数据的训练启动命令如下:
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7" --log_dir=log_tsm main.py --validate -c configs/recognition/tsm/tsm_k400_frames.yaml
Kinetics400数据集使用8卡训练,videos格式数据的训练启动命令如下:
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7" --log_dir=log_tsm main.py --validate -c configs/recognition/tsm/tsm_k400_videos.yaml
开启amp混合精度训练,可加速训练过程,其训练启动命令如下:
export FLAGS_conv_workspace_size_limit=800 #MB
export FLAGS_cudnn_exhaustive_search=1
export FLAGS_cudnn_batchnorm_spatial_persistent=1
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7" --log_dir=log_tsm main.py --amp --validate -c configs/recognition/tsm/tsm_k400_frames.yaml
使用amp混合精度训练时,配合nhwc
的数据格式有更好的加速效果,其训练启动方式如下:
export FLAGS_conv_workspace_size_limit=800 #MB
export FLAGS_cudnn_exhaustive_search=1
export FLAGS_cudnn_batchnorm_spatial_persistent=1
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7" --log_dir=log_tsm main.py --amp --validate -c configs/recognition/tsm/tsm_k400_frames_nhwc.yaml
另外您可以自定义修改参数配置,以达到在不同的数据集上进行训练/测试的目的,配置文件命名方式为模型_数据集_文件格式_数据格式.yaml
,具体参数用法请参考config。
加载在Kinetics-400上训练好的权重作为Backbone初始化参数TSM_k400.pdparams,也可以通过命令行下载
wget https://videotag.bj.bcebos.com/PaddleVideo-release2.1/TSM/TSM_k400.pdparams
打开PaddleVideo/configs/recognition/tsm/tsm_ucf101_frames.yaml
,将下载好的权重路径填写到下方pretrained:
之后
MODEL:
framework: "Recognizer2D"
backbone:
name: "ResNetTSM"
pretrained: 将路径填写到此处
UCF-101数据集使用4卡训练,frames格式数据的训练启动命令如下:
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3" --log_dir=log_tsm main.py --validate -c configs/recognition/tsm/tsm_ucf101_frames.yaml
UCF-101数据集使用4卡训练,videos格式数据的训练启动命令如下:
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3" --log_dir=log_tsm main.py --validate -c configs/recognition/tsm/tsm_ucf101_videos.yaml
开启amp混合精度训练,可加速训练过程,其训练启动命令如下:
export FLAGS_conv_workspace_size_limit=800 #MB
export FLAGS_cudnn_exhaustive_search=1
export FLAGS_cudnn_batchnorm_spatial_persistent=1
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3" --log_dir=log_tsm main.py --amp --validate -c configs/recognition/tsm/tsm_ucf101_frames.yaml
使用amp混合精度训练时,配合nhwc
的数据格式有更好的加速效果,其训练启动方式如下:
export FLAGS_conv_workspace_size_limit=800 #MB
export FLAGS_cudnn_exhaustive_search=1
export FLAGS_cudnn_batchnorm_spatial_persistent=1
python3.7 -B -m paddle.distributed.launch --gpus="0,1,2,3" --log_dir=log_tsm main.py --amp --validate -c configs/recognition/tsm/tsm_ucf101_frames_nhwc.yaml
best
获取模型测试精度,日志示例如下:Already save the best model (top1 acc)0.7106
python3.7 main.py --test -c configs/recognition/tsm/tsm_k400_frames.yaml -w output/TSM/TSM_best.pdparams
-c
参数指定配置文件,通过-w
指定权重存放路径进行模型测试。当测试配置采用如下参数时,在Kinetics-400的validation数据集上的评估精度如下:
backbone | Sampling method | Training Strategy | num_seg | target_size | Top-1 | checkpoints |
---|---|---|---|---|---|---|
ResNet50 | Uniform | NCHW | 8 | 224 | 71.06 | TSM_k400.pdparams |
当测试配置采用如下参数时,在UCF-101的validation数据集上的评估精度如下:
backbone | Sampling method | Training Strategy | num_seg | target_size | Top-1 | checkpoints |
---|---|---|---|---|---|---|
ResNet50 | Uniform | NCHW | 8 | 224 | 94.42 | TSM_ucf101_nchw.pdparams |
ResNet50 | Uniform | NCHW+AMP | 8 | 224 | 94.40 | TSM_ucf101_amp_nchw.pdparams |
ResNet50 | Uniform | NHWC+AMP | 8 | 224 | 94.55 | TSM_ucf101_amp_nhwc.pdparams |
python3.7 tools/export_model.py -c configs/recognition/tsm/tsm_k400_frames.yaml \
-p data/TSM_k400.pdparams \
-o inference/TSM
上述命令将生成预测所需的模型结构文件TSM.pdmodel
和模型权重文件TSM.pdiparams
。
各参数含义可参考模型推理方法
python3.7 tools/predict.py --input_file data/example.avi \
--config configs/recognition/tsm/tsm_k400_frames.yaml \
--model_file inference/TSM/TSM.pdmodel \
--params_file inference/TSM/TSM.pdiparams \
--use_gpu=True \
--use_tensorrt=False
数据处理
mp4
数据,首先将每条视频数据划分成num_seg
段,然后均匀地从每段中抽取1帧图像,得到稀疏采样的num_seg
张视频帧,再对这num_seg
帧图像做同样的随机数据增强,包括多尺度的随机裁剪、随机左右翻转、数据归一化等,最后缩放至target_size
。训练策略
参数初始化
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。