torch.cuda.max_memory_allocated()
的最大值作为 GPU 占用率,同时设置 torch.backends.cudnn.benchmark=False
。
注意,这通常比 nvidia-smi
显示的要少tools/benchmark.py
来获取推理时间,它在 torch.backends.cudnn.benchmark=False
的设定下,计算 200 张图片的平均推理时间slide
模式(滑动模式):测试的配置文件字段 test_cfg
会是 dict(mode='slide', crop_size=(769, 769), stride=(513, 513))
.
在这个模式下,从原图中裁剪多个小图分别输入网络中进行推理。小图的大小和小图之间的距离由 crop_size
和 stride
决定,重合区域会进行平均whole
模式 (全图模式):测试的配置文件字段 test_cfg
会是 dict(mode='whole')
. 在这个模式下,全图会被直接输入到网络中进行推理。
对于 769x769 下训练的模型,我们默认使用 slide
进行推理,其余模型用 whole
进行推理align_corners=True
。其余情况,对于输入大小为 8x (比如 512,1024),我们使用 align_corners=False
请参考 FCN 获得详细信息。
请参考 PSPNet 获得详细信息。
请参考 DeepLabV3 获得详细信息。
请参考 PSANet 获得详细信息。
请参考 DeepLabV3+ 获得详细信息。
请参考 UPerNet 获得详细信息。
请参考 NonLocal Net 获得详细信息。
请参考 EncNet 获得详细信息。
请参考 CCNet 获得详细信息。
请参考 DANet 获得详细信息。
请参考 APCNet 获得详细信息。
请参考 HRNet 获得详细信息。
请参考 GCNet 获得详细信息。
请参考 DMNet 获得详细信息。
请参考 ANN 获得详细信息。
请参考 OCRNet 获得详细信息。
请参考 Fast-SCNN 获得详细信息。
请参考 ResNeSt 获得详细信息。
请参考 Semantic FPN 获得详细信息。
请参考 PointRend 获得详细信息。
请参考 MobileNetV2 获得详细信息。
请参考 MobileNetV3 获得详细信息。
请参考 EMANet 获得详细信息。
请参考 DNLNet 获得详细信息。
请参考 CGNet 获得详细信息。
请参考 Mixed Precision (FP16) Training 在 BiSeNetV2 训练的样例 获得详细信息。
为了公平比较,我们全部使用 ResNet-101V1c 进行标定。输入大小为 1024x512,批量样本数为 2。
训练速度如下表,指标为每次迭代的时间,以秒为单位,越低越快。
Implementation | PSPNet (s/iter) | DeepLabV3+ (s/iter) |
---|---|---|
MMSegmentation | 0.83 | 0.85 |
SegmenTron | 0.84 | 0.85 |
CASILVision | 1.15 | N/A |
vedaseg | 0.95 | 1.25 |
注意:DeepLabV3+ 的输出步长为 8。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。