torch.utils.bottleneck

是调试瓶颈bottleneck时首先用到的工具.它总结了python分析工具与PyTorch自动梯度分析工具在脚本运行中情况.

在命令行运行如下命令

其中 [args] 是脚本的参数(任意个数).运行python -m torch.utils.bottleneck -h命令获取更多帮助说明.

请确保脚本在分析时能够在有限时间内退出.

警告

当运行CUDA代码时，由于CUDA内核的异步特性, cProfile的输出和cpu模式的autograd分析工具可能无法显示正确的计时: 报告的CPU时间是用于启动内核的时间,不包括在GPU上执行的时间。在常规cpu模式分析器下，同步操作是非常昂贵的。在这种无法准确计时的情况下，可以使用cuda模式的autograd分析工具。

选择查看哪个分析工具的输出结果(CPU模式还是CUDA模式) ,首先应确定脚本是不是CPU密集型CPU-bound(“CPU总时间远大于CUDA总时间”)。如果是cpu密集型，选择查看cpu模式的结果。相反，如果大部分时间都运行在GPU上，再查看CUDA分析结果中相应的CUDA操作。

当然，实际情况取决于您的模型，可能会更复杂，不属于上面两种极端情况。除了分析结果之外,可以尝试使用命令查看torch.autograd.profiler.emit_nvtx()的结果.然而需要注意NVTX的开销是非常高的,时间线经常会有严重的偏差。

警告

更多更复杂关于分析工具的使用方法(比如多GPU),请点击或者 .