分布式训练reader准备

    比较通用的方法,可以实现一个 cluster_reader, 根据训练进程数量以及进程序号决定读取哪些 example:

    预先切分训练文件

    由于使用 cluster_reader 依然会读取全量数据,对于训练进程比较多的任务,会造成IO资源的浪费、影响训练性能。另一种方法是可以将训练数据切分成多个小文件,每个进程处理其中的一部分文件, 例如在 Linux 系统中可以使用 命令将训练数据切分成多个小文件:

    在上述例子中,files_pattern 是训练文件的 glob 表达式,一般可以用通配符来表示。