IterableDataset

    概述迭代式数据集的方法和行为的抽象类。

    迭代式(iterable style)数据集需要继承这个基类,迭代式数据集为只能依次迭代式获取样本的数据集,类似Python中的迭代器,所有迭代式数据集须实现以下方法:

    注解

    迭代式数据集不需要实现 __getitem__ 和 ,也不可以调用迭代式数据集的这两个方法。

    代码示例

    paddle.io.DataLoader 中 时,每个子进程都会遍历全量的数据集返回全量样本,所以数据集会重复 num_workers 次,如果需要数据集样本不会重复返回,可通过如下两种方法避免样本重复,两种方法中都需要通过 paddle.io.get_worker_info 获取各子进程的信息。

    代码示例2