QueueDataset

    代码示例:

    • local_shuffle()

    局域shuffle数据

    QueueDataset中不支持局域shuffle,可能抛出NotImplementedError

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    3. dataset.local_shuffle()
    • global_shuffle(fleet=None)

    全局shuffle数据

    QueueDataset中不支持全局shuffle,可能抛出NotImplementedError

    代码示例:

    1. import paddle.fluid as fluid
    2. from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    3. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    4. dataset.global_shuffle(fleet)
    • desc()

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. print(dataset.desc())

    返回:一个字符串信息

    • set_batch_size(batch_size)

    设置batch size。在训练期间生效。

    代码示例:

    • 参数:
      • batch_size (int) - batch size
    • set_fea_eval(record_candidate_size, fea_eval)
    • 参数:

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
    3. dataset.set_fea_eval(1000000, True)
    • set_filelist(filelist)

    在当前的worker中设置文件列表。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_filelist(["a.txt", "b.txt"])
    • 参数:
      • filelist (list) - 文件列表
    • set_hdfs_config(fs_name, fs_ugi)

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_hdfs_config("my_fs_name", "my_fs_ugi")
    • 参数:
      • fs_name (str) - fs名称
      • fs_ugi (str) - fs ugi
    • (pipe_coommand)

    在当前的 dataset 中设置pipe命令。pipe命令只能使用UNIX的pipe命令

    代码示例:

    • 参数:
    • set_thread(thread_num)

    设置进程数量,等于readers的数量。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_thread(12)
    • 参数:
      • thread_num (int) - 进程数量
    • set_use_var(var_list)

    设置将要使用的 Variable

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_use_var([data, label])
    • 参数:
      • var_list (list) - variable 列表
    • (slots)
    • 参数:
      • slots (list[string]) - 要打乱特征的集合

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
    3. dataset.set_merge_by_lineid()
    4. #支持slot 0
    5. dataset.slots_shuffle([‘0’])