QueueDataset

    流式处理数据。

    代码示例:

    local_shuffle ( )

    局域shuffle数据

    QueueDataset中不支持局域shuffle,可能抛出NotImplementedError

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    3. dataset.local_shuffle()

    global_shuffle ( fleet=None )

    全局shuffle数据

    QueueDataset中不支持全局shuffle,可能抛出NotImplementedError

    代码示例:

    1. import paddle.fluid as fluid
    2. from paddle.fluid.incubate.fleet.parameter_server.pslib import fleet
    3. dataset = fluid.DatasetFactory().create_dataset("QueueDataset")
    4. dataset.global_shuffle(fleet)

    desc ( )

    DataFeedDesc 返回一个缓存信息。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. print(dataset.desc())

    返回:一个字符串信息

    ( batch_size )

    代码示例:

    参数:

    • batch_size (int) - batch size

    set_fea_eval ( record_candidate_size, fea_eval )

    参数:

    • record_candidate_size (int) - 打乱一个特征的候选实例大小

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
    3. dataset.set_fea_eval(1000000, True)

    set_filelist ( filelist )

    在当前的worker中设置文件列表。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_filelist(["a.txt", "b.txt"])

    参数:

    • filelist (list) - 文件列表

    set_hdfs_config ( fs_name, fs_ugi )

    设置hdfs配置:fs名称与ugi。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_hdfs_config("my_fs_name", "my_fs_ugi")

    参数:

    • fs_ugi (str) - fs ugi

    set_pipe_command ( pipe_coommand )

    在当前的 dataset 中设置pipe命令。pipe命令只能使用UNIX的pipe命令

    代码示例:

    参数:

    ( thread_num )

    设置进程数量,等于readers的数量。

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_thread(12)

    参数:

    • thread_num (int) - 进程数量

    set_use_var ( var_list )

    设置将要使用的 Variable

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset()
    3. dataset.set_use_var([data, label])

    参数:

    • var_list (list) - variable 列表

    slots_shuffle ( slots )

    该方法是在特征层次上的一个打乱方法,经常被用在有着较大缩放率实例的稀疏矩阵上,为了比较metric,比如auc,在一个或者多个有着baseline的特征上做特征打乱来验证特征level的重要性。

    • slots (list[string]) - 要打乱特征的集合

    代码示例:

    1. import paddle.fluid as fluid
    2. dataset = fluid.DatasetFactory().create_dataset(“InMemoryDataset”)
    3. dataset.set_merge_by_lineid()
    4. dataset.slots_shuffle([‘0’])