Angel数据格式
其中
- label字段:
- 字段类型:Int
- 当输入数据是训练数据,label为样本的标签,二分类算法label是{0, 1},多分类算法label是{0, 1, 2, …, n} ;
- index:value字段:
- 特征index对应的value,index类型为Int,value类型为Double
- 特征的index,从1开始计数, 与标准的libsvm格式一致
2 dummy格式
- label字段
- 字段类型:Int
- 当输入数据是预测数据,label是样本的index;
- index字段
- 字段类型:Int/Long
- 特征的index,从0开始计数
- 这些是特征值为1的index,其他的就是特征值为0的index
如果输入数据的分隔符不是空格, 可以用如下参数来指定分隔符, 如指定主逗号:
对于Softmax回归等多分类算法, 标签要求从0开始, 其它二分类算法标签为正负1. 如果要对标签进行转换, 可以用下面的参数:
- ml.data.label.trans.threshold: “ZeroOneTrans”, “PosNegTrans”这两种转还要以设一个阈值, 大于阈值的为1, 阈值默认为0