Skip to content

Commit

Permalink
update docs.
Browse files Browse the repository at this point in the history
  • Loading branch information
xuyang1706 committed Apr 10, 2023
1 parent 8e8906c commit 297761d
Show file tree
Hide file tree
Showing 163 changed files with 363 additions and 282 deletions.
2 changes: 1 addition & 1 deletion docs/cn/Pipeline 组件/分类/FM分类 (FmClassifier).md
Original file line number Diff line number Diff line change
Expand Up @@ -28,7 +28,7 @@ FM算法是推荐领域被验证的效果较好的推荐方案之一,在电商
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| batchSize | 迭代数据batch size | 数据batch size | Integer | | | -1 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| initStdev | 初始化参数的标准差 | 初始化参数的标准差 | Double | | | 0.05 |
| lambda0 | 常数项正则化系数 | 常数项正则化系数 | Double | | | 0.0 |
Expand Down
8 changes: 4 additions & 4 deletions docs/cn/Pipeline 组件/分类/Softmax (Softmax).md
Original file line number Diff line number Diff line change
Expand Up @@ -27,12 +27,12 @@ Softmax算法是Logistic回归算法的推广,Logistic回归主要是用来处
| --- | --- | --- | --- | --- | --- | --- |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -32,12 +32,12 @@ Python 类名:MultilayerPerceptronClassifier
| layers | 神经网络层大小 | 神经网络层大小 | int[] || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| blockSize | 数据分块大小,默认值64 | 数据分块大小,默认值64 | Integer | | | 64 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| initialWeights | 初始权重值 | 初始权重值 | DenseVector | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
| predictionDetailCol | 预测详细信息列名 | 预测详细信息列名 | String | | | |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -42,7 +42,7 @@ FLAIRS.
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
| predictionDetailCol | 预测详细信息列名 | 预测详细信息列名 | String | | | |
| reservedCols | 算法保留列名 | 算法保留列 | String[] | | | null |
| smoothing | 算法参数 | 光滑因子,默认为0.0 | Double | | [0.0, +inf) | 0.0 |
| smoothing | 算法参数 | 光滑因子,默认为0.0 | Double | | x >= 0.0 | 0.0 |
| weightCol | 权重列名 | 权重列对应的列名 | String | | 所选列类型为 [BIGDECIMAL, BIGINTEGER, BYTE, DOUBLE, FLOAT, INTEGER, LONG, SHORT] | null |
| numThreads | 组件多线程线程个数 | 组件多线程线程个数 | Integer | | | 1 |
| modelStreamFilePath | 模型流的文件路径 | 模型流的文件路径 | String | | | null |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -45,7 +45,7 @@ classification: [https://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-t
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
| predictionDetailCol | 预测详细信息列名 | 预测详细信息列名 | String | | | |
| reservedCols | 算法保留列名 | 算法保留列 | String[] | | | null |
| smoothing | 算法参数 | 光滑因子,默认为1.0 | Double | | [0.0, +inf) | 1.0 |
| smoothing | 算法参数 | 光滑因子,默认为1.0 | Double | | x >= 0.0 | 1.0 |
| weightCol | 权重列名 | 权重列对应的列名 | String | | 所选列类型为 [BIGDECIMAL, BIGINTEGER, BYTE, DOUBLE, FLOAT, INTEGER, LONG, SHORT] | null |
| numThreads | 组件多线程线程个数 | 组件多线程线程个数 | Integer | | | 1 |
| modelStreamFilePath | 模型流的文件路径 | 模型流的文件路径 | String | | | null |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -23,12 +23,12 @@ SVM在各领域的模式识别问题中有应用,包括人像识别、文本
| --- | --- | --- | --- | --- | --- | --- |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -30,12 +30,12 @@ logistic方法主要应用于研究某些事件发生的概率。
| --- | --- | --- | --- | --- | --- | --- |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -31,7 +31,7 @@ Python 类名:RandomForestClassifier
| minSamplesPerLeaf | 叶节点的最小样本个数 | 叶节点的最小样本个数 | Integer | | | 2 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| numSubsetFeatures | 每棵树的特征采样数目 | 每棵树的特征采样数目 | Integer | | | 2147483647 |
| numTrees | 模型中树的棵数 | 模型中树的棵数 | Integer | | [1, +inf) | 10 |
| numTrees | 模型中树的棵数 | 模型中树的棵数 | Integer | | x >= 1 | 10 |
| numTreesOfGini | 模型中Cart树的棵数 | 模型中Cart树的棵数 | Integer | | | null |
| numTreesOfInfoGain | 模型中Id3树的棵数 | 模型中Id3树的棵数 | Integer | | | null |
| numTreesOfInfoGainRatio | 模型中C4.5树的棵数 | 模型中C4.5树的棵数 | Integer | | | null |
Expand Down
2 changes: 1 addition & 1 deletion docs/cn/Pipeline 组件/回归/FM回归 (FmRegressor).md
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,7 @@ FM算法是推荐领域被验证的效果较好的推荐方案之一,在电商
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| batchSize | 迭代数据batch size | 数据batch size | Integer | | | -1 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| initStdev | 初始化参数的标准差 | 初始化参数的标准差 | Double | | | 0.05 |
| lambda0 | 常数项正则化系数 | 常数项正则化系数 | Double | | | 0.0 |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -20,7 +20,7 @@ Python 类名:IsotonicRegression
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| featureCol | 特征列名 | 特征列的名称 | String | | | null |
| featureIndex | 训练特征所在维度 | 训练特征在输入向量的维度索引 | Integer | | [0, +inf) | 0 |
| featureIndex | 训练特征所在维度 | 训练特征在输入向量的维度索引 | Integer | | x >= 0 | 0 |
| isotonic | 输出序列是否 | 输出序列是否递增 | Boolean | | | true |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -29,10 +29,10 @@ Lasso回归模型应用领域和线性回归类似,经常被用来做一些数
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| lambda | 惩罚因子:lambda | 惩罚因子,必选 | Double || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
4 changes: 2 additions & 2 deletions docs/cn/Pipeline 组件/回归/岭回归 (RidgeRegression).md
Original file line number Diff line number Diff line change
Expand Up @@ -25,10 +25,10 @@ Python 类名:RidgeRegression
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| lambda | 惩罚因子:lambda | 惩罚因子,必选 | Double || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -25,11 +25,11 @@ AFT模型将线性回归模型的建模方法引人到生存分析的领域,
| censorCol | 生存列名 | 生存列名 | String || | |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
| predictionDetailCol | 预测详细信息列名 | 预测详细信息列名 | String | | | |
Expand Down
4 changes: 2 additions & 2 deletions docs/cn/Pipeline 组件/回归/线性SVR (LinearSvr).md
Original file line number Diff line number Diff line change
Expand Up @@ -16,10 +16,10 @@ Python 类名:LinearSvr
| C | 算法参数 | 支撑向量回归参数 | Double || | |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -29,12 +29,12 @@ Python 类名:LinearRegression
| --- | --- | --- | --- | --- | --- | --- |
| labelCol | 标签列名 | 输入表中的标签列名 | String || | |
| predictionCol | 预测结果列名 | 预测结果列名 | String || | |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | [0.0, +inf) | 1.0E-6 |
| epsilon | 收敛阈值 | 迭代方法的终止判断阈值,默认值为 1.0e-6 | Double | | x >= 0.0 | 1.0E-6 |
| featureCols | 特征列名数组 | 特征列名数组,默认全选 | String[] | | | null |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | [0.0, +inf) | 0.0 |
| l1 | L1 正则化系数 | L1 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| l2 | L2 正则化系数 | L2 正则化系数,默认为0。 | Double | | x >= 0.0 | 0.0 |
| learningRate | 学习率 | 优化算法的学习率,默认0.1。 | Double | | | 0.1 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | [1, +inf) | 100 |
| maxIter | 最大迭代步数 | 最大迭代步数,默认为 100 | Integer | | x >= 1 | 100 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| optimMethod | 优化方法 | 优化问题求解时选择的优化方法 | String | | "LBFGS", "GD", "Newton", "SGD", "OWLQN" | null |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -30,7 +30,7 @@ Python 类名:RandomForestRegressor
| minSamplesPerLeaf | 叶节点的最小样本个数 | 叶节点的最小样本个数 | Integer | | | 2 |
| modelFilePath | 模型的文件路径 | 模型的文件路径 | String | | | null |
| numSubsetFeatures | 每棵树的特征采样数目 | 每棵树的特征采样数目 | Integer | | | 2147483647 |
| numTrees | 模型中树的棵数 | 模型中树的棵数 | Integer | | [1, +inf) | 10 |
| numTrees | 模型中树的棵数 | 模型中树的棵数 | Integer | | x >= 1 | 10 |
| overwriteSink | 是否覆写已有数据 | 是否覆写已有数据 | Boolean | | | false |
| reservedCols | 算法保留列名 | 算法保留列 | String[] | | | null |
| seed | 采样种子 | 采样种子 | Long | | | 0 |
Expand Down
Loading

0 comments on commit 297761d

Please sign in to comment.