线性回归训练 |
线性回归(LinearRegression)可以说是机器学习中最简单的回归模型。原理即寻找一条直线,最大程度地拟合样本特征和样本输出标记之间的关系。计算简单、结果易于理解,解决连续数据的预测问题。
该方法进行线性回归方法的数据训练过程,可以根据数据特征得到模型,进而用于预测。
训练数据集:必填参数,需要进行训练的数据集访问连接信息,需要包含数据类型,连接参数,数据集名字等信息。可以连接HBase数据,dsf数据,本地数据。
数据查询条件:可选参数,可以根据此查询条件筛选出指定数据进行相应分析,支持属性条件和空间查询, 如 SmID<100 and BBOX(the_geom, 120,30,121,31)。
解释字段:必填参数,解释变量的字段名称,输入训练数据集的一个或多个解释字段名称作为模型的自变量,可帮助预测出结果。
建模字段:必填参数,用于训练模型的字段,即因变量。该字段对应将用于在未知位置进行预测的变量的已知(训练)值。
最大迭代次数:可选参数,取值范围>0,默认值为100。
正则化参数:可选参数,取值范围≥0,默认值为0.0。主要用于防止过拟合现象。
正则化方式选择:可选参数,主要作用是缓解模型过拟合问题。0.0为L2正则化,1.0为L1正则化,取值范围为[0.0,1.0],默认值为0.0。
距离解释变量数据集:可选参数,支持点、线、面数据集,计算给定数据集的要素与训练数据集中要素的最近距离,可自动创建一列解释变量。
模型保存目录:可选参数,将训练结果较好的模型保存至该地址下。为空表示不保存模型。
IBModelCharacteristics:线性回归模型的属性。
Variable:线性回归模型的字段名称数组,指训练模型中自变量的字段。
mse:均方误差,预测值与真实值误差平方的均值。
rmse:均方根误差,预测值与真实值误差平方根的均值。
mae:平均绝对误差,预测值与真实值误差绝对值的均值。
r2:决定系数。根据r2的取值,可以判断模型的好坏,取值范围[0,1],一般来说,r2越大表示模型拟合效果越好。r2反映的是大概有多准,因为随着样本数量的增加,r2必然增加,无法真正定量说明准确程度,只能大概定量。
explainedVariance:解释方差。
numIterations:实际迭代次数。