定义回归统计模型

回归分析变量之间的关系

由代表数据挖掘的电子连接围拢的采摘轴的例证

arthead- / getty图像

回归是一个数据挖掘用于预测数值范围(也称为连续值),给出一个特定的数据集。例如,在给定其他变量的情况下,回归可以用来预测产品或服务的成本。

回归用于多个行业的业务和营销计划,财务预测,环境建模和趋势分析。

回归与分类

回归和分类数据挖掘技术是否用于解决类似的问题,但它们经常被混淆。两者都用于预测分析,但回归用于预测数值或连续值,而分类将数据分配到离散类别。

例如,回归可以根据位置、平方英尺、上一次售出时的价格、类似房屋的价格以及其他因素来预测房屋的价值。如果你想把房子分类,比如步行性、地段大小或犯罪率,那么分类是有顺序的。

回归技术的类型

最简单和最古老的回归形式是用于估计两个变量之间的关系的线性回归。这种方法使用了直线的数学公式(y = mx + b)。简单地说,这意味着,给定一个带有y和X轴的图形,X和y之间的关系是一条很少有异常值的直线。例如,我们可以假设,在人口增长的情况下,粮食产量也会以同样的速度增长——这需要这两个数字之间有很强的线性关系。为了直观地理解这一点,可以考虑这样一个图表,其中y轴跟踪人口增长,x轴跟踪粮食生产。随着Y值的增加,X值也会以同样的速度增加,使它们之间的关系成为一条直线。

高级技术,例如多元回归,预测多个变量之间的关系 - 例如,收入,教育和选择生活的地方之间存在相关性吗?添加更多变量显着提高了预测的复杂性。存在多种类型的多元回归技术,包括标准,分层,略带且逐步,每个都具有自己的应用程序。

在这一点上,重要的是理解我们试图预测什么(依赖或预测变量)和数据我们正在使用预测(独立或预测指标变量)。在我们的示例中,我们希望预测一个人选择生活的位置(预测可变)给予收入和教育(两者预测指标变量)。

  • 标准多元回归同时考虑所有预测变量。例如1)收入和教育(预测因素)与社区选择(预测因素)之间的关系是什么;2)每一个预测因素在多大程度上促成了这种关系?
  • 逐步多元回归回答了一个完全不同的问题。逐步回归算法将分析哪些预测器最适合用于预测邻域的选择——这意味着逐步模型将评估预测器变量的重要性顺序,然后选择相关的子集。这类回归问题使用“步骤”来开发回归方程。考虑到这种类型的回归,所有的预测因子甚至可能不会出现在最终的回归方程中。
  • 分层回归,和逐步式一样,是一个顺序过程,但预测变量是按照预先定义的顺序输入模型的,也就是说,算法不包含一套内建的方程来确定输入预测变量的顺序。当创建回归方程的人具有该领域的专业知识时,最常使用这种方法。
  • Setwise回归也类似于逐步,但分析了变量集而不是单个变量。

此页面是否有帮助?