文章详情

大数据分析线性回归模型

2020-09-10

点击量:

  大数据分析有很多的模型,今天我们给大家分享大数据分析线性回归模型,我们在学校学习了许多有趣且有用的概念,但有时我们在现实生活中如何使用它们尚不十分清楚。
 

  线性回归是一种可能被广泛低估的概念/工具。
 

  (你可能还对一个相关主题感兴趣:回归与相关)。
 

  假设你正计划与两个最好的朋友一起前往郑州。你从北京出发,大约要行驶9个小时。当你的朋友负责聚会的运作时,你将负责所有的后勤工作。你必须计划每个细节:日程安排,何时停止以及在何处,确保按时到达……
 

  那么,你要做的第一件事是什么?你偷偷摸摸地从地球上消失了,不再接听朋友的电话,因为当你成为派对警察时,他们会很有趣吗?不,你会得到一张白纸,然后开始计划!
 

  你清单上的第一项?预算!这是9小时(约1200英里)的有趣旅程,因此在旅途中总共需要18小时。后续问题:我应该为汽油分配多少钱?
 

  这是一个非常重要的问题。你不想在高速公路的中间停下来,可能只是因为汽油用尽而走了几英里!
 

  你应该为汽油分配多少钱?
 

  你以科学为导向的思维方式来解决此问题,认为必须有一种方法可以根据你旅行的距离估算所需的资金量。
 

  首先,你查看一些数据。
 

  去年,你一直在努力跟踪自己的汽车效率-因为谁没有!—因此,你计算机中的某处有此电子表格

大数据分析线性回归模型
 

  至此,这些只是数字。从此电子表格中获取任何有价值的信息并非易事。

大数据分析线性回归模型
 

  但是,像这样绘制,很明显,在不加油箱的情况下,你可以行驶多远。并不是说你还不知道,但是现在-有了数据-这很清楚。
 

  你真正想知道的是:如果我行驶1200英里,我将支付多少汽油费?
 

  为了回答这个问题,你将使用到目前为止收集的数据,并使用它来预测你将花费多少。这个想法是,你可以根据过去的数据(你一直在努力记录的数据点)对未来(前往郑州的旅程)做出估计的猜测。
 

  最后,你得到一个数学模型,该模型描述了行驶里程与填充油箱所花费的资金之间的关系。
 

  定义该模型后,你可以为其提供新信息-从北京到郑州要行驶多少英里-该模型将预测你需要多少钱。

大数据分析线性回归模型
 

  该模型将使用过去的数据来了解行驶的总里程和支付的汽油总金额之间的关系。
 

  当为它提供一个新的数据点时,即你从北京到郑州的行驶距离,该模型将利用从过去所有数据中获得的知识并提供最佳的猜测-一个预测,即你的数据点来自未来。
 

  回顾一下数据,你通常会发现,你在汽油上的花费越多,则在空转之前可以行驶的时间就越长-假设汽油的价格保持不变。
 

  如果要最好地描述  (或“解释”)上图中的关系,则该关系应如下所示:

大数据分析线性回归模型
 

  显然,行驶里程与总汽油支付之间存在线性关系。由于这种关系是线性的,因此,如果你花更少/更多的钱(例如,一半vs满油),你将能够行驶更少/更多的里程。
 

  而且由于这种关系是线性的,并且你知道从北京到郑州的车程为多长时间,因此使用线性模型将有助于你预测要为汽油预算的预算。
 

  线性回归模型
 

  能够最好地描述总行驶里程与汽油总支付量之间的关系的模型类型是线性回归模型。之所以有“回归”位,是因为你要预测的是一个数值。
 

  这里有一些概念需要分解:
 

  1)因变量

  2)自变量

  3)截距

  4)系数
 

  你必须为汽油预算的金额取决于你要从北京到郑州的行驶里程数。因此,支付的天然气总费用是模型中的因变量。
 

  在另一方面,郑州是不会去任何地方,你需要这么多少英里从北京到郑州开车是独立的,你在加油站支付的金额-的行驶里程是自变量的模型。让我们暂时假设汽油价格保持不变。
 

  由于我们只处理一个自变量,因此可以将模型指定为:

大数据分析线性回归模型
 

  这是线性组合的简单版本,其中只有一个变量。如果你想更严格地进行计算,则还可以在此模型中将油桶的价格作为自变量添加,因为它会影响天然气的价格。

大数据分析线性回归模型
 

  有了模型的所有必要部分后,剩下的唯一问题是:B0,B1和B2呢?
 

  B0(表示为“ Beta 0”)是模型的截距,意味着它是你的自变量在每个因变量等于零时所取的值。你可以将其可视化为一条穿过轴原点的直线。

大数据分析线性回归模型
 

  线性模型的不同截距值:y = Beta0 + 2x
 

  “ Beta 1”和“ Beta 2”是被称为系数。你的模型中每个自变量都有一个系数。它们确定你的回归线(描述模型的线)的斜率。
 

  如果我们以上面的示例为例,该模型由y = Beta0 + Beta1x指定,并使用不同的Beta 1值,我们将得到类似

大数据分析线性回归模型
 

  线性模型的不同系数值:y = 1 + Beta1x
 

  系数说明因变量的变化率,即你将要支付的费用,因为每个自变量以一个单位变化。
 

  因此,在上述蓝线的情况下,每当自变量x改变单位时,因数值y就会改变1倍。
 

  对于绿线,该影响是因变量x单位变化的4倍。
 

  普通最小二乘
 

  至此,我们已经讨论了线性模型,甚至尝试对截距和系数插入不同的值。
 

  但是,要弄清楚你要去郑州旅行时要支付多少汽油,我们需要一种机制来估算这些值。
 

  有多种估算模型参数的技术。最受欢迎的之一是普通最小二乘(OLS)。
 

  普通最小二乘法的前提是最小化模型残差的平方和。数据集中的预测值和实际值之间的差异(思考距离)。
 

  这样,模型将计算最佳参数,以便回归线中的每个点都尽可能靠近数据集。

大数据分析线性回归模型
 

  在预算练习结束时,有了模型参数,你可以插入预计要行驶的总里程,并估算需要分配多少汽油。

大数据分析线性回归模型
 

  太好了,现在你知道应该为汽油预算114.5美元!
 

  你会注意到,我们的模型中没有参数Beta0。在我们的用例中,截距-或因变量等于零时为常数是没有意义的。为此特定型号,我们强迫它经过原点,因为如果你不开车,你将不会花费任何汽油费用。
 

  下次你遇到需要根据直线描述的多种因素来估计数量的情况时,你知道可以使用线性回归模型。

 

长按识别二维码,加关注
↓ ↓ ↓ 继续阅读与本文标签相同的文章
大数据分析线性回归模型
大数据分析