介绍

我们将从机器学习模型如何工作以及如何使用它们的概述开始。如果您以前做过统计建模或机器学习,这可能感觉很基本。别担心,我们很快就会建立强大的模型。

本课程将让你在经历下面的场景时建立模型:

你表弟在房地产投机上赚了几百万。因为你对数据科学的兴趣他提出要和你做生意伙伴。他负责提供资金,你负责提供预测各种房屋价值的模型。

你问你的堂兄过去是如何预测房地产价值的,他说这只是直觉。但是更多的问题表明,他从过去看到的房子中识别出了价格模式,并利用这些模式来预测他正在考虑的新房子。

机器学习也是如此。我们将从一个叫做决策树的模型开始。还有更精确的模型可以给出更准确的预测。但是决策树很容易理解,它们是数据科学中一些最好的模型的基本构件。

为了简单起见,我们将从最简单的可能的决策树开始。

First Decision Trees

它只将房屋分为两类。其中房屋的预测价格是同一类别房屋的历史平均价格。

我们使用数据来决定如何将房屋分成两组,然后再次确定每组中的预测价格。从数据中捕获模式的这一步称为 “拟合”“训练” 模型。用于拟合模型的数据称为 训练数据

关于模型如何拟合的细节(例如如何分割数据)非常复杂,我们按下不表,以后再说。在模型被拟合之后,您可以将其应用于新数据,以 预测 其他住房的价格。


改进决策树

下面两个决策树中哪一个更有可能通过拟合房地产培训数据得到?

First Decision Trees

左边的决策树(决策树1)可能更有意义,因为它捕捉到了这样一个事实: 卧室更多的房子往往比卧室更少的房子卖得更高。这个模型最大的缺点是没有考虑到影响房价的大多数因素,比如卫生间的数量、住房面积的大小、位置等等。

您可以使用具有更多“分叉”的树捕获更多的因子。这些被称为“更深”的树。一个同时考虑每栋房子的总面积的决策树可能看起来像这样:

Depth 2 Tree

通过沿着决策树的路径追踪,始终选择与该房屋特征相应的路径,可以预测任何房屋的价格。该房屋的预测价格在树的底部。我们进行预测的底部点被称为 叶子

在叶子处的分叉和值将由数据确定,因此现在是你查看将要使用的数据的时候了。


标题:kaggle机器学习入门(四)决策树
作者:Departure
地址:https://www.unreachablecity.club/articles/2023/04/15/1681520562022.html