当前位置: 首页 > 数据分析师 > 数据分析师学习教程 > 机器学习系列(一)——机器学习模型的工作原理和使用方法

机器学习系列(一)——机器学习模型的工作原理和使用方法

发布时间:2019年09月27日 10:34:50 来源:环球网校 点击量:

【摘要】首先我们对机器学习模型的工作原理和使用方法有一个概括性的了解。如果你已经做过一些统计模型或者机器学习相关的工作,可能会觉得这太基础了,不过不要担心,我们很快就会构建一些强大的模型。

决策树模型

这个微课程将让你在熟悉以下场景后,构建模型。

你的堂哥已经花了数百万美元用于房地产的预测,由于你对数据科学非常感兴趣,他提供了一个与你进行商业合作对机会。将由他来出资,你来构建模型,预测不同房产的价值。

作为一个专业的挖掘工程师,你咨询了堂哥过去是如何预测房地产价值的。他告诉你都是通过直觉来预测的。但你又问了一些问题,这些疑问表明他已经从过去所见到的房地产中识别出了价格模式,并且他正是用这些模式对他正在考虑的房产进行估值的。

机器学习的工作原理也是这样。我们首先接触一个叫决策树的模型。当然,还有很多出色的模型能够给出更为准确的预测结果。但决策树模型易于理解,并且是数据科学中一些出色模型的基础组成模块。

为了简单起见,我们将从最简单的决策数开始。

这个决策树将所有房子分为两类。所考虑的任何房子的预测价格是该房子所属类别的历史平均价格。

我们用数据来决定如何将所有的房子分为2组,既而决定每个分组中的预测价格。从数据中捕捉模式的这一步就叫拟合或者训练模型。用于模型拟合的数据就叫做训练数据。

模型拟合的细节(包括如何对数据进行切分等),是一个比较复杂的过程,我们把它留到后面来解决。在模型拟合好后,你就可以用它来预测其他房子的价格了。

改进的决策树模型

通过拟合训练数据,以下这2棵决策树,哪一个更有可能产生呢?

很显然,左边的第一棵数更有意义一些,因为它捕捉出了这样一个现实:卧室多的房子价格通常要比卧室数少的房子价格高。但这个模型最大的缺陷是它无法捕捉到影响房子价格的多种因素,诸如浴室数、手数(一手还是二手)以及房子的地理位置。

你可以通过一棵拥有更多分支的树来捕获更多的房价影响因素。这种多分支的树被称为更深的树。

通过追踪决策树,你可以预测任何房子价格,只要选择与被预测房子特征相符合路径。房价的预测结果位于树的最底部,树底部用来预测的点,被称为叶子节点。

树的分支和叶子节点的值将由数据来决定,因此是时候来查看一下将要使用的数据了。

对于机器学习来说,机器学习模型的工作原理和机器学习模型的使用方法这两大类,都应该属于机器学习的基础理论,如果需要深入的学习有关于机器学习的内容,后期也会整理给大家,环球网校小编祝大家学习顺利。

分享到: 编辑:吴晨辉

数据分析师相关文章推荐

|

数据分析师最新文章推荐

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球小过-环球网校官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

返回顶部