当前位置: 首页 > 数据分析师 > 数据分析师学习教程 > 数据分析师课|作为一个数据分析师,你一定要知道如何处理数据中的缺失值,快来看看

数据分析师课|作为一个数据分析师,你一定要知道如何处理数据中的缺失值,快来看看

更新时间:2020-01-15 10:35:56 来源:环球网校 浏览47收藏14
摘要 在茫茫的数据发展长河中,人们慢慢掌握了数据处理的方法,其中重要的处理方法之一就是对数据的分析,所以出现了数据分析师这一处理数据的职业,有很多刚入职成为数据分析师的新人都会有数据分析的问题,今天就来讲讲如何处理数据中的缺失值的问题。

现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。

一、如何处理数据中的缺失值——常用方法

1、删除

最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该维属性;如果一个样本大部分属性缺失,可以选择放弃该样本。虽然这种方法简单,但只适用于数据集中缺失较少的情况。

2、统计填充

对于缺失值的属性,尤其是数值类型的属性,根据所有样本关于这维属性的统计值对其进行填充,如使用平均数、中位数、众数、最大值、最小值等,具体选择哪种统计值需要具体问题具体分析。另外,如果有可用类别信息,还可以进行类内统计,比如身高,男性和女性的统计填充应该是不同的。

3、统一填充

对于含缺失值的属性,把所有缺失值统一填充为自定义值,如何选择自定义值也需要具体问题具体分析。当然,如果有可用类别信息,也可以为不同类别分别进行统一填充。常用的统一填充值有:“空”、“0”、“正无穷”、“负无穷”等。

4、预测填充

我们可以通过预测模型利用不存在缺失值的属性来预测缺失值,也就是先用预测模型把数据填充后再做进一步的工作,如统计、学习等。虽然这种方法比较复杂,但是最后得到的结果比较好。

二、如何处理数据中的缺失值——具体分析

上面两次提到具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析,仁者见仁智者见智,仅供参考:

“年收入”:商品推荐场景下填充平均值,借贷额度场景下填充最小值;

“行为时间点”:填充众数;

“价格”:商品推荐场景下填充最小值,商品匹配场景下填充平均值;

“人体寿命”:保险费用估计场景下填充最大值,人口估计场景下填充平均值;

“驾龄”:没有填写这一项的用户可能是没有车,为它填充为0较为合理;

”本科毕业时间”:没有填写这一项的用户可能是没有上大学,为它填充正无穷比较合理;

“婚姻状态”:没有填写这一项的用户可能对自己的隐私比较敏感,应单独设为一个分类,如已婚1、未婚0、未填-1。

以上就是有关于如何处理数据中的缺失值的相关内容,以及相应的解析,不论你是已经入职数据分析师岗位的新人,还是打算进入数据分析岗位的小白,以上的内容都或多或少会对大家有所帮助,环球网校的小编在这里祝大家的数据分析师职业道路顺利。

数据分析师备考资料全部免费下载

  • 考试大纲
  • 备考计划   
  • 真题答案与解析
  • 易错练习
  • 精讲知识点
  • 考前冲刺提分   
点击领取资料

分享到: 编辑:环球网校

资料下载 精选课程 老师直播 真题练习

数据分析师资格查询

数据分析师历年真题下载 更多

数据分析师每日一练 打卡日历

0
累计打卡
0
打卡人数
去打卡

预计用时3分钟

数据分析师各地入口
环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载

返回顶部