当前位置: 首页 > 数据分析师 > 数据分析师学习教程 > 数据分析师实操——记一种定阈值规则的方法

数据分析师实操——记一种定阈值规则的方法

发布时间:2019年09月27日 11:09:32 来源:环球网校 点击量:

【摘要】所以在遇到阈值设定这个问题时,不应该让谁去拍脑袋定个规则,首要做的是看看数据本来的面貌是什么样的,值为多少时算是异常值?这是一个快速的问题拆解过程,现在阈值设定规则,变成了一个异常值分析问题。所以我们就要记一种定阈值规则的方法。

异常值

异常值定义:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。

所以异常值是相对于其所属样本而言的。

要识别异常值首先要知道样本的分布是怎样的,集中与离散的趋势如何。与样本中绝大多数样本对比后才能识别出异常值。

接下来从统计量的角度来看看样本是怎样的。

均值与标准差

均值、方差、标准差都是样本的描述性统计量,从样本均值可以看出样本的集中趋势,而样本的方差及标准差可以支持分析样本的离散趋势。

所以,样本均值与样本标准差,反应的是样本的集中和离散两个方面的信息。而样本均值与样本标准差两个统计量的结合便可以揭示数值偏离一般水平的程度,即异常值信息。

根据《计数抽样检验程序》(GB2828)、《正态样本异常值的判断和处理》(GB4883),异常值是指在一组测定值中与平均值的偏差超过两倍标准差的测定值。而与平均值的偏差超过三倍标准差的为高度异常值。

计算异常区间

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
# 读入数据
clues = pd.read_table('D:/clues_by_day',sep='\t')
#单变量的描述性统计
clues.describe()
Out[23]
clues
count 506.000000
mean 24711.956522
std 9752.318673
min 8525.000000
25% 20410.500000
50% 22943.000000
75% 27679.500000
max 175263.000000
下限 =mean-2*std=5207
上限 =mean+2*std=44217

上下限与业务认知还是相差很大,感觉不合情理。想到是不是样本中有异常值影响?只通过一些描述性的统计量对样本的感知还不是很清楚,接下来看看图形表达方式的解读。

箱型图查看异常值

# 查看箱型图

clues.boxplot()

 

样本中的异常值已经被圆圈标记出来。从业务角度理解,由于正常市场营销活动的开展,是会导致该变量有异常值出现,所以数据上的异常值并不代表就是业务上的异常值。

结合业务的理解,剔除样本中的最大值及次大值。再来计算样本描述性统计量。

clues
count 504.000000
mean 24239.365079
std 5910.417413
min 8525.000000
25% 20397.000000
50% 22908.50000
75% 27640.500000
max 75503.000000
下限 =mean-2*std=12419
上限 =mean+2*std=36060

这样我们就可以用这个上下限作为阈值了。

以上就是记一种定阈值规则的方法,掌握着这种方法的目的就是为了能更快速的进行数据分析,就是为了数据驱动决策,所谓的数据分析一定要基于数据,而非经验、直觉、拍脑袋决策。环球网校小编祝大家的数据分析师的学习之路顺利。

加油吧分析师!

分享到: 编辑:吴晨辉

数据分析师相关文章推荐

|

数据分析师最新文章推荐

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球小过-环球网校官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

返回顶部