当前位置: 首页 > 数据分析师 > 数据分析师学习教程 > 数据分析师课|想成为优秀的数据分析师,就一定要先了解避免迭代并增加效率的方法

数据分析师课|想成为优秀的数据分析师,就一定要先了解避免迭代并增加效率的方法

更新时间:2020-01-13 12:14:51 来源:环球网校 浏览25收藏12
摘要 在茫茫的数据发展长河中,人们慢慢掌握了数据处理的方法,其中重要的处理方法之一就是对数据的分析,所以出现了数据分析师这一处理数据的职业,有很多刚入职成为数据分析师的新人都会有数据分析的问题,今天就来讲讲避免迭代并增加效率的方法的问题。

1、避免迭代并增加效率的方法——只关注重大问题

每个组织都有很多可以用数据解决的小问题!但雇一个数据科学家的主要目的不在于解决这些小问题。好钢要用在刀刃上,应该选取3到4个对整个组织影响最大的数据问题交给数据科学家来解决。这些问题一般具有挑战性,会给你的分析活动带来最大杠杆(或者收获满满或者颗粒无收,想象一下借贷炒股)。当更大的问题没被解决时,你不应当去解决小问题。

听起来没什么,但实际上很多组织都没做好这一点!我看到很多银行没用数据分析去改善风险评分,而是去做市场营销。有些保险公司没用数据分析提升客户留存率,而是试图建立针对代理机构的奖励计划。

2、避免迭代并增加效率的方法——一开始就创建数据分析的演示文稿 (可能的布局和结构)

我一直这样做并且受益匪浅。把分析演示稿的框架搭起来应该是项目启动后的第一件事。这听起来或许有悖常理,然而一旦你养成这个习惯,就可以节省时间。

如何搭框架呢?

你可以用ppt、word、或者一段话来搭框架,形式是无关紧要的。重要的是一开始就要把所有可能情况列出来。例如,如果你试图降低坏账冲销率,那么可以像下面一样布局你的演示文稿:

接下来,你可以考虑每个因素如何影响坏账冲销率?例如,由于给客户增加了信用额度导致银行的坏账冲销率增加,你可以:

首先,确定那些信用额度没被增加的客户并没有导致此次坏账冲销率增加。

下一步,用一个数学公式来测量这个影响。

一旦你把分析中的每一个分支都考虑到了,那么你已经为自己创造了一个良好的起点。

3、避免迭代并增加效率的方法——事先定义数据需求

数据需求直接源于最后的分析结果。如果你已经全面地规划了要做哪些分析、产生什么结果,那么你将知道数据需求是什么。这里有几个提示来帮助你:

试着赋予数据需求一个结构: 不单是记下变量列表,你应该分门别类地想清楚分析活动需要哪些表格。以上面增加坏账冲销率为例,你将需要客户人口统计表,过往市场营销活动统计表,客户过去 12 个月的交易记录,银行信贷政策变更文件等资料。

收集你可能需要的所有数据: 即使你不是 100%肯定是否需要所有的变量,在这一阶段你应该把所有数据都收集起来。这样做工作量大一些,但是与在以后的环节增加变量收集数据相比,还是更有效率一些。

定义您感兴趣的数据的时间区间。

4、避免迭代并增加效率的方法——确保你的分析可重现

这个提示听起来可能很简单——但初学者和高级分析人员都难以把握好这一点。初学者会用Excel执行每一步活动,其中包括复制粘贴数据。对于高级用户,任何通过命令行界面完成的工作都可能不可重现。

同样,使用记事本(notebook)时需要格外小心。你应该克制自己修改以前的步骤,尤其是在前面的数据已经被后面的步骤使用的情况下。记事本在维护这种涉及前后数据勾稽关系的数据流方面表现地非常强大。但是如果记事本中没维护这种数据流,它也会非常没用。

5、避免迭代并增加效率的方法——建标准代码库

没必要为简单的操作一次又一次重写代码。它不仅浪费时间,还可能会造成语法错误。另一个窍门是创建常见操作的标准代码库并在整个团队中共享。

这将不仅确保整个团队使用相同的代码,而且也使他们更有效率。

6、避免迭代并增加效率的方法——建中间数据集市

很多的时候,你会反复需要同一批信息。例如,你将在多个分析和报告中用到所有客户信用卡消费记录。虽然你可以每次都从交易记录表中提取,但是创建包含这些表的中间数据集市,可以有效节省时间和精力。同样,市场营销活动的汇总表也没必要每次都查询提取一次。

7、避免迭代并增加效率的方法——使用保留样本和交叉验证防止过度拟合

很多初学者低估了保留样本和交叉验证的强大。很多人倾向于认为只要训练集足够大,几乎不会过拟合,因此没必要交叉验证或保留样本。

有这种想法,往往会在最后出岔子。不单我这样说——可以看一下Kaggle上任意竞赛公开或非公开的排行榜。你会发现前十名中有些人不再过拟合时他们的排名就不再下降了。你可以想象这些都是高级数据科学家。

8、避免迭代并增加效率的方法——集中一段时间工作并且有规律地休息

对于我来说,最佳的工作状态是集中利用2-3小时解决一个问题或项目。作为一名数据科学家,你很难同时完成多项任务。你需要以自己的最佳状态对待一个单独的问题。对于我来说,2-3 小时的时间窗口最有效率,你可以依据个人情况自行设定。

以上就是有关于避免迭代并增加效率的方法的相关内容,以及相应的解析,不论你是已经入职数据分析师岗位的新人,还是打算进入数据分析岗位的小白,以上的内容都或多或少会对大家有所帮助,环球网校的小编在这里祝大家的数据分析师职业道路顺利。

数据分析师备考资料全部免费下载

  • 考试大纲
  • 备考计划   
  • 真题答案与解析
  • 易错练习
  • 精讲知识点
  • 考前冲刺提分   
点击领取资料

分享到: 编辑:环球网校

资料下载 精选课程 老师直播 真题练习

数据分析师资格查询

数据分析师历年真题下载 更多

数据分析师每日一练 打卡日历

0
累计打卡
0
打卡人数
去打卡

预计用时3分钟

数据分析师各地入口
环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载

返回顶部