当前位置: 首页 > 数据分析师 > 数据分析师学习教程 > 数据分析师课|大数据数据采集方法就这么多了,快来看看吧

数据分析师课|大数据数据采集方法就这么多了,快来看看吧

更新时间:2019-12-12 11:04:19 来源:环球网校 浏览51收藏20
摘要 在茫茫的数据发展长河中,人们慢慢掌握了数据处理的方法,其中重要的处理方法之一就是对数据的分析,所以出现了数据分析师这一处理数据的职业,有很多刚入职成为数据分析师的新人都会有数据分析的问题,今天就来讲讲大数据数据采集的问题。

1、大数据数据采集——浏览器页面采集:

主要是收集页面的 浏览日志(PV/UV等) 和 交互操作日志(操作事件)。

这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。

事实上,统计JS在采集到数据之后,可以立即发送到数据中心,也可以进行适当的汇聚之后,延迟发送到数据中心,这个策略取决于不同场景的需求来定。

页面日志在收集上来之后,需要在服务端进行一定的清晰和预处理。

比如 清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等。

2、大数据数据采集——客户端日志采集:

一般会开发专用统计SDK用于APP客户端的数据采集。

客户端数据的采集,因为具有高度的业务特征,自定义要求比较高,因此除应用环境的一些基本数据以外,更多的是从 “按事件”的角度来采集数据,比如 点击事件、登陆事件、业务操作事件 等等。

基础数据可由SDK默认采集即可,其它事件由业务侧来定义后,按照规范调用SDK接口。

因为现在越来越多APP采用Hybrid方案,即 H5 与 Native相结合的方式,因此对于日志采集来说,既涉及到H5页面的日志,也涉及到Native客户端上的日志。在这种情况下,可以分开采集分开发送,也可以将数据合并到一起之后再发送。

常规情况下是推荐将 H5上的数据往Native上合并,然后通过SDK统一的发送。这样的好处是 既可以保证采集到的用户行为数据在行为链上是完整的,也可以通过SDK采取一些压缩处理方案来减少日志量,提高效率。

APP上的数据采集,还有一点比较重要的就是唯一ID了,所有的数据都必须跟唯一ID相关联,才能起到更好的分析作用,至于移动设备唯一ID我在上一篇文章中有详细讲到。

日志收集,还有很重要的一条原则就是 “标准化”、“规范化”,只有采集的方式标准化、规范化,才能最大限度的减少收集成本,提高日志收集效率、更高效的实现接下来的统计计算。

以上就是有关于大数据数据采集的相关内容,以及相应的解析,不论你是已经入职数据分析师岗位的新人,还是打算进入数据分析岗位的小白,以上的内容都或多或少会对大家有所帮助,环球网校的小编在这里祝大家的数据分析师职业道路顺利。

数据分析师备考资料全部免费下载

  • 考试大纲
  • 备考计划   
  • 真题答案与解析
  • 易错练习
  • 精讲知识点
  • 考前冲刺提分   
点击领取资料

分享到: 编辑:环球网校

资料下载 精选课程 老师直播 真题练习

数据分析师资格查询

数据分析师历年真题下载 更多

数据分析师每日一练 打卡日历

0
累计打卡
0
打卡人数
去打卡

预计用时3分钟

数据分析师各地入口
环球网校移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载

返回顶部