数据分析师课|大数据数据采集方法就这么多了,快来看看吧
1、大数据数据采集——浏览器页面采集:
主要是收集页面的 浏览日志(PV/UV等) 和 交互操作日志(操作事件)。
这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动态的植入。
事实上,统计JS在采集到数据之后,可以立即发送到数据中心,也可以进行适当的汇聚之后,延迟发送到数据中心,这个策略取决于不同场景的需求来定。
页面日志在收集上来之后,需要在服务端进行一定的清晰和预处理。
比如 清洗假流量数据、识别攻击、数据的正常补全、无效数据的剔除、数据格式化、数据隔离等。
2、大数据数据采集——客户端日志采集:
一般会开发专用统计SDK用于APP客户端的数据采集。
客户端数据的采集,因为具有高度的业务特征,自定义要求比较高,因此除应用环境的一些基本数据以外,更多的是从 “按事件”的角度来采集数据,比如 点击事件、登陆事件、业务操作事件 等等。
基础数据可由SDK默认采集即可,其它事件由业务侧来定义后,按照规范调用SDK接口。
因为现在越来越多APP采用Hybrid方案,即 H5 与 Native相结合的方式,因此对于日志采集来说,既涉及到H5页面的日志,也涉及到Native客户端上的日志。在这种情况下,可以分开采集分开发送,也可以将数据合并到一起之后再发送。
常规情况下是推荐将 H5上的数据往Native上合并,然后通过SDK统一的发送。这样的好处是 既可以保证采集到的用户行为数据在行为链上是完整的,也可以通过SDK采取一些压缩处理方案来减少日志量,提高效率。
APP上的数据采集,还有一点比较重要的就是唯一ID了,所有的数据都必须跟唯一ID相关联,才能起到更好的分析作用,至于移动设备唯一ID我在上一篇文章中有详细讲到。
日志收集,还有很重要的一条原则就是 “标准化”、“规范化”,只有采集的方式标准化、规范化,才能最大限度的减少收集成本,提高日志收集效率、更高效的实现接下来的统计计算。
以上就是有关于大数据数据采集的相关内容,以及相应的解析,不论你是已经入职数据分析师岗位的新人,还是打算进入数据分析岗位的小白,以上的内容都或多或少会对大家有所帮助,环球网校的小编在这里祝大家的数据分析师职业道路顺利。
最新资讯
- 数据分析汇总报告有哪些组成?这才是数据分析师能力的体现2020-07-17
- 什么是EOI框架?这对于数据分析师竟然这么重要2020-07-17
- 如何进行业务核心数据分析?这对于数据分析师来说竟如此重要2020-07-16
- 有哪些数据分析实践的概念?不会这个的数据分析师都转行了2020-07-13
- 数据的分析思路是什么?正确的分析思路可以帮助数据分析师进步2020-07-10
- 什么是数据回归分析方法?这才是数据分析师要用到的利器2020-07-10
- 数据相关的分析方法是什么?这三种才是数据分析师的救星2020-07-10
- 高级数据分析方法是什么?这才是数据分析师进阶的必备技能2020-07-09
- 提出数据假设的方法是什么?这才是数据分析师应该明白的东西2020-07-09
- 如何找出数据优化指标?优秀的数据分析师都在这样思考2020-07-09