敬畏数据

接触数据分析的时间虽然不长,不过对数据还是有很深的感触,尤其是我的几次经历,让我由衷的对数据产生了深深的敬畏。

马失前蹄

每周都要为运营部门汇报整体的数据情况,由于旧的数据分析系统“年迈”,已经难以负荷现阶段的高数据量增长的需求,而新的数据系统,由于API Log的混乱和标准不一致,使得新平台的进展也不如想象中的顺利。情况基本是:周一需要的数据,周二还是没办法推出。而且,由于多个平台的反馈,加上渠道的不断增加,很多相关的数据甚至已经不能保证正确性(干脆将一些不重要的渠道数据暂时停止供应,等待新的平台上线很快就可以满足要求)。 在这样的情况下,由于服务器的不堪重负,导致了数据流的溢出,报回的数据中断——然而我们浑然不觉,在汇报时,仍然使用旧的系统作为过渡,获取定时任务的错误数据上报,结果“马失前蹄”,发生了这一次的“自摆乌龙”。 当然当天就重新获取新的数据源信息修正了错误,但我仍然惊出了一身冷汗,一方面是系统的瓶颈,但更重要的一方面是我们对于这个“瓶颈”与“桎梏”的认知不足,更深的角度看,我们需要一种“不破不立”的魄力来看待这件事情,该放弃的数据就需要先放下,该满足的重点数据需求我们仍然要第一时间提供给决策层和运营方面,这才是我们从数据事故中真正需要学到的东西,这样也才能保证相似的事件不再重演。

流量之惑

近期经常推出活动,使得数据量不停的飙升,但数据流方面上下行的流量异常奇怪,经常会在报回API Log时将带宽占满!这对于实际带宽和预期来说是不可能发生的事情! 经过对日志的分析,我们发现部分用户在不停的上传下载文件,每日的PV可以达到7-8位数的操作量,这是非常异常的行为!但更进一步分析发现,这样的用户占到的比例很小,几乎难以影响到整体的流量情况,另一些用户虽然PV更多,但并非每天都有登录,所以基本排除了活动期间的恶意用户行为。至此,流量的分析告一段落,对于大量操作的用户,拟定了选择忙时闲时的政策进行同步,暂缓带宽的压力,同时对报回的数据进行分流,基本解决了流量的问题。 简单的2件事,实际上都是数据在跟我们“开玩笑”,我读到的是从数据中挖掘出真正的需要,从最本质的角度切入,一针见血的看待问题,同时也对数据的准确性有了更加深刻的体会,这是决定产品决策乃至整体公司走势的至关重要的一环,需要我们无时无刻不紧绷着这根弦,去探索,去发现。