时长20:57大小19.20M
作者回复: 我来谈谈我的看法。
依靠业务部门去提数据需求,我觉得你还是想多了,也不太现实,就像你说的,他们根本都没有数据运营的思维,又怎么能给你提数据问题呢?
这让我想起了我们做数据产品时候的做法, 首先我们的数据产品要深入业务,与业务部门的老大对齐目标。例如在电商业务中,我们跟业务部门的BU老大,对齐,今年的目标主要是两个,一个是要提高爆品产出,一方面降低库存,一方面可以吸粉。另外一个就是要控制毛利。
了解了这个目标以后,我们首先就是要让这个目标可以量化,比如对于爆品的产出,我们需要基于动销率去分析,然后就是持续的跟踪,哪些商品品类动销率比较差,需要提高,哪些商品是0动销,对于0动销的商品,数据产品要进一步分析原因,比如是价格的因素?还是因为商品质量有问题?还是因为商品季节性因素? 然后给出决策建议,比如下架商品,对商品曝光进行限流,调整商品的价格策略等等,最后,数据产品会自动把这些决策建议推送给业务系统进行执行。
从上面这个案例中,你看到,业务部门不可能给你明确的他们要什么数据,他能给你的是他的业务目标是什么。而数据应用团队,要做的就是对业务目标进行量化,持续跟踪,对于异常要进行诊断分析,给出优化建议,最后一键执行。这个过程最终以数据产品的方式呈现给业务,帮助业务实现数据驱动目标。
在第11节中,我会详细介绍数据应用,相信会对你有帮助。
感谢你的阅读,欢迎你继续跟我交流~
作者回复: 我们保证数据问题,做到早发现,早恢复,是依赖数据血缘+稽核监控实现的全链路监控机制,话句话说,如果你加的稽核规则不够多,就可能发现不了问题。那如何来保证稽核规则的完备性的呢?
首先,对于数据中台核心表,数据架构师、主题域的负责人以及对应表的负责人会逐个review 每个表的稽核规则是否完备。
其次,表负责人是表数据质量的第一责任人,我们会对表的数据质量问题进行持续监控,尤其是对下游产生问题的事故进行定责,所以作为第一责任人,他们有动力去完善表的稽核规则。
最后, 稽核规则不可能做到100%的覆盖,只能保证,翻过的错误不要再犯就,所以对于每次事故,我们都会组织复盘,其中重要的一项内容就是补充相关的稽核规则。
通过上述三项措施,可以大幅降低数据质量产生的事故,我可以负责任的说,数据质量不可能说做到100%不出问题,但是可以做到问题不断收敛,犯过的错误不要再犯,这对数据质量来说,已经是极大的改善了。
作者回复: 说的对,没有数据应用场景,数据中台就跟天上的云,始终没有落地的成果,你也讲不清楚,中台到底有啥价值。我觉得,数据应用和数据中台要相互配合构建,可以先从一两个场景开始,滚雪球式的建设。
作者回复: 对的,人的因素往往最难推动,因为涉及到很多团队的利益,还涉及到能不能找到一些有经验的人来做这个事情。
感谢你的讨论,欢迎你在后面的课程中继续与我在留言区交流~
作者回复: 感谢你的支持,希望我的经验对你有所帮助。期待在后续的课程中能够在留言区与你继续交流。
作者回复: 我觉得呢,组织架构是我们做这项工作的基础和前提,但是也不是说把这些人放到一起,就能实现数据复用了,还要配合方法论和支撑技术,你要让他能够快速的找到自己想要的表,才能够复用,同时要你按照主题域、分层的方式,让中间加工结果能够落到中台中,被其他的任务复用。而这些,并不是说组织架构在一起就可以了。
所以我给出的结论,是方法论、支撑技术和组织架构三者缺一不可。
作者回复: 感谢你的认可。
我写这个专栏,目的还是希望能够分享网易数据建设的经验,把网易数据中台建设中遇到的坑,如何解决的,分享给大家。
如果你对网易数据中台的相关技术感兴趣,可以搜索网易大数据猛犸。
作者回复: 感谢你的阅读,希望我的经验对你有所帮助,欢迎你继续在留言区与我交流。
作者回复: 希望把最有用的东西呈现给你们,越往后看,就越有料哈,从第4节开始,我们就要进入实践篇啦,这部分的内容会更落地一些,会有比较多的案例,结合一些具体的技术实现,慢慢看~
作者回复: 你这里面有两个问题。
对于第一个问题,主题域的设计,其实与你所在的企业从事的业务过程密切相关的,你可以理解为它就是业务过程的一个抽象。比如,在物流行业中,会有门店、中转、车队等等,在电商行业中,交易、用户、商品、售后等等,在云音乐中,互动、内容、交易、市场、风控等等。要梳理主题域,你可以先把业务过程中,按照行为事件的方式梳理一下,看看包括哪些业务过程。另外也可以参考一下业务相近的行业对于主题域的划分。还要再说明一下,主题域划分并没有对错,尽可能的覆盖更多表,是主题域划分的一个目标。
如何整合不同业务来源的用户数据。用户在业务中,一般是以维度的方式存在,对于单个业务,需要构建一个统一的用户维表。但是如果涉及多个业务,多个业务用户数据的整合,其实核心技术是id-mapping。
ID-Mapping要解决的核心问题是把相同的用户,在不同应用系统上登录识别成同一个实体,即使是在同一个应用内,同一个人也可能有多重身份,比如未登录和登陆后,可能是两个标识。如何整合这些数据呢,我们把账号和设备的关联关系作为基础,每一个账号在某个设备登录一次,就算一个联系,然后对数据按照权重进行聚类,这个权重就是登录次数,时间等。然后就可以把同一个设备不同应用,不同设备的相同账号关联起来,识别为同一个实体,这样就实现了不同业务来源数据的整合。
作者回复: 这个问题问到点子上了,问的很好。
一方面是当前业务需求的压力,一方面就是数据中台涉及到大量的模型重构,如何来平衡两者的关系,我的建议是区分团队,专人专办。 单独划出来一拨人,专门做数据中台的数据整合。
至于如何来获得领导的认可。我想,如果你是领导,你最担心是什么? 最担心就是投了这么多资源,然后效果讲不清楚,钱打了水漂。
我觉得要取得领导的信任,最重要的是要有明确的、可量化的、可持续追踪的目标。然后能够阶段性的验收成果,把风险控制到最低。
数据中台,可以先从一两个典型应用开始,滚雪球式的建设,所以只要有可持续的量化目标和结果,你的领导就可以看到收益,另外,要注重业务成果的展示,而这一部分往往是通过数据应用来实现的,说白了,就是要让这些数据应用为数据中台背书,获得这些数据应用的认可,比如你的需求交付效率确实提高了,你的数据质量确实改善了。
这是我之前使用的一些经验,希望能够对你有所帮助~ 欢迎你继续和我交流。
作者回复: 说的对,所以我一直在强调,组织是数据中台的前提,然后才是方法论和支撑技术。
作者回复: 数据中台,构建于数据湖之上,强调数据只加工一次,数据的复用性,通过数据服务化,提高接口和数据的复用。
传统数据仓库并不是构建于数据湖之上的。而对于现代基于数据湖之上构建的数据仓库,并没有强调数据只加工一次和数据服务化。这就是OneData和OneService方法论。
作者回复: 我觉得,企业不同阶段,数据应用的水平是有差异的,对数据中台的诉求也有不同。
我认为数据应用一般先是从BI 开始的,然后经历数据产品,最后到自助取数。
对于数据中台来说,指标口径一致性问题,数据质量问题,可能是最先面临的问题,然后接下来是效率方面的问题,最后等规模大了,成本问题会更加突出。
所以不同阶段,中台建设的方向优先级是有差异的,以解决当前问题优先。
作者回复: 这也是双中台战略的核心。
感谢你的阅读,欢迎你继续和我在留言区互动~