以高质量、高效率之名,DataOps被视为深化企业数字化转型的重要抓手,然则DataOps理念如何在企业落地?
由中国信息通信研究院等单位指导、大数据技术标准推进委员会(CCSA TC601)主办的首届DataOps全球峰会于近日在上海举办,网易副总裁、杭州研究院执行院长、网易数帆总经理汪源受邀在会上分享了网易的DataOps特色实践——数据开发治理一体化。汪源表示,急于上线而忽视事先治理会带来大量的后遗症,只有实现数据开发和数据治理一体化,才能确保数据流水线的高质量运行。
目前,网易数帆已经实现数据开发治理一体化的产品化落地,作为以DataOps为核心的数据生产力模型的重要技术支撑,不仅践行于网易各业务,实现规范落地和开发效率、数据质量的大幅提升;也应用于行业客户,如解决了证券公司面临的标准、质量和安全的痛点,有效促进数据资产化,确保数据价值落地。
开发治理一体化:拒绝开发遗留问题
网易DataOps实践包括了数据开发流水线和开发治理一体化两个阶段,项目启动的契机都是为了解决业务面临的问题。网易数帆始于2019年的数据开发流水线建设,将通用软件工程的DevOps理念应用到数据开发场景,把编排、测试、代码审查和发布审核等环节纳入数据开发流程,有效覆盖了任务依赖容易缺失、缺乏自动化测试及发布管控等痛点。
此后,网易数帆将目光瞄准三个典型的挑战:规范缺失、烟囱式开发和质量规则覆盖不佳。规范缺失,例如37%的表命名不规范,而相同的字段甚至有8种不同的命名。同时,各团队数据开发为快速交付,自行开发各自所需的数据表,公共逻辑难以沉淀,即使有开发流程约束,烟囱式开发也不可避免。此外,数据质量稽核规则覆盖率只有10%,且70%的相同数据项配置的规则不一致,这是由于质量规则没有配置依据,完全依赖配置人员对数据的理解。凡此种种,导致数据质量无法有效提高。
作为追求敏捷数据开发的公司,网易数帆思考如何把质量和安全也纳入验收的范围,以实现真正的高效。于是有了DataOps 2.0的实践,即数据开发治理一体化,将数据治理的流程与数据开发的全生命周期相融合,并常态化地落到技术和产品中,支撑在开发过程中完成治理,确保数据出厂的时候就具备高质量。相比传统的先污染后治理、运动式治理的方式,开发治理一体化具有一步到位、长效解决的优势,能够避免开发过程遗留的问题拖后腿。
汪源通过一组数据分享了这一方案在网易实现的效果。规范方面,确保了表、字段、指标命名的一致性及规范性,字段标准化率达到 80%,字段及指标的安全等级已完成100%设置。效率方面,实现了数据公共层逻辑下沉,同需求对应指标数量缩减48.7%,音乐业务模型复用度提升三倍。质量方面,实现自动根据数据标准生成质量稽核规则,规则覆盖率达到65%,单个任务的配置效率提升约70%。
开发治理一体化的关键
对比软件工程流程,容易发现数据开发流水线存在的一大缺失是设计,数据开发治理一体化的核心,就是“先设计,后开发;先标准,后建模”。网易数帆从制定数据标准开始来实施整个数据开发的链路和流程,通过数据标准、指标、模型的设计,让质量、安全相关的各种规范更好融入后续的数据开发、测试以及常态化的质量监测和安全监测等环节。
“我们已经把这一方法沉淀到产品设计中。指标定义之后,后续相关的校验、规则等,会在产品中自动落地,开发人员不需要手动操作。”汪源说。
先设计后开发落到产品,根本是数据标准。网易数帆通过数据标准产品完成命名规范、格式规范、值域规范、质量规范和安全规范的设计,前后串联到数据探查、数据建模、数据质量、数据安全等模块。例如,根据表绑定的数据标准所关联的稽核规则,自动添加到表的稽核监控;根据表绑定的数据标准所关联的安全规则,自动应用到数据脱敏任务。
另一个关键是统一全生命周期元数据。企业在设计阶段、开发阶段和消费阶段,自然而然地产生很多新的元数据,如设计过程关联的标准、指标、安全等级、模型定义,开发过程的数据血缘、物理表定义、质量报告、模型跨层依赖率、复用率等费,过程的需求满足率、资产活跃度、用户评价等。在数据开发治理一体化的流程下,这些更完备的元数据形成数据资产,更有助于让企业数据资产“找得到、看得懂、信得过、管得了”。
而从数据相关管理者的角度,汪源还建议要遵循两个重要原则:一是关注最核心的数据消费侧的需求,因为数据是要通过消费来创造价值的,不管是开发还是治理,本身都是不创造价值。二是建立科学的质量评估体系,推动数据质量持续优化。
前瞻:融合AIGC,突破“设计即开发”
尽管“先设计后开发”原则为当前数据开发治理一体化的实现立下了汗马功劳,汪源认为这不是终点,未来理想的形态应该是“设计即开发”,即企业只需要做设计,不需要投入太多的开发人力,数据开发过程近乎自动完成。近期火爆的ChatGPT对整个软件开发领域带来的革命性影响,让网易数帆对这一未来充满期待。
“以现在的技术进展,在数据领域完全有可能率先实现这一点,毕竟数据开发复杂度比通用软件开发更低。”汪源透露,网易数帆自研的大模型已经应用于在NL2SQL(自然语言生成SQL)领域,团队测评目前达到ChatGPT的90%的水平。
由此,汪源预测,随着智能化技术应用的突破,先设计后开发将演变成“设计即开发”,进一步提升数据在生产侧的质量和效率。而结合数据消费端的智能化,如自然语言数据消费,就能够更丝滑地实现“人人用数据,时时用数据”——这也正是网易数帆数据生产力模型的愿景,通过将所有实践统一到数据技术、数据资产、数据应用和数据运营四大要素,促进数据消费,推动组织生产力提升。
与会者评论认为,网易数帆的数据开发治理一体化的前沿实践,有效弥补了中大型企业数据开发流水线的不足,可谓行业数据价值落地的Playbook,而借助智能化东风实现设计即开发的探索目标,也为DataOps的未来发展带来更为广阔的空间。