编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

DataOps全球峰会 | 网易数帆特色实践护航数据价值落地

网易数帆小助手2023-04-26 18:00

以高质量、高效率之名，DataOps被视为深化企业数字化转型的重要抓手，然则DataOps理念如何在企业落地？

由中国信息通信研究院等单位指导、大数据技术标准推进委员会（CCSA TC601）主办的首届DataOps全球峰会于近日在上海举办，网易副总裁、杭州研究院执行院长、网易数帆总经理汪源受邀在会上分享了网易的DataOps特色实践——数据开发治理一体化。汪源表示，急于上线而忽视事先治理会带来大量的后遗症，只有实现数据开发和数据治理一体化，才能确保数据流水线的高质量运行。

目前，网易数帆已经实现数据开发治理一体化的产品化落地，作为以DataOps为核心的数据生产力模型的重要技术支撑，不仅践行于网易各业务，实现规范落地和开发效率、数据质量的大幅提升；也应用于行业客户，如解决了证券公司面临的标准、质量和安全的痛点，有效促进数据资产化，确保数据价值落地。

开发治理一体化：拒绝开发遗留问题

网易DataOps实践包括了数据开发流水线和开发治理一体化两个阶段，项目启动的契机都是为了解决业务面临的问题。网易数帆始于2019年的数据开发流水线建设，将通用软件工程的DevOps理念应用到数据开发场景，把编排、测试、代码审查和发布审核等环节纳入数据开发流程，有效覆盖了任务依赖容易缺失、缺乏自动化测试及发布管控等痛点。

此后，网易数帆将目光瞄准三个典型的挑战：规范缺失、烟囱式开发和质量规则覆盖不佳。规范缺失，例如37%的表命名不规范，而相同的字段甚至有8种不同的命名。同时，各团队数据开发为快速交付，自行开发各自所需的数据表，公共逻辑难以沉淀，即使有开发流程约束，烟囱式开发也不可避免。此外，数据质量稽核规则覆盖率只有10%，且70%的相同数据项配置的规则不一致，这是由于质量规则没有配置依据，完全依赖配置人员对数据的理解。凡此种种，导致数据质量无法有效提高。

作为追求敏捷数据开发的公司，网易数帆思考如何把质量和安全也纳入验收的范围，以实现真正的高效。于是有了DataOps 2.0的实践，即数据开发治理一体化，将数据治理的流程与数据开发的全生命周期相融合，并常态化地落到技术和产品中，支撑在开发过程中完成治理，确保数据出厂的时候就具备高质量。相比传统的先污染后治理、运动式治理的方式，开发治理一体化具有一步到位、长效解决的优势，能够避免开发过程遗留的问题拖后腿。

汪源通过一组数据分享了这一方案在网易实现的效果。规范方面，确保了表、字段、指标命名的一致性及规范性，字段标准化率达到 80%，字段及指标的安全等级已完成100%设置。效率方面，实现了数据公共层逻辑下沉，同需求对应指标数量缩减48.7%，音乐业务模型复用度提升三倍。质量方面，实现自动根据数据标准生成质量稽核规则，规则覆盖率达到65%，单个任务的配置效率提升约70%。

开发治理一体化的关键

对比软件工程流程，容易发现数据开发流水线存在的一大缺失是设计，数据开发治理一体化的核心，就是“先设计，后开发；先标准，后建模”。网易数帆从制定数据标准开始来实施整个数据开发的链路和流程，通过数据标准、指标、模型的设计，让质量、安全相关的各种规范更好融入后续的数据开发、测试以及常态化的质量监测和安全监测等环节。

“我们已经把这一方法沉淀到产品设计中。指标定义之后，后续相关的校验、规则等，会在产品中自动落地，开发人员不需要手动操作。”汪源说。

先设计后开发落到产品，根本是数据标准。网易数帆通过数据标准产品完成命名规范、格式规范、值域规范、质量规范和安全规范的设计，前后串联到数据探查、数据建模、数据质量、数据安全等模块。例如，根据表绑定的数据标准所关联的稽核规则，自动添加到表的稽核监控；根据表绑定的数据标准所关联的安全规则，自动应用到数据脱敏任务。

另一个关键是统一全生命周期元数据。企业在设计阶段、开发阶段和消费阶段，自然而然地产生很多新的元数据，如设计过程关联的标准、指标、安全等级、模型定义，开发过程的数据血缘、物理表定义、质量报告、模型跨层依赖率、复用率等费，过程的需求满足率、资产活跃度、用户评价等。在数据开发治理一体化的流程下，这些更完备的元数据形成数据资产，更有助于让企业数据资产“找得到、看得懂、信得过、管得了”。

而从数据相关管理者的角度，汪源还建议要遵循两个重要原则：一是关注最核心的数据消费侧的需求，因为数据是要通过消费来创造价值的，不管是开发还是治理，本身都是不创造价值。二是建立科学的质量评估体系，推动数据质量持续优化。

前瞻：融合AIGC，突破“设计即开发”

尽管“先设计后开发”原则为当前数据开发治理一体化的实现立下了汗马功劳，汪源认为这不是终点，未来理想的形态应该是“设计即开发”，即企业只需要做设计，不需要投入太多的开发人力，数据开发过程近乎自动完成。近期火爆的ChatGPT对整个软件开发领域带来的革命性影响，让网易数帆对这一未来充满期待。

“以现在的技术进展，在数据领域完全有可能率先实现这一点，毕竟数据开发复杂度比通用软件开发更低。”汪源透露，网易数帆自研的大模型已经应用于在NL2SQL（自然语言生成SQL）领域，团队测评目前达到ChatGPT的90%的水平。

由此，汪源预测，随着智能化技术应用的突破，先设计后开发将演变成“设计即开发”，进一步提升数据在生产侧的质量和效率。而结合数据消费端的智能化，如自然语言数据消费，就能够更丝滑地实现“人人用数据，时时用数据”——这也正是网易数帆数据生产力模型的愿景，通过将所有实践统一到数据技术、数据资产、数据应用和数据运营四大要素，促进数据消费，推动组织生产力提升。

与会者评论认为，网易数帆的数据开发治理一体化的前沿实践，有效弥补了中大型企业数据开发流水线的不足，可谓行业数据价值落地的Playbook，而借助智能化东风实现设计即开发的探索目标，也为DataOps的未来发展带来更为广阔的空间。

<上一篇数据治理实践 | 网易某业务线的计算资源治理

下一篇网易数帆CodeWave智能开发平台发布，融合低代码与AIGC降低开发门槛>

最新博客

最新资源下载

编辑推荐

DataOps全球峰会 | 网易数帆特色实践护航数据价值落地

最新博客

最新资源下载

编辑推荐

DataOps全球峰会 | 网易数帆特色实践护航数据价值落地

推荐博客

删除