接下来,我们请出网易数帆有数产品总经理余利华,带来“有数全链路数据生产力平台2.0”的发布。让我们一起来关注,有数大数据技术产品今年为大家准备了哪些惊喜,有请余总!
余利华:去年的网易有数发布了数据生产力平台,分为三个层次,包括大数据底座、数据中台、数据应用,目标是帮助我们客户建设数据中台、数据应用,最终建立数据生产力循环。经过一年的落地和打磨我们的产品又有了很大的更新,我分三个部分跟大家介绍一下。
先来看大数据底座部分,我们知道数据从离线到实时是一个很大的趋势,要去建设实时数据、应用实时数据面临两个难题。第一个实时和离线的技术栈不统一,导致的问题是我们的系统、我们的研发有重复的投入。我们的数据模型不能统一,我们的离线和实时的代码不能统一。另外一点缺少数据治理,我们的实时的数据通常没有纳入数据中台的管理,没有建模的规范、数据质量差,烟囱式开放是很常见的问题。针对这两个问题我们推出了我们实时数据引擎Arctic,实现了实时数据更新、实时数据导入的能力,包含以下几个特点:
有了Arctic,数据中台就可以进入到实时的时代,就可以有实时的数据中台。我们先来看一下数据中台部分的产品的更新。DataOps是目前很火的一个词,他的来源是来源于DevOps,是说利用自动化以及说工具化的手段,使得我们能够融合我们的开发、测试、部署,使得我们能够快速的交付我们的数据,交付数据中台,并且交付质量还是很高的,我们跟过去几年落地的数据中台项目我们发现了数据中台项目在开始的时候我们的需求方通常很难完全讲清楚项目的需求到底是什么?因为这也很正常,你没有去做的时候,确实不知道精确的需求是什么,如何定义。在这种情况下,如果采用传统的瀑布式的开发方式,风险就会在项目交付的最后阶段暴露出来,项目的风险非常的大。如果采用DataOps这样的方式就不一样了,我们先交付一部分数据给客户,客户使用之后发现问题再交给我们改进,通过这样的方式逐步交付使得我们能够降低我们项目的一个风险,取得项目的一个成功。
DataOps非常好但是我们也很少听到业内有这方面的实践,因为他确实挺难的,因为难在两个方面,第一个是我们的交付的过程分为需求、设计、开发、测试、部署等各个阶段,那么每个阶段我们都要有很多很好的工具支持,这样我们才能够做好DataOps。
除此之外不仅每个环节都需要工具的支持,我们还有一个跨越全流程的自动化的过程,把现在的流程能够串起来采用真正的达到DataOps。我具体举两个例子,第一个大数据开发里面我们缺了很多的工具,我们需要测试的工具,因为数据的测试他相对是比较复杂的,不像普通代码的测试,。由于数据量很大,他需要构建复杂的测试数据,并且产生的数据是不是正确?是不是符合客户的预期,这是很难的,所以一直以来我们缺少很好的数据测试工具。
在开发阶段也有难点,比如说我们的开发和线上环境通常是不隔离的,我们有的时候很多的大数据团队都是拿线上的环境做开发的,这会导致质量有问题,效率也有问题。好一点的团队也会有自己的开发环境和测试环境,但是开发环境跟我们的生产环境是缺少联动的,开发环境的数据跟线上环境的数据他是缺少同步的,那么开发环境开发出来的任务要拿去上线很麻烦,肯定还要对任务进一步的修改,还要做很多的操作,这样更容易出错,因为这样的种种问题使得DataOps很难做到。
今天我们发布的有数DataOps全新推出了数据测试这样的产品,我们覆盖数据从设计到开发、测试、上线运维全流程的阶段我们包括的数据探查、比对等等的能力,我们对数据开发做了很多的增强,有了数据沙箱这样的功能,我们就可以为大数据打造一个开发环境,开发环节打造出来的任务能够一键体现在线上,在运维阶段我们也开始诊断,能够让我们很方便的发现、解决我们的问题。
更重要的我们有流程协作中心,我们把大数据开发的整个流程过程都能够串联起来了,比如当你提交代码的时候就能够自动调用SQL Scan功能,去发现你代码中存在的一些风险,比如说代码是不是有危险操作?代码是不是低性能的一个语句?我们也有自动测试这样的能力,我们一旦任务上线的时候先自动调,只有你的任务通过测试之后才能够上线。
我们这套DataOps在网易云音乐得到了实践,经过实践发现我们音乐因为代码提交产生的质量问题下降了90%,那么研发的效率提升了1倍。
以上是数据中台的第一项更新DataOps,接下来是下一个环节,数据中台从诞生开始他的目的就是说要把数据集中在一起,通过数据的共享、复用来进一步挖掘数据的价值,数据中台很有用,但是我们发现集中数据这一件事情非常的难,是有难度的。为什么?第一点,客户的数据是天然分散在各个系统里,既然分散其实是有道理的,因为不同的场景需要不同的系统,就像没有一双鞋能够适应所有的脚,数据是天然分散的。另外一个方面企业经过很长时间的发展,每个阶段有不同的需求,这样的话就有很多遗留的系统,我们如果想要把遗留系统里面的数据完全的迁移到新的数据中台里面这个成本能做,但是成本很高,对应的收益我们是很难计算清楚的,能不能有更好的方式。所以我们提出数据中台的构建模式应该有所变化,从传统的“Collect”,把数据收集起来,我们应该转变成更好的“Connect”模式、将数据有机连接在一起,我们应该进行一个统一的管理和建模,达到一样的效果。
网易有数的方案是基于逻辑数据湖来构建物理分散、逻辑统一的数据中台体系,逻辑数据湖建立在各种各样的异构的数据源之上,提供统一的数据湖。逻辑数据湖的特点是逻辑入湖,不需要数据迁移,只要登记在逻辑数据湖里面安全连接、完成登记这样就能够被我们使用。
有以下几个特点,第一是零成本,只要注册连接就可以了,第二、我们目前支持7类数据库,第三个是统一管理,只要你登记用户之后数据中台就能够来对接了,我们的数据研发工具刚才我们介绍的有DataOps能力的数据研发工具就能够完全对接,数据中台、数据治理工具也能够来对接,这样就实现了把数据中台加在Oracle上,加在GP(greenplum)上。
在数据应用层面,网易有数BI是一款敏捷型的产品,我们也服务了很多客户,我们发现客户在做数据分析的过程中还是有一些障碍,特别是数据准备这块,我们发现每个企业都需要他的业务人员、分析师,自己的来做数据准备。我们分两个情况来介绍一下,针对小型企业来说,没有专业的数据开发人员,也没有严谨的数据仓库和数据中台,我们的数据分析师,我们企业业务人员必须得先处理、准备、加工数据,这个结束了之后才能进行数据分析。在大型的企业里面,我们的数据中台有团队,但是数据中台团队往往面向的是那种公共的数据,面向领域的,面向主题性、分析的数据往往还是需要我们的数据分析师和业务人员自己准备,无论是哪种情况了,我们的分析师和业务人员自己准备数据是必须的事情,也是我们做数据分析的第一步。
所以今天推出网易有数BI数据准备就是为了解决这个问题,是面向业务人员和数据分析师的自助式ETL工具帮助我们客户构建轻量级的数仓。我们这款工具是零代码的方式,门槛比较低,我们的业务人员也能用。第二点是成本比较低,我们不需要专业的人员,投入也比较低一点。第三是可视化,我们ETL的每一步都能够实时的,马上的反馈ETL的结果是什么,让我们能够尽快的很好的调整,效率非常高。第四是高性能,我们在BI集成了ClickHouse,使得我们的报表、ETL性能提升了1倍以上。
有数BI数据准备是应用数据产品的第一个部分。接下来看一下机器学习的方面,机器学习非常的有用,但是我们在做这些学习的时候面临很多的挑战,比如说数据准备阶段,面临的数据孤岛的问题,在算法建模的阶段会遇到各种框架开发门槛高的问题,在模型上线的阶段会遇到上线复杂,模型缺乏管理的问题。针对这个问题我们发布机器学习平台EasyAI,主要是为解决机器学习过程中研发、迭代的效率问题。该产品能够很好的对接数据中台,访问数据中台的数据特别的方便。也提供了特征管理的能力。在算法建模的方式也是提供了notebook方式、可视化建模的方式,支持tensorflow,pytorch主流算法框架,这两种方式支持了一些主流的计算引擎和计算框架,并且提供了一键部署,一键上线这样的功能。
以上是我们刚才介绍的数据生产力平台的五大更新,这就是我们的2.0,再跟大家回顾一下数据生产力平台2.0,首先在大数据平台我们推出的Arctic,DataOps帮助我们能够很快速的高效的交付我们的数据,逻辑数据湖可以构建物理分散、逻辑统一的数据中台,使得我们数据中台能够架构在更广泛的数据源上,我们的数据准备是一款面向数据分析师、业务人员的产品,我们机器学习是在数据应用层达成的AI+BI,帮助我们客户构建更加智能的数据应用的产品。好的谢谢大家,欢迎大家去我们大数据专场进一步了解我们的产品。
主持人:感谢余总带来的精彩发布。“全链路”一直是有数“大数据”技术产品的最大特点,今年有数仍旧在“大数据底座”、“数据中台”、“数据应用”三个层级同步创新,以全链路的技术和产品,助力企业“数据价值”的挖掘和实现。