网易数帆小助手

个人签名

253篇博客

数据开发治理平台LTS 650Update1.3 发布

网易数帆小助手2022-10-27 10:00

更新简要:

数据开发治理平台EasyData又更新了。此次版本数据传输、离线开发、流程与协作中心等产品模块都有重大更新,快来看看吧!


                    重点优化项Highlight

1.离线开发:任务支持基于优先级的调度

支持设置任务的调度优先级,高优先级任务可优先获取Yarn资源,保障在凌晨Yarn队列资源处于满负荷状态时重要数据能够按时产出。

2.任务运维中心:增加基线的甘特图查看模式

方便用户查看基线相关的任务整体运行情况,可以直观地查看基线上挂载的任务及其全部上游任务的各个实例各个阶段的时间变化情况,例如,当基线预警时可快速查看哪些任务运行耗时较久,哪些任务等待时间过长,从而将对应任务的计划执行时间进行提前等操作。

3.模型设计中心:引用标准建模,让模型设计更规范

支持引用数据标准创建表,自动填充字段信息;支持批量输入字段中文名称进行词根翻译快速生成字段信息;建表更规范,效率更高

4.数据资产地图:元数据注册新增临时暂存功能

元数据注册的表单填写内容较多,可能出现一时无法准确填写完整或临时有其他事项导致填写中断的情况,临时暂存功能允许必填项暂时为空,可实现临时内容的暂存,方便用户下次继续填写。

5.数据治理360:支持目录级别的小文件发现功能

用户可快速查看目录下的文件总数、目录总数、存储空间和文件大小,进行针对性的数据治理,避免目录数据冗余带来的存储资源浪费。

6.项目中心(新):数据源登记过程中支持测试连接

在登记过程中用户可及时了解登记的数据源是否能成功联通,如果测试连接失败可以及时排查失败原因并解决问题。

 

一、重点功能更新

1.1离线开发基于任务优先级的调度能力

针对NDH集群的CS调度的Yarn集群,SQL节点、Spark节点和MR节点,在线上调度时,支持将任务的优先级(L1-L6)转换为优先级数值(10、20、30、40、50、60)传递给Yarn队列来执行,高优先级任务优先获取Yarn资源,其中Spark引擎需要3.0以上。

(注意:当前该功能只针对NDH集群且Spark3.0以上的环境)


开启方法:

需要运维开启对应的Yarn集群的优先级调度功能。开启后,有权限的用户,可在项目中心注册Yarn队列或修改队列,使Yarn队列开启“调度优先级”功能。见下图:


 


功能适用场景:

场景一:离线开发开发模式执行

开发模式下,进行运行设置时,使用默认优先级(默认是10),支持配置。



场景二:离线开发线上模式调度

线上模式设置调度的时候,分为两种情况。如果选择的队列开启了优先级调度,以生成实例时最终的优先级进行调度,假如实例的最终优先级为L5,则将50传递给Yarn队列来执行。如果选择的队列未开启优先级调度,实例配置了优先级也无法生效,只能以队列默认的数值执行。


 


场景三:重跑

重跑场景下,默认使用上一个实例的最终优先级,没有则用任务的临时优先级,没有则用原始优先级。支持选择重跑时实例的优先级,执行时以此处选择的优先级为准。


 

1.2 数据传输支持脏数据管理

数据去向为平台内置Hive时,支持脏数据管理功能。开关开启时,用户可指定任务运行产生的脏数据的存储位置,支持存入Hive表或MySQL表。如当前创建用户的用户有对应数据库的建表权限,可在页面一键生成脏数据表。(脏数据定义:如果单条数据在写入Hive后下游读取时由于来源和去向数据类型不匹配会解析为NULL,则此条数据为脏数据)



支持用户配置最大容忍条数,当脏数据超过指定条数时,任务报错。对脏数据比例进行配置,任务执行结束后,统计脏数据占比,大于指定比例时,任务置为失败,可在任务日志中查看脏数据条数。


 

1.3 数据质量中心新增一致性稽核维度

数据质量中心新增一致性校验规则,支持逻辑一致性、等值一致性、存在一致性校验,内置5个跨字段规则模版、2个跨表规则模版。


规则模板名称
规则类型
支持数据类型
采样方式
计算规则
基准值
描述
主键相同时字段整体一致校验
跨字段级
不限制
内容一致行数
 
与基准值比率
总行数
计算主键相同时两字段内容一致的数量与监控表总行数(抽样行数)比率,不符合阈值时规则视为异常
 
主键相同时字段内容一致校验
跨字段级
不限制
内容一致行数
 
与基准值比率
监控表主键相同行数
计算主键相同时两字段内容一致的数量与主键相同记录数比率,不符合阈值时规则视为异常
数值字段逻辑关系校验
跨字段级
数值型
内容一致行数
与基准值比率
总行数
适用于数值型字段,两个字段的数据值满足某种逻辑关系(如大于、小于等)
日期字段逻辑关系校验
跨字段级
日期型
内容一致行数
与基准值比率
总行数
适用于日期型字段,两个字段的数据值满足某种逻辑关系(如大于、小于等)
字段存在一致性校验
跨字段级
不限制
内容一致行数
与基准值比率
总行数
字段间内容存在性满足相互依存关系,如保持同时存在或互斥
表行数一致性校验
跨表级
不限制
规则命中行数
与基准值计算差值
比对表总行数
校验两张表的总行数是否一致,若两表总行数差值不符合阈值则视为异常
表唯一行数一致性校验
跨表级
不限制
规则命中行数
与基准值计算差值
比对表唯一行数
校验两张表的唯一行数是否一致,若两表唯一行数差值不符合阈值则视为异常

 

功能展示:

在【质量监控-新建监控】页面,选择【新建规则-模版规则】,在规则类型中选择【跨字段级】或【跨表级】。选择已存在的规则模版,并配置需要进行比对的字段或者表。如果当前的规则类型为跨字段级规则,可选择生成异常数据样本,在运行结果中可查看前1000条异常数据,结果保存15天。


 

1.4新版流程与协作中心上线

新版流协上线,除了完成子产品的对接外,还和报警系统进行对接,支持模板级别和节点级别的自定义报警、自定义超时审批通知、自定义超时关闭等新功能。


级别
通知对象
完成通知
通知渠道
模板级别
创建人+自定义跟踪人
创建成功:工单创建成功
审批成功:工单最后审批成功
审批失败:工单被终止
超时通知:工单创建后多久没审批完成
超时关闭:高级设置,超时通知N此后关闭,关闭通知管理员
邮件、电话、短信、微信等
节点级别
审批人+自定义跟踪人
工单到达:待办
工单撤回:待办被撤回
工单撤销:待办被撤销
执行失败:异步执行失败
超时通知:工单到达多久没审批完成
邮件、电话、短信、微信等


新流协还支持画布功能,用户可以自己通过拖拽方式绘制流程模版。



此外,自研画布支持自定义配置报警类型、报警渠道、超时报警、超时关闭配置等。


 

二、详细功能优化说明

2.1 数据传输

  1. 数据传输支持批量导入导出离线同步任务
  2. MySQL、Oracle、SQLServer支持全量初始化
  3. 数据来源端为Hive时,支持基于Impala JDBC读取Hive数据(Hive版本为:Sensors Data-Impala 3.2.18.6,Hive认证方式为:simple认证)
  4. 支持ES动态索引模式
  5. 动态索引模式下,index由自定义输入项和指定的去向端字段名称构成。自定义输入项可选填,支持输入常量、系统参数和参数组参数。去向端字段名称必填,格式:{字段名称};若需填写多个字段,可按格式:{字段名称1}{字段名称2}填写动态索引模式下,mapping的字段名称为字段映射的去向表字段名称,mapping的字段类型会根据写入数据内容采取dynamic mapping(动态映射)来推断产生。此外,创建索引时会匹配ES数据源中的dynamic template(动态模板)
  6. 数据源类型为SQLServer时,新增支持版本:SQL Server 2008
  7. 数据来源为SQLServer时,数据过滤-流水型支持选用timestamp字段作为增量标识字段
  8. 数据来源为MySQL、SQL Server、Oracle时,字段映射的自定义表达式支持填写${source table}变量,表示来源表表名
  9. 数据来源或去向为MySQL、Hive、SQL Server、Oracle时,字段映射支持同行映射功能
  10. 接入数据源登记的数据源“使用授权”在数据源管理模块,可以选择数据源授权给项目组下哪些项目使用,未授权的项目不可使用数据源
  11. 数据传输支持选择同一集群下其余项目有读写权限的表
  12. 支持脏数据管理功能
  13. 支持配置任务运行和提交的审批策略,创建和修改任务后如命中审批策略,需审批通过后才允许运行、提交、导出和复制任务
  14. 基于逻辑数据源的数据沙箱功能,支持根据任务运行是在开发模式或线上模式自动选择使用逻辑数据源下的测试数据源或生产数据源
  15. 对接安全中心审计日志


2.2 数据标准

  1. 支持展示标准概览,统计标准相关信息
  2. 标准添加时支持进行相似性分析
  3. 支持查看标准引用情况统计
  4. 支持元数据导入的时候自动解析特定格式录入到原始字典
  5. 提供原始字典与标准字典的映射配置页面,并能够帮助用户自动推进标准字典
  6. 词根翻译供模型设计中心调用
  7. 支持数据标准查看引用详情
  8. 元数据模块支持采集的元数据推荐数据标准挂接
  9. 支持按照标准类型比对发布的版本差异
  10. 支持对单个数据元进行版本比对
  11. 支持对单个标准字典进行版本比对
  12. 词根支持以词根中文作为主体
  13. 词根导入支持对已存在词根进行修改


2.3 数据质量中心

  1. 新增【配置管理】页面,质量分支持按六大校验类型和规则强弱配置规则权重
  2. 测试中心数据比对功能迁移
  3. 在质量中心运行结果页面上展示异常数据,展示前1000条。同时提供SQL,及去往自助分析的查询入口
  4. 新建/编辑监控任务|试跑】规则合并执行。仅支持Hive,历史监控任务配置的规则是一条一条分别执行的,会造成资源的不必要消耗,开启规则合并执行功能后,系统自动将可以合并的多条SQL合并成一条SQL ,减少资源消耗
  5. 新建模板规则数据格式新增支持日期型
  6. 质量监控支持配置 Driver内存、最大Executor数目、Executor内存


2.4 安全中心

  1. 【角色管理-功能权限】支持子产品资源搜索
  2. 【操作审计】项目组筛选下拉可选择当前用户所在的项目组,全部仅包含当前用户所在的项目组
  3. 【数据管理】表删除校验逻辑去掉所属库的授权校验
  4. 数据传输查询敏感类型是返回安全等级
  5. 支持目录权限申请
  6. 审批配置支持按安全等级配置审批流
  7. 【功能权限】指标系统功能权限迁移,指标系统从老的功能权限迁移到新的功能权限
  8. 支持查询跨项目的数据权限,配合数据传输选择数据源时展示同一集群下其余项目有读写权限的表
  9. 支持查询角色下的人员列表,配合流协等其它产品使用
  10. 数据源管理功能权限迁移到角色管理-项目-角色-功能权限中


2.5 指标系统

  1. 指标工单支持审批结果通知相关方
  2. 解除衍生词编辑时若有引用就无法编辑的限制,给出影响范围
  3. 已下线指标无引用且无临时版本时可删除
  4. 支持控制是否同步数仓主题域以及是否启用标准目录
  5. 指标支持英文名称
  6. 指标域支持搜索
  7. 资源目录分组的组顺序可调
  8. 指标对接安全中心项目组级别权限
  9. 提供基于数据元查询被应用的指标详情的接口
  10. 衍生词支持临时版本记录,审核不通过时数据不再丢失
  11. 指标支持待发布态
  12. 申请治理工单根据提交人选择处理对象
  13. 支持取消申请注册流程
  14. 支持我的数据模块(收藏、订阅、浏览)
  15. 指标治理工单支持转办
  16. 指标提交工单支持配置审核人列表或指定审核人


2.6 离线开发

  1. 离线开发编辑调度放开“完成超时”。离线开发任务,新增任务的完成超时报警功能。完成超时,指任务从计划执行时间开始计时,多久之后还没有运行成功的实例。超过该时间后,即会发送报警
  2. 离线开发任务支持基于优先级的调度
  3. 【离线开发】支持版本一键回滚。在离线开发-版本列表页面,新增回滚操作按钮,支持将开发模式下的节点(配置与代码)与资源配置一键回滚到指定的版本
  4. 【离线开发】支持提交上线时选择需关联的JIRA并在任务上线后自动变更JIRA状态
  5. 【离线开发】参数组的参数值支持隐藏
  6. 【项目中心】任务运维相关权限的新增与优化
  7. 【离线开发】导航栏新增“公共资源”入口,支持实时计算引用参数组


2.7 模型设计中心

  1. 支持工单执行时区分建表成功以及元数据标签创建成功
  2. 字段选择指标时支持选择多级指标域下的指标
  3. 维度支持导入导出
  4. 支持调用数据标准词根翻译接口翻译字段中文到英文名称
  5. 主题域表列表支持直接进行编辑生成修改表工单
  6. 模型建表支持关联一级主题域且支持取消选择到末级主题域限制
  7. 模型扩展信息配置支持枚举多选需求


2.8 任务运维中心

  1. 值班组日历支持导入导出
  2. 新增ApplicationID查询工具。周期实例运维页面新增“ApplicationId查询工具”,支持通过ApplicationId搜索当前平台下的实例,ApplicationId可通过Yarn平台获取
  3. 运行中的实例支持切换队列。当某个队列出现资源紧张的时候,可以使用该功能,将正在运行中的实例切换到其他有空余资源的队列中
  4. 周期实例大盘新增“任务出错排行”
  5. 支持对任务进行暂停调度、恢复调度
  6. 新增任务操作、基线管理、实例置成功等功能权限
  7. 任务告警规则支持告警接收人选择值班组
  8. 基线运维详情页,增加基线的甘特图查看模式,方便用户直观地查看基线上挂载的任务及其全部上游任务的各个实例各个阶段的时间变化情况,当基线预警时可快速查看哪些任务运行耗时较久,哪些任务中间等待长可提早计划执行时间等
  9. 新增周月基线,支持对调度周期为周、月的任务进行基线预警,且支持查看周/月基线的基线运维详情、基线关键路径、基线历史完成时间曲线等
  10. 之前用户在给任务设置基线时,没有时间参考,容易挂错基线,导致基线预警。故在设置基线时,增加基线预警/破线时间的展示、任务执行时间的展示,方便用户对比时间并正常挂载合理的基线
  11. 任务失败基线告警中增加最晚完成时间和余量最少基线的提醒
  12. 任务和实例详情页增加节点的关系视图
  13. 任务血缘统计新增多种排序方式


2.9 数据地图

  1. 支持自定义目录。自定义目录由用户根据业务分布情况自由设置目录树结构
  2. 采集任务支持设置表的归属目录
  3. 元数据注册信息支持自动生成DDL
  4. 元数据列表增加已确权、已存在物理表的标识
  5. 元数据支持暂时保存功能
  6. 元数据采集失败时支持邮件报警
  7. 元数据治理过程中,创建的各类工单均支持设置工单通知对象,默认申请人必须通知,可选择通知其他人员例如业务负责人、技术负责人、数据BA或指定人员等。一旦工单审批通过、拒绝、超时、超时关闭,系统会发送邮件通知对应人员
  8. 元数据支持多套分类目录,系统支持切换不同分类目录展示元数据列表
  9. 视图表支持修改负责人


2.10 标签画像

  1. 【标签管理】流程工单支持完结通知
  2. 【标签管理】支持删除已下线标签
  3. 【标签模板配置】增加质量分系统字段
  4. 【标签管理】申请治理流程开启后,草稿态支持编辑
  5. 【标签管理】增加待发布状态
  6. 【群组管理】标签圈群和群组规则创建群组支持圈群结果明细数据查看


2.11 实时计算

  1. 实时计算相关组件(包含引擎和插件)支持通过 EasyOps 一键自动化部署和升级
  2. 开发页面任务树和任务tab新增任务状态展示
  3. 运维详情页告警记录默认按照时间倒序排列
  4. 实时任务运维支持针对每条告警规则配置不同的告警接收渠道
  5. 实时计算CDC任务选择目标端为Kafka时,支持新增“Changelog-Json”序列化方式,将cdc日志中update类型的数据由原有的“一条detele、一条insert”合并为“一条包含‘before’、‘after’字段”的数据,方便后续实时开发处理