数据开发治理平台EasyData又更新了。此次版本数据传输、离线开发、流程与协作中心等产品模块都有重大更新,快来看看吧!
重点优化项Highlight
1.离线开发:任务支持基于优先级的调度
支持设置任务的调度优先级,高优先级任务可优先获取Yarn资源,保障在凌晨Yarn队列资源处于满负荷状态时重要数据能够按时产出。
2.任务运维中心:增加基线的甘特图查看模式
方便用户查看基线相关的任务整体运行情况,可以直观地查看基线上挂载的任务及其全部上游任务的各个实例各个阶段的时间变化情况,例如,当基线预警时可快速查看哪些任务运行耗时较久,哪些任务等待时间过长,从而将对应任务的计划执行时间进行提前等操作。
3.模型设计中心:引用标准建模,让模型设计更规范
支持引用数据标准创建表,自动填充字段信息;支持批量输入字段中文名称进行词根翻译快速生成字段信息;建表更规范,效率更高
4.数据资产地图:元数据注册新增临时暂存功能
元数据注册的表单填写内容较多,可能出现一时无法准确填写完整或临时有其他事项导致填写中断的情况,临时暂存功能允许必填项暂时为空,可实现临时内容的暂存,方便用户下次继续填写。
5.数据治理360:支持目录级别的小文件发现功能
用户可快速查看目录下的文件总数、目录总数、存储空间和文件大小,进行针对性的数据治理,避免目录数据冗余带来的存储资源浪费。
6.项目中心(新):数据源登记过程中支持测试连接
在登记过程中用户可及时了解登记的数据源是否能成功联通,如果测试连接失败可以及时排查失败原因并解决问题。
一、重点功能更新
1.1离线开发基于任务优先级的调度能力
针对NDH集群的CS调度的Yarn集群,SQL节点、Spark节点和MR节点,在线上调度时,支持将任务的优先级(L1-L6)转换为优先级数值(10、20、30、40、50、60)传递给Yarn队列来执行,高优先级任务优先获取Yarn资源,其中Spark引擎需要3.0以上。
(注意:当前该功能只针对NDH集群且Spark3.0以上的环境)
开启方法:
需要运维开启对应的Yarn集群的优先级调度功能。开启后,有权限的用户,可在项目中心注册Yarn队列或修改队列,使Yarn队列开启“调度优先级”功能。见下图:
功能适用场景:
场景一:离线开发开发模式执行
开发模式下,进行运行设置时,使用默认优先级(默认是10),支持配置。
场景二:离线开发线上模式调度
线上模式设置调度的时候,分为两种情况。如果选择的队列开启了优先级调度,以生成实例时最终的优先级进行调度,假如实例的最终优先级为L5,则将50传递给Yarn队列来执行。如果选择的队列未开启优先级调度,实例配置了优先级也无法生效,只能以队列默认的数值执行。
场景三:重跑
重跑场景下,默认使用上一个实例的最终优先级,没有则用任务的临时优先级,没有则用原始优先级。支持选择重跑时实例的优先级,执行时以此处选择的优先级为准。
1.2 数据传输支持脏数据管理
数据去向为平台内置Hive时,支持脏数据管理功能。开关开启时,用户可指定任务运行产生的脏数据的存储位置,支持存入Hive表或MySQL表。如当前创建用户的用户有对应数据库的建表权限,可在页面一键生成脏数据表。(脏数据定义:如果单条数据在写入Hive后下游读取时由于来源和去向数据类型不匹配会解析为NULL,则此条数据为脏数据)
支持用户配置最大容忍条数,当脏数据超过指定条数时,任务报错。对脏数据比例进行配置,任务执行结束后,统计脏数据占比,大于指定比例时,任务置为失败,可在任务日志中查看脏数据条数。
1.3 数据质量中心新增一致性稽核维度
数据质量中心新增一致性校验规则,支持逻辑一致性、等值一致性、存在一致性校验,内置5个跨字段规则模版、2个跨表规则模版。
规则模板名称
|
规则类型
|
支持数据类型
|
采样方式
|
计算规则
|
基准值
|
描述
|
主键相同时字段整体一致校验
|
跨字段级
|
不限制
|
内容一致行数
|
与基准值比率
|
总行数
|
计算主键相同时两字段内容一致的数量与监控表总行数(抽样行数)比率,不符合阈值时规则视为异常
|
主键相同时字段内容一致校验
|
跨字段级
|
不限制
|
内容一致行数
|
与基准值比率
|
监控表主键相同行数
|
计算主键相同时两字段内容一致的数量与主键相同记录数比率,不符合阈值时规则视为异常
|
数值字段逻辑关系校验
|
跨字段级
|
数值型
|
内容一致行数
|
与基准值比率
|
总行数
|
适用于数值型字段,两个字段的数据值满足某种逻辑关系(如大于、小于等)
|
日期字段逻辑关系校验
|
跨字段级
|
日期型
|
内容一致行数
|
与基准值比率
|
总行数
|
适用于日期型字段,两个字段的数据值满足某种逻辑关系(如大于、小于等)
|
字段存在一致性校验
|
跨字段级
|
不限制
|
内容一致行数
|
与基准值比率
|
总行数
|
字段间内容存在性满足相互依存关系,如保持同时存在或互斥
|
表行数一致性校验
|
跨表级
|
不限制
|
规则命中行数
|
与基准值计算差值
|
比对表总行数
|
校验两张表的总行数是否一致,若两表总行数差值不符合阈值则视为异常
|
表唯一行数一致性校验
|
跨表级
|
不限制
|
规则命中行数
|
与基准值计算差值
|
比对表唯一行数
|
校验两张表的唯一行数是否一致,若两表唯一行数差值不符合阈值则视为异常
|
功能展示:
在【质量监控-新建监控】页面,选择【新建规则-模版规则】,在规则类型中选择【跨字段级】或【跨表级】。选择已存在的规则模版,并配置需要进行比对的字段或者表。如果当前的规则类型为跨字段级规则,可选择生成异常数据样本,在运行结果中可查看前1000条异常数据,结果保存15天。
1.4新版流程与协作中心上线
新版流协上线,除了完成子产品的对接外,还和报警系统进行对接,支持模板级别和节点级别的自定义报警、自定义超时审批通知、自定义超时关闭等新功能。
级别
|
通知对象
|
完成通知
|
通知渠道
|
模板级别
|
创建人+自定义跟踪人
|
创建成功:工单创建成功
审批成功:工单最后审批成功
审批失败:工单被终止
超时通知:工单创建后多久没审批完成
超时关闭:高级设置,超时通知N此后关闭,关闭通知管理员
|
邮件、电话、短信、微信等
|
节点级别
|
审批人+自定义跟踪人
|
工单到达:待办
工单撤回:待办被撤回
工单撤销:待办被撤销
执行失败:异步执行失败
超时通知:工单到达多久没审批完成
|
邮件、电话、短信、微信等
|
新流协还支持画布功能,用户可以自己通过拖拽方式绘制流程模版。
此外,自研画布支持自定义配置报警类型、报警渠道、超时报警、超时关闭配置等。
二、详细功能优化说明
2.1 数据传输
2.2 数据标准
2.3 数据质量中心
2.4 安全中心
2.5 指标系统
2.6 离线开发
2.7 模型设计中心
2.8 任务运维中心
2.9 数据地图
2.10 标签画像
2.11 实时计算