一、Tableau为什么退出中国市场的直接经营?
随着2022年Tableau退出中国市场的直接经营,很多专家认为是两方面因素所致:首先是国产化替代的大趋势,由于BI工具通常对接的是企业核心数据,基于对数据安全的保护,境外公司所研发的BI工具逐渐会被国产软件所取代;其次,Tableau自身在经营上也面临挑战,特别是在亚太地区,其收入在Salesforce整体营收中的占比甚至不足10%。
此外,国内BI市场的迅猛增长,本土企业为了在激烈的市场竞争中保持领先地位,不断寻求产品功能的创新。然而,Tableau的产品主要集中在数据分析和可视化领域,这在国内市场中显得有些局限性。它未能在数据整合、数据加工、数据治理、数据分析以及数据大屏展示等多个关键领域实现突破,这在一定程度上影响了其在国内市场的适应性和竞争力。
在一众国产BI产品中,有数BI秉持着让客户用好数、会用数、用得放心的责任和使命,通过更有效的本土化和企业级能力,为国内各行业头部客户提供优质服务。
基于此背景下,我们撰写了这篇有数BI与Tableau的产品对比文章,也欢迎各位积极留言与我们讨论如何打造更适合中国企业体质的数据分析利器!
二、有数BI与Tableau的渊源
有数BI的火种始源于2014年的网易,彼时国内数据分析的东风尚未兴起,数据可视化应用的发展处于黎明前的萌发阶段。
网易敏锐捕捉到了各厂商关于数据分析的潜在需求,于是果断立项了一个研究项目,在这个项目中网易研究了国内外数据分析的需求情况、以及当时市场中的数据分析产品,确认了这个有着巨大市场的蓝海,并发现了代表着当时最先进可视化科研能力的Tableau。
当时的Tableau发展如火如荼,处于市场领头羊的地位,其背靠的华盛顿大学IDL实验室更是给Tableau构建了坚固的技术护城河。
在此背景下,网易联合浙江大学,一同对Tableau的底层原理和技术进行了持续且深刻的研究,调研了Tableau发布的所有科研论文和相关理论,最终在 2015 年依照《The Grammar of Graphics》的核心理念「图形语法」研发出了一个技术Demo,这个Demo就是有数BI的最初版本,有数BI由此正式立项。
立项之后,有数BI持续推进Tableau的各类核心功能的研究,计算字段、智能推荐、度量名称、参考线、参数、表计算等核心功能应势而生。随着项目的持续推进,「LOD」和「关系模型」这两块硬骨头也被有数BI啃下,使有数 BI成为国内首家完整实现LOD和关系模型全部功能的数据分析产品。
当然,随着有数BI与国内各大公司合作的展开,网易也深刻理解到了国内用户在很多细分领域的实际需求,因此许多本土化能力也在不断跟进,例如数据填报、数据表格、数据门户等子模块,以及复杂权限控制、物化视图、智能缓存等重要的企业级能力,都帮助有数BI在大大小小的国内公司中成功落地,并持续产生业务价值。
三、有数BI与Tebleau的核心能力对比
3.1 图形语法
有数BI和Tableau的底层核心原理均来自《The Grammar of Graphics》(Leland Wilkinson 著),这本书描述了如何使用一套名为「图形语法」的代数结构来描述所有统计图形。 借由图形语法理论,我们可以在底层使用统一的「语法」,自底向上形成复杂的复合图形结构。由此可以让有数 BI 的图形具有更好的可解释性、可维护性、可扩展性,而用户则可以在交互上通过简单使用拖拉拽即可得到各式各样的统计图形。
有数BI和Tableau都基于透视结构+图形语法进行图表构建:
在图表的行和列上均可以拖拽多个维度,形成「坐标系」,将分别根据维度成员对结构进行分层划分,从而产生行或者列上的「透视结构」;
图形面板上可以设置「图形标记」,并设置「颜色」、「尺寸」、「细分」、「标签」、「提示」、「形状」、「角度」等视觉通道属性,对透视结构下单个图形的视觉信息进行编码。
下面是有数BI和Tableau在不同的图形配置下的示例:
3.2 数据模型
有数BI的「数据模型」和Tableau理念相同,均由多个数据库原始表或自定义SQL关联而成,用户可以自由设置这些表的关联方式。而在界面下方可以看到模型产生的各个字段及相应的元信息,并根据需要对现有字段进行调整或创建新的计算字段。后续制作的报表均以数据模型为基础。
3.3 字段Pill
有数BI和Tableau均将模型中的字段称为 Pill,来源是字段在图表上的形状形似一颗药丸。
每个字段都有三种基本属性:
数据类型:分为 整数、小数、字符串、日期、日期时间、布尔,共 6 种;
数据角色:分为 维度、度量,指的是字段在查询时是作为分组字段(维度)、还是作为聚合字段(度量);
数据解释:分为 离散、连续,指的是字段的不同数据之间的是无序孤立的(离散)、还是有序相对的(连续)。例如整数 0、1、10、100 可以被解读为 4 个孤立的值,也可以被解读为有序数轴上的 4 个有确定间隔的位置。离散字段和连续字段使用蓝色和绿色进行区分。
有数BI和Tableau均可以针对字段创建数据字典、数据组、数据桶:
数据字典:可以将字段成员项映射为其他值;
数据组:可以将字段成员分为若干组;
数据桶:针对数值字段按照固定区间将数值分在相应的桶内。
3.4 计算字段
有数BI和Tableau均支持新建计算字段,并且设计的函数重合度较高,交互设计也类似。有数BI共支持150+个计算字段函数和语法。
3.5 表计算
有数BI和Tableau均支持表计算,当用户希望在图表聚合数据的基础上进行二次聚合计算时,可以使用表计算。
表计算需要指定「分区维度」和「寻址维度」,其中分区维度用来做分组(即将相同的成员分在同一个组内),每个组内依据寻址维度来计算结果。计算方式有很多,比如当前行与上一行的差值、当前行占分组内整体的百分比、当前行在分组内的排名等等。
如果希望在表计算的计算基础上再一次进行聚合计算,那么可以使用「二次表计算」功能,计算逻辑和第一次表计算相同,只不过是在第一次表计算的结果表上进行的。
而由于表计算需要指定分区维度和寻址维度,因此当图表的行列维度发生变化时可能造成计算问题,为此有数BI 和Tableau均支持「动态表计算」,即可以指定以图表的行、列、图形面板上的全部维度或者它们的组合来作为寻址字段,这样就可以在查询时动态调整表计算依据的维度。
另外,产品交互上也提供了几个快捷选项,帮助用户更快地设置几种常见的表计算计算方式,也即「快速表计算」功能。最后,有数BI支持在计算字段中书写表计算逻辑,包括了许多表计算函数可供使用,可以提供给用户完成更灵活的计算逻辑。
3.6 LOD
有数BI和Tableau均支持LOD,并且语法相同。
{FIXED 维度: 度量}
{INCLUDE 维度: 度量}
{EXCLUDE 维度: 度量}
当图表中的维度确定后,所有度量都将在该维度粒度下进行分组聚合。但如果此时我们希望同时看到其他维度粒度分组下的度量聚合数据,就需要LOD。LOD是跨视图粒度查询的大杀器。
但Tableau在设计的时候,规定让FIXED在使用时不会受到普通维度筛选的影响,这样可以支持更多使用场景,但大多数情况下用户使用的筛选器的优先级其实都不高,所以实际使用时会经常需要提高筛选器的优先级,来让筛选器能够作用到FIXED中,或是新手用户不知道这个设计时极其容易产生误用,影响数据结果。
为了解决这个用户经常碰到的实际问题,有数BI在Tableau的完整LOD功能基础上,额外支持了L-FIXED语法,使用L-FIXED来代替FIXED时,可以让其受到所有维度筛选的影响。
3.7 关系模型
有数BI和Tableau均支持关系模型,关系模型用来解决表关联产生的数据膨胀问题。在表关联的时候,如果关联字段存在重复值时,那么在关联时就会使得数据量翻倍,由此导致后续的数据分析不准确。
关系模型由逻辑层和物理层组成,其中物理层和普通模型相同,需要指定物理表之间的关联方式(内关联、左关联等),查询是以关联后的「宽表」整体为基础进行的;但在逻辑层,只需要指定逻辑表之间存在「关系」及建立关系的字段,而不必事先指定关联方式,查询时只会使用查询字段涉及到的逻辑表,并根据具体的查询情况自动确定逻辑表之间的关联方式。
这种设计可以使得查询度量的数据完整,并能避免数据膨胀。实现关系模型的核心难点在于查询SQL的设计,过程中需要合并考虑LOD的实现,难度很大。有数BI是国内首个完整实现关系模型全部功能的产品。
3.8 度量名称/度量值
有数BI和Tableau均支持度量名称/度量值,且用法相同。当我们想要让多个度量共用一个轴时,可以使用度量名称和度量值,其中度量名称是一个维度,其成员是选中的若干度量的名称,度量值是一个度量,是选中的若干度量的值。
3.9 参考线
有数 BI 和 Tableau 均支持参考线。 可以对每个数值型度量添加参考线,并可设置它们的:
种类:可设置 线、区间、分布,制定了参考线的种类;
范围:可设置 全局、单图、单元,指定了参考线的应用粒度;
类型:可设置 固定值、计算值,指定了参考线的计算依据类型;
计算依据:当类型为 计算值 时,指定参考线的数值由什么度量计算而来。
3.10 参数
有数BI和Tableau均支持参数。在业务中常常会有这样的场景,希望报告的不同阅览者在不同时间或者场合下让字段有不同的值,这时候就需要「参数」来实现。
参数是一个常量,但它的值可以在阅览报告时临时调整为任意需要的值。常见用法是在计算字段中引入参数字段,并配合业务逻辑书写表达式来使用。 有数BI的参数候选项可以在定义参数时声明,也可以使用模型字段进行动态值绑定,还可以使用计算字段设置参数的默认值。除此之外,有数BI还支持设置全局参数,可以在项目级别定义参数,并引入在自定义SQL中使用。
3.11 图表推荐
有数BI和Tableau均支持对图表的绘图类型、字段配置进行智能推荐,使用逻辑也基本一致。
3.12 数据准备
有数BI支持「数据准备」功能,其核心和ETL类似,是在数据建模前对原数据进行加工转换清洗、以更好地进行数据建模和分析的工作,有数BI支持很多类型的节点,例如 输入、清洗、关联、合并、聚合、行转列、列转行、行扩展、采样、内部输出、外部输出等。Tableau针对数据准备由专门的一款产品Tableau Prep完成,交互形式和有数BI非常接近。
四、有数BI的本土化&企业级能力
4.1 企业级集成能力
组织架构
统一维护组织架构,也可以直接通过开放接口来同步数据:
可以在权限、推送、预警等场景中使用组织架构:
可以在行级权限中使用组织架构:
自定义审批流
在数据填报等需要审批的场景中,支持企业自定义审批流程
分级授权
有数BI支持设置自定义管理员角色 分
级授权:项目管理员-管理角色分级授权,大型企业多事业部权限分管利器。
权限分离 :所有权、使用权分离,安全更有保障,效率更高。
更开放更易于集成
有数BI支持OEM模式,支持全站集成和模块粒度集成,支持丰富的API、单点登录
4.2 性能
物化视图
数据查询不是命中缓存就是落库查询,物化视图将图表需要查询的数据从一个逻辑宽表物化成一个物理单表,再结合MPP中CK引擎突出的单表查询性能,使得图表落库查询性能可以有质的飞跃
物化视图功能点:
智能缓存
基于数据产出和用户行为的预缓存机制,首访缓存命中率90%以上,也就是说用户早上第一次打开报告的时候就会命中缓存,使得大部分报告可以毫秒级打开。
数据医生
有数BI提供数据医生工具,支持用户进行自助式的性能优化,通过该工具用户可以知道哪些图表有性能问题、问题的原因是什么以及如何解决这些性能问题。
4.3 产品矩阵
数据门户
功能说明: 通过灵活地组件框架以及数据能力帮助用户搭建不同行业不同场景的数据产品,全方位展示数据分析结果。
功能特性:
零代码构建多终端门户:零代码方式构建数据门户,支持自定义构建独立的桌面Web端数据门户和移动端数据门户,满足不同门户使用场景。
灵活集成:灵活集成数据可视化、数据大屏、自助取数、数据填报等应用,解决新业务快速从零开始搭建门户的难题。
组件丰富,自定义能力强:将常用的门户组件产品化,提供丰富的主题模板和强大的自定义能力,品牌、域名、目录、logo均可自定义调整。灵活匹配业务特色,用户搭建数据门户快速、简单、高效。
自助取数
功能说明: 面对变化频繁的数据需求,无需等待开发部门排期,拖拽式操作即可快速获取数据,灵活自由进行数据探索与分析。
功能特性:
取数不求人:可视化取数与SQL取数双模式并存,同时满足数据小白的简单快速取数诉求和数据开发/分析师的专业取数需求。
灵活、大数据量:支持保存取数模型并与其他模型再关联再取数,支持跨模型筛选,满足灵活自助的取数需求,高性能取数引擎支持超大数量导出。
一站式数据查询及应用:即查即用,一站式查询分析,查询结果一键生成BI报告,也可推送至不同系统。
数据表格
功能说明: 自定义报表,跨源融合,轻松开发中国式复杂报表。
功能特性:
丰富报表功能:支持统计表、交叉表、明细表查询;支持不规则分组、动态格间计算等报表需求。
支持跨源融合:支持多种数据源融合,一次建模多处共用,有效解决数据分散及数据壁垒问题。
交互式操作体验:类Excel交互,支持零代码设计,拖拽点选、快速响应、即时生效、灵活调整,简单易上手
数据大屏
功能说明: 融合BI报告能力,1小时快速生成酷炫大屏,极大程度满足用户会议展览、业务监控、风险预警、地理信息分析、3D园区等多种业务的展示需求。
功能特性:
专业的3D模型、时空数据可视化:背靠网易游戏渲染引擎技术,支持专业的3D模型可视化。同时通过3D地球、行政地图、街道地图模块实现丰富的时空数据可视化,并可通过标记/填充/飞线/热力等数据图层生动融合业务数据。
多样的数据接入与处理:依托有数BI跟大数据平台,支持静态数据、API接口、关系型/分布式数据库、人工录入等多种数据接入形式,实现零代码完成数据的轻加工。
开放集成、灵活部署:支持接入Echarts、Mapbox、Unity3D,并可上传自定义组件,灵活满足企业的个性化需求;支持在线加密发布、私有部署、离线导出独立运行等灵活的部署使用方式。
简单易用在线编辑:拖拉拽式的操作模式,任何用户都可快速完成可视化展现,无需依赖繁重的代码开发,自助完成大屏设计