金融大数据平台新变革:以往使用的CDH和HDP系统面临全面的迁移,急需新的替代解决方案,是时候做出选择了。
来源:轻金融 作者:李静瑕
在“数据为王”的时代,金融大数据被誉为“待挖掘的金矿”,其价值已经成为共识。
自从2014年大数据首次作为国家战略被写入政府工作报告,金融机构不断引入大数据平台、构建大数据体系。
如今大数据早已成为金融机构核心竞争力的关键一环,其中,
值得关注的是,近几年数据中台兴起,成为金融行业的话题之王,大数据平台被谈论得相对较少。随着云计算、AI等技术的兴起与大数据的融合加深,大数据平台已经站在了新的关口。
01 新 关 口
大数据技术加人工智能等技术的应用,正在让银行的数据变成银行的高价值资产,推动科技赋能和场景应用创新,进而推动内部IT系统的重构和银行的组织架构变革。
“建立健全企业级大数据平台,充分释放大数据作为基础性战略资源的核心价值。”央行印发的《金融科技(FinTech)发展规划(2019-2021年)》曾提到。何为大数据平台?
根据2021年12月29日发布的《金融大数据平台总体要求》(下称《要求》)的定义,金融大数据平台是企业级、分布式、开放、统一的大数据平台,应包括数据接入、数据存储、数据处理、数据分析及数据服务相关组件。
而金融大数据平台的总体目标是帮助金融机构更高效、更快速地完成金融大数据应用的开发、部署和管理,从以交易为中心转向以数据为中心,以应对更多维、更大量、更实时的数据和互联网业务的挑战。
谈到大数据计算技术,不能绕开的就是开源大数据套件 Apache Hadoop。2008年Hadoop功能孵化完整之后,Cloudera(商业化公司)推出了自己的Hadoop发行版CDH(Cloudera’s Distribution Including Apache Hadoop)。CDH同样开源,但是在稳定性、管理、部署、运维等方面对用户更为友好,为Hadoop落地带来了帮助。
到了2011年左右,Hadoop技术进入成熟期,再加上互联网金融兴起数据量极速膨胀,传统的数据系统已经满足不了金融机构的需求,于是具有分布式特征的Hadoop系统进入到这些机构的选择清单。
而金融机构密集落地基于Hadoop的大数据平台,还要在两年之后。例如,农行在2013年开始建设自主可控的大数据平台,最终选定的就是MPP数据库+Hadoop混搭的架构;2014 年工行正式基于 Hadoop 技术建设了大数据平台。
2015年之后,移动互联推进客户行为模式加速变革,金融机构进入到数字化转型新时期,不仅仅是处理越来越海量的数据,而是要应对客户行为模式变化对客户数据进行分析,对客户进行精准营销等。此时很多机构将数据分析等功能切换到了Hadoop系统上。
当前大数据平台正站在新的关口。
一方面,Cloudera此前宣布在2021年底和2022年3月结束CDH6和HDP3的服务支持,转而推出新的产品CDP。这就意味着,金融机构以往使用的CDH和HDP系统面临全面的迁移,急需新的替代解决方案。
在这样的背景下,金融机构大数据平台该何去何从?就在这个新的关口,国内第三方金融科技厂商站了出来,凭借自身多年积累的能力和经验,提供丰富的金融机构大数据平台解决方案。
02 趋 势
除了行业环境的变化,大数据平台技术也呈现出了一些新的趋势,使得金融机构对大数据平台提出了更高的要求和使命。
另外是与AI的融合。如AI的智能算法等可以运用到大数据里面去,一方面大数据给AI提供数据上的支撑;另一方面,AI使用的一些常规的算法可以反哺到大数据平台上面,去结合大数据的数据特性,可以给客户进行精准的产品推荐。
IDC中国发布2021H1大数据平台市场份额报告显示,整体市场规模达54.2亿元人民币,相比去年同期增速为43.5%,“市场增长的驱动力来源于数字化转型、人工智能的部署、行业云的建设以及新基建的政策驱动等”。
例如,工行在2020年就开始建设大数据高时效类场景,即大数据平台内部除了批量计算之外,还需要实时计算、联机分析、数据API 等平台,缩短数据端到端闭环时间,形成联机高并发的访问能力,提升数据赋能业务的时效。
随着第三方厂商的加入,让金融机构在技术自主可控的层面有了更多的选择。国产化趋势给第三方服务商迎来战略机遇期。
大数据平台层实质上也是Hadoop发行版,相比社区版本集成了Spark最新版本且拥有完善的权限管控以及审计能力,可以大幅提高业务离线ETL效率。此外,数帆针对Impala组件进行了大量的功能增强以及性能优化,保障了使用过程中的稳定性以及性能。
值得关注的是,国产化产品能否满足金融机构的需求?金融机构如何选择大数据平台的新方向?
03 新 选 择
要回答这个问题,就要先理清金融机构目前需要什么。
例如,在控制成本上,某家金融机构自身IT技术实力较强,其集群十几个,节点数预计上百,现阶段数据平台有2-3百万软件合作的费用。另外使用CDH版本不再更新,需要专门培养一批团队负责维护,也会增加成本。
这就使得大数据平台的基础软件金融机构往往是选择第三方厂商产品。面对这样的情况,金融机构或继续往CDP迁移,或选择国产化技术的大数据平台基础软件进行迁移。
“金融机构对大数据整套系统的依赖性越来越明显。”网易数帆大数据基础技术平台负责人、资深架构师蒋鸿翔告诉轻金融,大数据平台是建立在一个低成本的服务器的基础之上,可以无限分布式扩展的,所以其成本、扩展性以及稳定性都是金融机构很好的选择。
除了产品本身,金融机构越来越注重第三方金融科技公司的实力以及产品的服务,强大的技术支撑,全面的生态兼容、及时响应漏洞修复、快速更新迭代等都是供应商需要具备的能力。
当然,从目前的环境下来看,国产大数据平台已经形成了如下优势,自主可控,将控制权掌握在企业自己手中;本地服务迅速响应、顺畅沟通;合作共创,深入业务,定制化需求支持。
以网易数帆的有数数据开发及管理平台为例,即拥有开源的底座,并且支持兼容CDH核心组件生态,且在此基础上根据技术发展趋势进行了部分组件升级以及扩展,支持金融机构的定制化需求,例如在一个标准产品的项目里,还能支持20%~30%的定制开发需求。
在与某证券公司共建大数据平台的过程中,网易数帆主要就数据管理、安全中心、数据标准、数据质量等几大子模块推动开发合作,同时会依据证券行业自身的特殊需求进行定制,如用户画像的增强、典型的交易日调度,即数据仅在交易日加工等,从而形成更符合行业特性的平台解决方案。
网易数帆金融大数据解决方案架构
同时,网易数帆还配套一站式数据中台及丰富数据产品。在大数据发行版底层组件的基础之上可供用户选择性提供一站式数据中台服务以及丰富的数据产品,方便业务开箱即用。目前,网易数帆已服务多家金融行业客户,包括某国有银行金融科技子公司、华泰证券、东北证券、华夏理财、华福证券等,落地性得到充分验证。
在大数据平台这个时间关口上线契合当前金融机构需求的产品,主要也来源于网易数帆在大数据领域深耕多年,积累了完善的大数据研发生态体系以及丰富的生产线运维经验。
在Hadoop还未问世之时,2006年网易就开始自己做分布式存储系统。2011-12年引入Hadoop体系,用来支撑邮箱、新闻等业务。到了2015年,为解决组件分散缺乏统一管理的问题,网易开始着手开发大数据平台工具,做了类似CDH的平台整合。2018年在大数据蓬勃发展之时,网易数帆开发了数据中台,成为面向各个BU的通用工具。
到现在4年时间,网易数帆也形成了一套数据中台的方法论。
本身技术过硬、产品兼容性强再加上服务的优势,网易数帆的大数据平台产品已经受到了多家金融机构的关注。
“很多金融客户,倾向于云计算私有化部署,所以数帆在金融行业大数据平台往云化部署的场景下稍微来说会慢一些。在非金融行业,其实我们已经往云平台方向去转了。”面对未来大数据平台云化的趋势,蒋鸿翔如是表示。
根据statista的测算,2019年全球Hadoop和大数据市场规模约在340亿美金左右,且5年复合年增长率高达28.5%。随着金融行业数字化转型的深度推进,金融机构对大数据依赖性越来越强,大数据平台的这块市场蛋糕还会越来越大。