网易数帆小助手

个人签名

280篇博客

鏖战应用多活,网易数帆为金融行业数字化“上保险”

网易数帆小助手2023-03-24 18:00

金融业务经营的核心是风险管理,这是金融行业的共识。对于金融科技从业者而言,基础设施的风险管理是一个永恒的课题,特别是当前数字化成为金融行业的主旋律,场景金融探索加速,几乎所有类型的应用都有可能接入金融服务,这既增加了金融系统稳定的影响范围,也带来了更高的技术复杂性。

好消息是,技术的发展使得这个难题有了新的解法。作为一家长期致力于云原生、大数据等前沿技术推广应用的公司,网易数帆在这一领域积累了丰富的实践经验。基于这些实践,在近日举办的ArchSummit全球架构师峰会上,网易数帆云原生技术专家翁扬慧分享了如何通过金融级分布式平台支撑架构演进和稳定性建设,给金融业务稳定运行加上一套“保险”。


合规为本,安全可控是基础

总体来说,我国金融行业IT基础设施稳定运行的风险管理包括两重含义,其一是对大家所熟知的“卡脖子”问题的应对策略,其二是系统本身的高可用以及容灾方案。高可用即保持业务持续运转的系统能力,本质上是通过增加备份,或者说冗余来实现,高阶的冗余架构是异地多活。然而,脱离了第一个前提,再好的多活系统,仍然存在一朝归零的风险,因为所有的备份都有可能“被罢工”。

由此,网易数帆多活系统在设计之初就提出两个关键原则:第一,技术自主可控,信创支持;第二,符合金融级安全规范等级要求。

这也是网易数帆打造金融行业多活方案的基本思路,首先以自主技术可控作为基本原则,选用全栈自主可控软硬件,如鲲鹏、海光、飞腾芯片,麒麟操作系统,达梦、KingbaseES数据库等,在国产化软件基础上构建完整的技术方案。当然,不论考虑当前技术能力还是遗留资产的处理,一蹴而就完成信创化并不现实,故而网易数帆的多活系统在平台设计上支持“信创”和“非信创”单元混合部署同时提供服务,从而支撑用户业务架构的平滑演进。

第二点也不难理解,于2021年发布的金融行业标准JR/T 0209-2021,填补了金融信息系统多活技术规范应用策略的空白。该标准依据金融信息系统业务连续性和灾难恢复要求,从业务接入层、业务处理层、数据存储层三个层次分别提供要求与指导。网易数帆在多活系统设计时选择严格遵循这一标准,可以更好防范系统运行风险,提高金融服务水平。

创新为纲,应用多活分散风险

单元化架构能够满足当前金融级系统的连续性要求和金融技术规范监管要求,但需要技术能力护驾。所谓“单元化架构”,是把业务按照一定的分片规则拆分到不同的单元进行处理,可以更好地按照地域资源去分散业务负载。落地这一架构的主要困难有“三高”:系统建设成本高,业务改造成本高,平台维护成本高。网易数帆通过平台化设计和技术创新来应对这三个问题,从而支撑金融业务的多活架构建设。

网易数帆轻舟云原生平台基于金融级的高要求,结合团队多年的项目支撑经验,沉淀出了一套完整的多活产品体系和解决方案,按照金融信息系统多活标准的分层架构,云原生平台在业务接入层里面提供了全局负载均衡方案、接入网关等,在业务处理层提供了多活管控、微服务框架、服务网格、分布式事务、注册中心、配置中心、日志管理、以及中间件等多个多活能力增强的产品,在数据存储层提供了数据同步等配套工具。这一方案分解了技术复杂性,有效降低了业务的落地成本,也通过了中国信通院首批应用多活先进级认证。

其中的关键技术设计,以接入层为例,作为平台多活能力核心支撑,网易数帆在接入网关提供基于单元化路由的能力,根据用户自定义的分片规则对流量进行解析,并最终找到它的目标单元进行转发。作为接入网关,它也要能够支持跨单元的转发能力,例如一些金融行业转账业务往往会发生在不同的单元,所以接入网关要根据流量负载将请求转发到同机房,甚至是跨机房的目标单元(出于链路性能考虑,默认开启同机房优先路由),此外还具备单元快速扩缩容和单元维度监控、治理等能力。

为了保证整体架构的稳定升级,网易数帆还总结出了架构演进过程中的一些关键步骤,包括架构设计、业务梳理、业务改造、并行验证、故障演练、流量调拨和回归验证等,在整个实施过程中也会遇到很多技术难点和挑战,同样需要团队具备丰富的技术储备和项目经验的积累。

实践为要,深耕行业打磨产品

作为风险管理的常规操作,来自互联网的软件基础设施技术要在金融行业应用,自然需要考量水土不服的风险。

根据网易数帆的经验,金融行业相比互联网行业在落地场景、驱动因素、设计要求、集成能力、规范要求、安全要求方面都有更高的要求,比如金融行业多活架构设计往往是整个分布式体系能力建设,甚至是小机下移项目的伴生需求,且金融行业对于业务的长期验证有着更加科学的方法和措施。

网易数帆金融级云原生平台多活设计是基于金融行业实践不断打磨产品能力,其中引入了金融客户共建模式,而非纯粹的单一产品交付模式。由此既加速了客户项目落地,也提升了团队和产品能力。近年来,网易数帆云原生平台产品已成功应用于两家国有大行、十余家中国金融百强客户,平台能力正是在这些客户项目中不断得到升华,其中包括了国有大行小机下移项目。

回顾行业动态,大型公有云宕机事件年年发生,今年1月缺乏高可用设计的数据库导致全美国飞机停飞的教训犹在,3月头部股份制银行业务全面切换至分布式架构的案例让业界振奋,由此可见技术架构升级趋势不可逆转,也不可大意,金融行业基础设施必将在谨小慎微中不断升级,而网易数帆源自长期实践的金融级架构能力已经经受考验,成功为金融企业推进数字化基础设施升级并满足自主可控与监管合规需求支撑业务创新上了一重保险。