摘要:本文总结了中小银行私有云需求及建设经验,并对未来发展方向进行试验性探索。一是通过虚拟化建设,解决资源利用率低、空间能耗大、资源成孤岛、资源提供慢、运维人员“救火式”工作、操作风险大等问题;二是通过云管理平台及自动化运维平台建设,实现IT资源的自动化、服务化、自服务的“云”管理,将企业管理理念、流程落地到平台中,降低操作性及合规风险;三是对私有云带来的能耗及空间占用的减少、资源及风险管理的趋严、高可用性及容灾建设的提高、开发运维关系的变化进行分析;四是在新技术新理念的支撑下,提出私有云未来应向业务能力服务化的服务云平台建设转变,融合多种技术进一步支撑、引领业务发展。
关键词:虚拟化;私有云;云管理平台;自动化运维平台
当前,云计算相关技术已经成熟,成为各行各业IT建设的主流。本文对中小银行多年的私有云建设经验进行总结,并分享笔者对新方向、新课题的探索。
一、挑战与机遇
近年来,随着农信规模不断扩大、业务不断增长,应用系统及设备的数量不断增加、数据中心能耗增加,IT建设面临种种挑战。一是烟囱式的建设造成设备众多、资源利用率低。二是设备占用空间大,用电、制冷等能耗高,无法做到绿色节能。三是IT资源形成孤岛,在业务高峰期,资源无法灵活调配。四是资源从规划到上线,需要3-6个月以上,影响了新业务开发进度。五是高可用性、灾备架构不适应新的需求,建设及改造难度大。六是运维压力大,存在大量“救火式”的重复劳动,运维人员无法提升自我和系统架构,造成了操作性风险大、多部门沟通协作困难等问题。七是各县域法人行社有大量的特色业务,其效率、安全性、隔离性、资源弹性要求较高,无法有效支撑。这些问题造成了运维成本高,阻碍了业务的进一步发展。IT运维部门迫切需要改革,实现从成本中心向价值中心的转变。
二、私有云基础架构
虚拟化将物理设备虚拟成虚拟设备,并整合成资源池,分享给使用者。从使用者角度看,这些虚拟设备和物理设备是没有区别的,实现了IT资源的动态分配、灵活调度、跨域共享,提高资源利用率。采用虚拟服务器代替物理服务器无须调整应用架构,是运维部门在难以获得其他部门支持时,可独立实施、平滑过渡的方案。实现IT资源的资源池化,应从数据中心全局角度考虑IT基础软硬件的高可用性架构。一是需要从整体考虑资源隔离,虚拟资源池应分布于防水、防火、供电、制冷系统相隔离、具有高可用性的不同机房。二是网络、计算、存储资源充分冗余,计算资源池还应设计30%冗余,满足虚机故障迁移需求。三是用传统高可用性技术在故障发生后恢复应用对外服务,实现应用高可用性,虚拟化技术用于故障发生后迁移故障虚机,恢复应用高可用性。要实现应用系统从物理机到虚拟资源池的平滑、安全、快速迁移。一方面,要利用虚拟化平台提供的P2V工具,实现物理机到虚拟机的迁移;另一方面,为减少系统停机时间,应结合应用高可用架构,进行应用拆半迁移(集群设备逐一停机迁移到虚机),其中采用主备架构应用需要一次不到半个小时的停机窗口,多活集群会造成部分连接中断或延时响应,但不会造成停机。
三、云管理平台及自动化运维平台建设
云计算是将IT资源作为一种服务,通过网络,随时、随地、不限设备、不限方式、不限渠道地按需供给用户的模式。因此,私有云需在虚拟化基础上,通过云管理平台(以下简称“云管”)及自动化运维平台建设,落地企业管理理念和云理念。(一)云管理平台建设。云管至少应包含用户管理、资源管理、服务交付及管理、容量及成本管理、运维功能及外部系统集成等模块,并应具有跨地域多数据中心统一管理能力。1.虚拟化资源的共享特性造成了隔离性、安全性、合规性的问题,因此在传统用户管理外,需增加租户管理模块。一是采用多租户技术,遵循一定的规范,实现租户间资源、数据、接口的隔离,租户内共享资源、数据、接口,并使用统一的服务等级(SLA)、资源等级(RLA)管理。二是设置租户管理员,采用配额管理的方式,在配额内,租户管理员可以自行分配、管理资源,实现用户管理的自服务,进一步降低运维压力。2.资源管理是云管对接虚拟化工具提供的接口,实现对网络、存储、计算、安全、负载等资源进行统一自动化的配置、分配、监控、计量、存量纳管等功能,以实现云管的其他模块对资源的交付、展示、管理等。3.服务交付及管理要实现资源按需、定制化、自服务式交付。一是通过资源管理模块实现单一资源的用户定制、自动化生成并交付。二是对多种资源进行服务编排,将多种资源按用户需求有机整合、共同交付。三是将经常使用的服务编排做成应用蓝图。四是将单资源、服务编排、应用蓝图等做成服务目录,在用户门户上发布,用户可以通过服务目录的“菜单”去“点菜”,实现资源获取的自服务。五是提供SLA,RLA管理、服务期限配置、日志留存、命名规范等合规管理及服务报告等功能。4.容量与成本管理是运维走向运营的重要一步,通过对资源使用情况及趋势进行分析,跟踪、分析、预测容量使用情况,提供容量管理功能,为资源池化管理提供支撑;通过对资源使用进行计量计费,实现对项目及产品的成本控制及收支计量等管理。5.运维提供了工单、流程、监控、配置、容量、报表、日志等管理功能,并提供报表统计、大屏展示等项目,辅助私有云的运维工作。6.外部系统集成对接用户认证系统(SSO)、运维、项目管理和OA系统,使得私有云在管理上和规范上向全行看齐,如图1所示。(二)自动化运维平台建设。一是实现作业调度,实现将开发、运维、测试的脚本、作业等,按照一定条件、顺序和编排在指定的系统中执行,实现自动化运维、巡检、系统备份、业务系统维护等操作。二是实现自动应用部署,按照编写好的事务,自动化地调用私有云接口、系统脚本、应用脚本及相关介质,自动化部署应用。三是实现应用的资源动态、灵活分配,在突发业务高峰中新增应用节点、配置负载均衡,在故障中按既定程序启、停节点,防止业务压力奔溃的“雪崩”效应。四是实现自动化的应急切换、自动恢复高可用性集群,以及自动化的灾备切换等,实现业务连续性。
四、带来的改变
(一)大幅提高资源效率,做到绿色节能。从多年建设情况看,资源使用率提高了6倍,物理机减少85%,空间占用减少了5倍,每年可节约50%的电费。(二)大幅提高效率、灵活性、可用性。实现IT资源的按需获取,资源提供从原3-6个月缩短至2个小时内,实现了灵活、动态分配资源,经受住了多个业务高峰的考验,减轻了运维压力,降低了操作风险,也为法人行社的特色业务开展提供了科技支撑。(三)极大地提高了高可用性。一是提供了可用于实现高可用性及灾备的新工具。二是虚拟化与自动化运维相结合,提高了高可用性。三是改善灾备建设方式,信息系统可通过配置数据快速在灾备端恢复。(四)改变了IT资源管理方式。一是原烟囱式建设变成基于容量分析、资源统筹的资源池管理方式。二是需要进行自动化、智能化运维工具建设,辅助人员管理资源、分析问题。三是在监控方面,需要应用、网络、虚拟机与物理机等全方位联合监控、关联分析,否则会出现虚机监控指标正常,但实际物理机资源耗尽、业务失败的情况。(五)改变了开发、运维的关系,迫切需要实现。DevOps一方面,开发需了解运维工具,以及资源的动态、灵活调度、自动化多中心部署等,复用自动化运维工具调整应用架构的实现。另一方面,运维需要前移到开发,需要培训新工具、讨论应用架构、提出系统自动化及智能化运维的功能需求等工作。
五、启示
随着我国经济发展进入新常态,移动互联网时代来临,金融科技浪潮的进一步冲击需要科技与业务之间进行联合创新来适应新环境。科技部门应利用微服务、中台等新理念新工具,实现业务服务能力的云化,提供快速创新和容错试错的能力。业务服务能力的云化建设,是一个需要从体制机制改革、科技组织配套建设、业务梳理到科技建设的全局性全行级战略的“一把手工程”。一是云化银行客户、数据、存、贷、汇等业务功能。一方面,为前台业务提供可编排、受管理、自动化、自服务、灵活动态的基础服务能力,如客户管理、信用管理、资金管理、贷款管理、支付清算、外联服务、流程管理、检索服务、数据服务、报表服务等一系列公共的基础服务能力。另一方面,通过服务编排,快速整合成完整的金融服务场景,实现敏捷开发。服务化可以通过以下6步方法论来实现:第一抽象化,定义企业所提供服务的本质,找到核心的业务服务能力;图1 IaaS云架构SDNHypervisor虚拟化层用户管理资源管理服务交付运维功能外部集成安全合规云管理平台物理资源池网络计算和存储安全负载均衡第二虚拟化,通过包括信息技术在内的各种技术,改造、改进企业科技架构,建设大平台,使之适合云化的服务供给方式;第三标准化,将服务标准化,降低推广难度、统一服务质量,奠定服务自动化提供的基础;第四资源池化,对服务资源进行集中控制、管理、供给、扩容、回收等;第五自动化,实现自动、高效、可靠、可扩展的服务供给方式;第六服务化,建设管理平台,有机整合资源、贯彻管理理念,提供对业务能力的云化管理,实现通过服务编排、发现及调度,快速定制行业务系统,各业务的资源自动化调度、高可用性、容灾也都作为一种服务,由平台编排、发现及调度,实现业务快速创新。二是以分布式的理念,对业务进行梳理,保障业务的多个子业务按照既定的业务规则并行同方向执行,保障数据一致性,提高系统性能及用户体验。进行业务的梳理分析,整理全行的业务、业务场景及目标客户、业务间的关联关系及业务内部使用到的服务等;对业务每一个环节的一致性、可用性的要求进行分析;基于以上分析结果,结合BASE的方法论,进行业务系统、流程的设计,设计统一的接口、调用及调度标准;结合异步、同步机制,进行分布式服务接口幂等性(同一事务多次执行结果和一次执行相同)、会话、锁、事务、搜索、缓存、消息队列、负载均衡、统一配置中心、存储、数据库分库分表、限流、熔断、降级等设计,最终达到一致性、可靠性、性能、分区容忍性及客户体验的有机统一。三是加强CD/CI及DevOps能力建设,实现在线的测试、验证、部署、回退能力,提供试错容错能力。四是建设贯穿全业务生命周期、自动化、智能化的一体化监控,为故障的自动定位与排除,资源、高可用性及容灾的自动化调度提供支撑。五是建立从科技管理、科技运维到科技运营转变的体系,更好地支撑业务,实现成本管理。
参考文献:
[1]邓厚.云计算数据中心中的虚机部署优化研究[D].合肥:中国科学技术大学,2018.
[2]NengHuang.ConstructionofHigh-AvailabilityBankSysteminVirtualizedEnvironments[C].IEEEInternationalconferenceondatascienceincyberspace,2017:561-568.
[3]喻德禄,郭世龙,丁树晶.中小银行基于微服务架构的应用服务体系研究与实践[J].中国金融电脑,2018(3):30-33.
作者:黄能 单位:福建省农村信用社联合社
返回银行论文列表