行业背景
如何在架构升级过程中完成已有运维体系向新运维体系的平滑切换,及如何在新的云原生架构下继续保障和提升运维能力,
是当前银行运维所面临的挑战。
业务连续性
早在2011年,原中国银行业监督管理委员会(银监会)就发布了《商业银行业务连续性监管指引》
数字化转型
中国人民银行金融科技委员会2020年第一次会议强调,要贯彻落实《金融科技(FinTech) 发展规划(2019-2021年)》,引导金融机构加快推进数字化转型,持续增强科技应用能力。
金融信创
金融信创的顶层设计叠加金融产业数字化的趋势,以数字化+信创为契机,“金融信创”发展的核心在于通过金融行业应用拉动构建金融信息技术底层架构体系的国产化,实现软硬件的国产替换。金融信创预计2022年将进入全面推广阶段,与党政信创形成共振
安全运行
中央金融工作会议明确指出要做好科技金融、绿色金融、数字金融、普惠金融和养老金融五篇大文章。国家金融监督管理总局2024年《关于加强银行保险机构重要信息系统安全运行管理的通知》要求加强重要信息系统安全运行管理,保障关键业务和服务持续能力。
大型商业银行IT运维现状分析
背景
大型商业银行通常规模庞大,业务
覆盖广泛,系统架构复杂,客户群
体庞大且多样化。随着金融科技的
快速发展和数字化转型的深入,银
行面临着日益复杂的IT运维挑战。
这些挑战不仅来自于技术创新和市
场需求的不断变化,还包括政策和
法规的要求,如国产化替代、安全
稳定等。
现状
大型商业银行的IT架构基本实现了云化,目前在向分布式架构、信创改造演进。运维层面面临用户体验管理、系统升级与稳定性、国产化替代以及数据整合的多重挑战。随着金融业务的数字化转型,监控对象涵盖机房基础设施、网络、平台、应用和安全等多个领域。传统监控和应急手段难以支撑分布式架构下的运维能力,当前的监控系统存在数据分散的问题,监控数据孤岛现象严重,且大规模的设备和监控对象导致监控数据量庞大,处理复杂。
第三阶段:全面掌控
运维可观测能力不足:实例规模成倍数增长,系统运行状态指标繁杂,指标规范化不统一,运维可观测性不足,无法快速定位解决问题
数据孤岛问题:不同专业条线的监控数据分散,难以实现统一接入和整合.
计算能力要求高:需处理海量、复杂、多变的数据,建立通用化的告警规则配置和数据处理能力。
响应效率问题:大量的告警信息和复杂的数据计算导致告警处理效率低下,影响问题的快速响应和处理。
股份制商业银行IT运维现状分析
背景
股份制商业银行在业务创新和技术应用方面通常走在前列,积极引入微服务架构和新兴技术,以提升业务灵活性和市场竞争力。然而,随着企业数字化转型的推进,业务规模快速扩展,各类创新业务不断上线,银行IT系统的复杂性日益增加。这种背景下,银行面临着如何高效管理和优化运维的多重挑战,尤其是在确保系统稳定性和成本控制的同时,支持业务的持续发展。
现状
在IT运维中面临微服务治理、工具整合和容量规划的多重挑战。虽然微服务架构的引入提升了系统灵活性,但全链路问题的快速定位和根因分析仍然困难;各类创新业务的频繁上线导致运维工具独立建设,形成“烟囱式”结构,缺乏统一的智能运维数据平台,难以实现运维指标的统一监控和管理。此外,随着业务量的快速增长,精准的容量规划和成本控制也变得尤为紧迫。
挑战
微服务治理与根因分析:股份制银行通常比较积极地引入微服务架构,但在快速扩展的过程中,如何实现全链路问题的快速定位和根因分析是运维的一大挑战。
工具整合:各类创新业务不断上线,导致运维工具各自独立建设,形成“烟囱式”结构,缺乏统一的智能运维数据平台进行工具的整合,从而实现监控和管理运维指标的统一
容量规划:企业数字化转型过程中,业务量迅速增长,带来容量需求的大幅增加,精准的容量规划和成本控制变得尤为重要。
城商行IT运维现状分析
背景
城商行在过去的几年中,伴随着业务的逐步扩展和本地化金融服务的深化,逐渐增加了对信息技术的依赖。然而,在IT运维能力和基础设施建设上相对薄弱。随着业务复杂度的提升,IT运维体系面临越来越多的挑战,特别是在故障分析、监控和工具整合方面,逐渐暴露出短板。
现状
城商行的IT运维现状表明,其在多个关键领域面临挑战。首先,由于缺乏全面的故障影响分析能力,银行在故障发生时难以及时判断其对业务和客户的影响,导致响应速度较慢。其次,运维数据分散管理,缺乏统一的运维指标管理能力,使得难以通过指标关联来有效评估业务健康状况。此外,运维工具多为逐步叠加建设,形成“烟囱式”结构,缺少一体化平台来统一监控和管理运维指标,导致整体运维效率较低。
挑战
故障影响分析:缺乏对故障的业务和客户影响范围进行全面分析的能力,难以快速判断和响应故障。
监控与场景化落地:运维数据分散,缺乏统一管理运维指标的能力,难以基于指标关联对业务健康度进行评估。
工具整合:在运维工具建设上多为逐步叠加,存在工具烟囱式建设的问题,缺少一体化平台来实现监控和管理运维指标的统一。
农村商业银行IT运维现状分析
背景
农村商业银行(农商行)在提供地方金融服务时,面临着特定的环境与资源限制。特别是在新核心系统上线以及云原生、分布式架构引入的背景下,服务的复杂度增高,对于运维的挑战增大。此外,农商行在服务瓜农、普通百姓等特定客户群体的过程中,手机银行成为了理财和资金管理的关键渠道,确保优质的用户体验直接关系到客户的满意度与业务的增长。
现状
在IT运维中面临系统稳定性、故障定位和用户体验三大挑战。面对农村地区网络不稳定的环境,确保引入的新核心系统具备高效性和稳定性是首要任务。同时,当前缺乏有效的手段进行全链路故障定位与分析,尤其在涉及惠民业务时,故障排查和处理的效率亟待提升。此外,手机银行的用户体验对于农商行至关重要,任何体验问题都可能直接影响客户满意度和业务增长。
挑战
系统的实时性和稳定性:在引入基于云原生和分布式的新核心系统时,农商行需要在有限的IT资源下确保系统的高效性和稳定性,尤其是面对农村地区网络不稳定的挑战。
故障定位: 缺乏有效的手段进行故障的全链路定位与分析,故障处理的效率和精准度有待提升,特别是涉及涉及(瓜农贷、草莓贷)这类惠民业务,出现问题需要快速排查和定位;
手机银行用户体验: 瓜农、普通百姓等通过手机银行进行理财和资金管理,良好的用户体验直接影响到客户的满意度和业务增长。
人机交互系统真实用户体验监测
背景: 手机银行、网上银行、信用卡、超级柜台、柜面系统、扫描支付等数字终端是银行提供给用户进行交易的不同渠道,用户使用以上渠
道的体验好坏直接关乎银行客户群体的留存以及业务损失;
实现路径:听云可观测分析平台可实现银行对外业务系统的从用户侧到服务端、网络端、基础组件侧的全链路监测,实现故障的提前发现、
及时预警、故障快速定位,全面优化银行业务体验,提升企业品牌形象。
金融行业VIP用户体验保障
背景:行内高净值或重要的VIP客户是银行重点要保障用户体验的VIP客户,很多时候缺少有效手段实时感知用户体验,特别是当VIP用户体验较差
时会严重影响客户满意度。
实现路径:通过制定VIP用户告警策略,当VIP用户体验低于预警策略时发送告警,实现主动感知来避免投诉,抢在投诉前可进行用户关怀。
金融行业客户投诉溯源
·背景:面对行内真实用户投诉时,用户的描述往往过于主观,研发及运维人员无法根据投诉内容精准定位用户异常问题。
·实现路径:通过用户标识能够快速检索该用户发生过的所有异常问题,了解每个异常问题的用户使用流程还原问题现场,从而精准定位异
常问题发生时间、异常问题类型及异常问题根因。
基于用户旅程端到端体验监控
背景:传统银行存在“部门银行”现象,很多部门往往只看自己这一段流,从局部看,每一段流程都是最优的,但整个流程走下来,客户体验却不好。
·解决路径:统一平台数据协同,可视、交易特征等,实时通过智能化模型化平台,打破银行部门割裂,助推银行实现”以用户为中心”的数字化运营战略转型。通过用户旅程监测指标,银行可以根据用户属性精准筛选用户,在用户旅程的路径上进行精准推荐,针对特定行为特征显著的用户,例如用户大额资金转出,提供理财、生活服务等产品服务推荐,实现数字化运营留客、活客,通过用户旅程监测指标动态反映用户旅程过程。
鸿蒙原生应用体验监控
背景:在金融信创背景下,截至2024年年初,鸿蒙生态设备数量已达8亿,已有数千个企业和机构启动了鸿蒙原生应用开发。由于鸿蒙应用属于
新语言、新系统、新框架,上线后存在很多不可预期的BUG,研发需要进行针对鸿蒙应用的异常管理;如何评估用户体验,用户感知情况是否有下降,缺少有效的手段;
·解决路径:基调听云HarmonyOS NEXT SDK采用非侵入式嵌码策略,利用HarmonyOS提供的系统特性和开发框架,实现对应用性能的监控。SDK在应用编译和运行时均不修改用户的业务代码,确保监控过程的透明性和用户代码的完整性。
事件订阅机制
注册监听应用程序生命周期、用户界面渲染、系统资源使用等关键性能指标
网络请求监控
捕获网络请求的发起、执行
和响应过程,实现对网络性
能的监控
基础信息
设备型号、设备厂商、应用
名称、运营商、网络类型、
连接类型、系统版本等
银行互联网业务模拟监测
背景:银行有比较完善的内网网络监控体系,但因为缺乏外网监控手段,对于内网外的真实用户访问无法感知。
实现路径:通过主动式拨测监控,实现先于真实用户发现影响用户体验的可用性和性能问题,从而覆盖最终用户到行内入口这段监控盲点。
·场景一:模拟演练
·提供监测资源丰富的节点
·对比分析
·记录故障信息、截图
场景二:业务可用性监测
·7*24小时监控业务可用性
·模拟真实用户访问
·发现业务性能瓶颈
场景三:竞品分析
·帮助客户及时了解友商对比效果
·快速出具对比报告
·为优化提供有效建议
场景四:劫持监测
·发现网页弹窗、整站跳转
·记录劫持URL、保留截图
·及时发出警报信息
场景五:IPV4/IPV6对比
·IPV6业务升级评估
·IPV4/IPV6差距对比
·优化业务,提升服务质量
场景六:告警问题定位
·提前发现业务瓶颈
·警报及时通知,有效提升MTTR
·多途径的警报通知
模拟演练场景-测试场景介绍
背景:金融机构的网络安全面临多重威胁,传统防护措施可能无法应对大规模攻击或网络瓶颈。为了确保业务连续性,银行需要定期开展
模拟演练,验证防护措施在各种攻击场景下的有效性。
实现路径:在模拟演练中,银行借助运营商清洗服务或云服务等手段来应对潜在的网络威胁。听云Network在演练中发挥重要作用,帮助
银行实时监测和验证这些外部服务的响应能力,确保在实际威胁场景下,防护措施能够有效运行并迅速恢复
银行IPV6业务质量监测
背景:各企业为响应工信部、网信办发布的《IPv6流量提升三年专项行动计划(2021-2023)》行动目标,在IPv6升级改造过程中,需要一套拨测系统及时了解自身IPv6的改造情况及性能劣化情况。
实现路径:听云Network监控为IPv6改造提供有效的三方视角支撑,很好地满足人行IPv6改造的性能监测、效果评估等要求。整体看IPv6更优,但整体外部IPv6环境还不稳定,偶发性出现IPv6路由问题,通过监测发现并告知运营商。
手机银行APP竞品分析服务
背景:手机银行等App的用户体验在行业内处在什么位置?通过对标评测,建立和完善用户体验指标体系,为优化和迭代App质量提供数据依据。
实现路径:通过部署在全国范围内的真实手机终端,提供真实网络环境下的评测服务,并根据测试数据提供前端用户体验的优化和改进建议。
感知“快捷支付”业务状态,提升用户体验
背景:作为银行的重要业务,快捷支付能够增强银行在支付市场的竞争力,吸引更多客户并增加营收。然而,当快捷支付系统无法进行实时监控时,系统故障往往只能依赖客户反馈才能发现,如微信等渠道中的状态异常。这种滞后的故障发现机制严重影响了客户的支付体验。
实现路径:通过APP主动拨测业务,主动模拟“快捷支付”操作,实时监测业务的可用性和性能,第一时间发现系统问题,从而显著提升了客户体验和系统响应速度。
手机银行交易全链路追踪分析
背景:手机银行交易级别链路,如转账链路、理财链路等为行内核心业务,当交易链路出现故障时,必须要在5分钟内发现及定位,交易业务特点为用户访问量大、业务量大、使用频繁、在传输过程中数据量比较大,容易产生延时、业务逻辑复杂,遍历节点多,节点之间协议复杂等特点
实现路径:通过交易全链路监控实现端到端的全节点覆盖,并实现单用户、单笔交易维度的追踪分析
事务追踪拓扑、代码调用栈、异常分析、SQL 分析/NoSQL分析、参数和上下文信息和数据项、智能分析、日志溯源
多源数据整合
背景:银行在架构升级应用微服务化的过程中,建设了一部分监控,如使用Skywalking或基于OpenTelemetry协议自研探针来实现微服务监
控,但由于skwalking探针局限性及自研需要投入大量人力开发的情况,且Agent都是基于OpenTelemetry协议数据格式,在不浪费之前投
入且可要引入新的监控能力。
实现路径:使用听云可观测分析平台把Skywalking、Opentelemetry探针、听云Agent数据等其他第三方数据通过Opentelemetry标准接
入进来并做数据整合展现,实现多数据源的拓扑打通、链路打通。
银行“敏态”+“稳态”双态模式全链路追踪
背景:行内因为部署环境复杂多样(如大型机,x86服务器,容器等),核心系统:如二代支付系统、核心账务系统采用C语言开发,部署采用私有框架协议。
实现路径:基于C探针埋点+OneTrace+协议适配实现全链路追踪
Onetrace+日志+opentelemetry
C语言系统
OneTrace+协议适配
ESB框架、feign框架、dk02、企业服务总线、反欺诈
系统框架、CICC TCP适配、RPC框架、LTTS框架、
MCA框架适配、OSB、EDSP ......
绩效云、决策系统、新网贷系统、新核心系统、二代
支付、新柜面、在线支付.....
私有协议系统
银行分布式链路日志溯源分析
背景:在微服务的场景下,应用调用链极其复杂,同时也产生了包含详细业务数据的海量应用日志,全面发挥APM全链路追踪和海量日志处理能力的优势,在调用链中定位问题时,可结合日志中详细的业务上下文信息,高效精准定位问题。
实现路径:以用户访问链路为追踪,通过TracelD打通用户端、网络端、服务端,并与此次交易过程各应用节点日志数据进行关联分析。
金融信创改造全过程监控
背景:金融信创改造涉及硬件服务器变更、操作系统变更、应用及中间件变更、数据库变更等,问题点多且复杂,风险难以预估,排障及改造时间长,同时,银行对业务系统实时性、高效性、稳定性等具有较高要求,业务系统信创改造迁移可靠性保障和性能对比缺失,迁移质量及用户体验难以保障。
实现路径:建立端到端的用户体验保障、业务系统分析能力,保障系统稳定性、连续性以保障及提升用户体验
信创改造开发环节的质量保障、信创、非信创环境的性能对比、信创改造过程中的可靠性保障和上线评估、信创可视化、信创生产环境业务连续性保障和故障定界定位、监管报送场景、信创环境用户视角的体验评估和优化、基于信创系统监控指标的最佳实践
银行新核心分布式微服务改造保障
背景:新一代核心系统建设源于银行“以客户为中心”的业务快速创新和差异化需求。在云化和分布式IT技术架构的背景下,系统实例规
模大幅增长,运行状态指标日益复杂,导致运维的可观测性不足,难以及时定位和解决问题。传统的监控和应急手段难以有效支持分布式
架构下的故障快速定位和处置。
实现路径:基调听云UniAgent一体化,全自动,全栈式监控方案,实现从前端渠道到中后台交易的全链路跟踪能力,能够从交易出发识
别组件间依赖关系,快速判断业务异常,高效定位问题原因,迅速联动故障处理。
微服务治理
监控各微服务的性能、日志、指标,实时跟踪
服务的健康状况,及时发现和处理异常
服务可观测
支持应用、中间件和基础资源的层层下钻与关联分析,基于日志、指标、链路等数据,提供一站式分析
运维定位定界
混合云环境下的全栈分析和问题边界的定位
业务影响性分析
背景:在运维工作中,业务的影响范围判定是运维工作的重点难点。当出现生产事故,业务部门要求运维部门快速确定影响的用户信息,降低生产事故对业务营收带来影响,因此运维人员需要对产生异常的影响进行快速判定。
实现路径:通过选取重要的交易类型,采用配置的方式提取关键业务数据,如基金产品ID、交易金额、交易流水、手机号等业务字段,当交易出现异常时,系统能够快速展现出每个异常影响的范围,并且可以在系统导出影响的交易数据,提供给业务部门。
丰富的金融行业服务经验
听云深耕金融行业,服务于12家国有商业银行总行及全国性股份制商业银行总行,37家城市商业银行、农信社、农商行客户。
广泛适配银行业务系统
适配多家城商行客户系统框架,包括ESB、新核心、LTTS等
支持多家开发厂商的新核心系统监控,包括神州数码,长亮科技、信雅达等
已经适配的主要业务框架
ESB框架、feign框架、dk02、企业服务总线、反欺诈
系统框架、CICC TCP适配、RPC框架、LTTS框架、
MCA框架适配、OSB、EDSP ......
绩效云、决策系统、新网贷系统、新核心系统、二代
支付、新柜面、在线支付....….
已监控的主要业务系统
手机银行、对公网银系统、基金代销系统、手机银行后端、
ESB、掌上银行、普惠系统、直销银行、理财系统、网银、
网关、大公司系统、贵宾权益系统、直销、超网系统、信
审、对公网贷系统、网关、云容器、基金代销系统、供应
链系统......
综合支付后端业务系统、pds_分布式后端业务系统(支付融资)、
集中运营业务管理系统、客服系统、新规面系统、资金存管系统、
票交所直连系统后端业务系统、国债数据报送平台、外汇清算系
统、超级柜台系统、支付密码系统、用户中心、国际结算系统、
理财系统、CRM系统、网联接入系统、CallCenter系统后端业务
系统、黄金买卖后端业务系统、基金代销......
案例1 -某股份制银行-落地情况
IT管理目标:
·通过建设应用全链路应用性能监控手段,提升行方的运维水平,减少用户投诉,保障业务可用性。
项目时间:
·2021年-至今
解决方案:
·听云APM、听云App、听云Web、大屏、听云Network
项目规模:20套+
·手机银行
·个人网银
·企业网银
·统一电子渠道
·直销门户
·收银台
使用部门:
·信息科技部(运维人员)
主要挑战
·系统数量众多,调用复杂无法快速发现问题。
·容器内部的调用关系无法感知。
·缺乏端到端的应用性能监控手段。
·缺乏前端用户侧的用户体验监控。
·应用系统软件架构由传统架构向新的架构平台转换,硬件架构由独立服务器向虚拟资源池、容器环境转换
·监控工具SkyWalking、日志等,监控数据相互割裂
监控场景
·端到端全链路监控,直观分析用户访问业务逻辑。
·深入代码级别问题定位,明确应用问题内容和方向。
·清晰记录每个第三方接口的吞吐率、响应速率。
·用户体验监控,提升问题处理能力
项目成效
·通过全链路监控补全了行内现有NPM无法对容器内部调用的空白。
·实现对被测系统从客户端到服务端的全链路监控及问题定位。
核心业务系统监控全覆盖
c语言:监管查控系统
支付系统:新二代支付系统、境内外币支付系统、计费系统、ATM系统等
核心系统:分布式核心业务系统、信用卡核心系统。
ATM系统:通过APM WEB自定义业务错误收集ATM业务错误信息。
为客户提供的解决方案:产品+服务
产品+服务
驻场服务
全程参与故障分析
文档输出
客户实际场景的定制化开发服务
为客户提供的解决方案:流程+制度
为客户提供的解决方案:流程+制度
服务端标准:
错误率大于1%或响应时间大于5s交易
SQL执行耗时大于1s
SQL执行有异常报错
单应用错误率高
单个交易或者单个应用每日观测到异常信息次数大于5次
Web标准:
JS错误率大于10%
APP标准:
崩溃率大于0.3%
为客户提供的解决方案:流程+制度
智能报告:每周发送后端APM报告81封,客户端APM报告24封,WEB段APM报告82封。
报告包含:每周系统运行情况、异常问题进行汇总展示。
开发人员会根据运行报告中汇总的问题进行问题排查解决。
用户体验监控解决方案
APP监控
嵌入SDK对最终APP用户应用性能监测,深入追踪错误、连
接超时、交互卡顿和崩溃原因,定位性能问题
Browser监控
基于页面JS嵌码技术的真实Web用户性能监测,监
测页面加载时间、JS错误、AJAX请求等性能指标
Network监控
模拟在大并发业务压力下全国用户的各省,市,运营
商,接入方式的用户体验,和CDN节点部署的合理性,
性能,可用性
Server监控
通过在应用服务器中植入探针,实现对应用代码、关系型数据库、
NoSQL、服务器本身的监控,检测应用响应时间、错误、慢应用等
性能指标
监控范围
手机银行、个人网银、企业网银、超级柜台、悦农E支付、新柜面系统。
目标
·建立覆盖全互联网银行的全面监测,涵盖客户访问使用互联网银行的完整业务闭环,做到实时预警、深度追踪,及时优化闭环的应用监控体系;
·建立用户体验分析指标,定期输出用户体验分析报告,实时了解各系统用户体验情况。
·提升开发效率,缩短故障处理时间,提升业务系统可用性
价值体现
权威机构认可
资质&信创
案例