随着数字金融转型的进一步深入,银行业务的发展对信息技术的依赖性也愈来愈大, 如何有效保障银行在数字金融转型过程中业务系统的业务连续性能力已经成为要面对的重要课题。 银行当前处于“两地三中心”和“多地多中心”建设优化改造阶段,在信息系统应急管理体系建设上凸显出了一些问题与挑战,具体如下:
序号 | 服务/子系统名称 | 能力描述 |
01 | 应急日常管理子系统 | 提供应急场景库管理、预案管理、演练管理、基础信息管理、报表统计 等功能,为应急管理提供基础数据支撑。 |
02 | 应急信息仪表盘子系统 | 聚合应急支撑数据(应用监控信息、应用上下游信息、应用巡检信息、应用变更记录、历史事件等),进行问题定位和影响分析。 |
03 | 应急决策支持子系统 | 聚合应急支撑数据(应用监控信息、应用上下游信息、应用巡检信息、应用变更记录、历史事件等),进行问题定位和影响分析。 |
04 | 应急自动化子系统 | 提供自动化应急处置能力或者已有自动化运维平台对接能力。提供业务验证自动化能力或者已有RPA系统对接能力。 |
05 | 应急会商子系统 | 提供应急会商的能力。支持会话、视频、语音等,内置标准通知播报。 |
06 | 应急可视化子系统 | 提供ECC指挥调度可视化大屏定制能力。 |
07 | 应急工作台/应急流程子系统 | 规范应急流程:应急响应——>影响分析——>应急决策——>应急处置——>业务验证。 |
08 | 应急复盘管理子系统 | 提供应急复盘能力,支持应急事件分析(时长分析、时长影响因素分析、原因分析)、应急报告结构化管理、应急改进建议及改进跟踪。 |
演练指挥调度大屏整合多源数据与技术,将演练信息以实时、直观、立体的方式进行多维展示。覆盖组织结构可视化、数据中心可视化、业务数据可视化、指挥可视化等多个场景,为用户构建集展现、协同、交互、指挥于一体的数字化可视大屏。
IM系统:协调最强力量,协作排查、快速处置、恢复业务。指挥大屏:依托业界领先的多源数据整合技术,将纷繁复杂的数字信息以实时、直观、立体的方式进行多维展示,方案覆盖预案信息可视化、应急流程可视化、处置进度可视化等多个场景,助力用户构建集展现、协同、交互、指挥于一体的数字化可视平台。
通过多元化数据接入、智能化分析与抽取等手段,构建应急知识体系,实现风险、应对措施、流程、资源等要素全方位立体化关联,为应急管理体系提供更精准、更可靠的决策依据。
提供应用视角 事件监控能力;提供应急人员事件清单,支持 启动应急响应、事件升级、降级。
支持应急通知节点自定义,系统自动出发群通知,提升应急通知效率。
应急场景完备性要求涵盖技术场景和业务场景,在复杂场景下穷尽可能发生的各类子场景,可以通过应急场景覆盖率衡量应急场景的完备性。
预案管理支持一键生成、上传、更新、删除、版本管理、预案审批等。预案结构包含适用范围、应急组织、处置流程、验证案例。预案结构化管理提高预案可用性,提升应急恢复能力。
演练管理提供基于故障注入技术进行故障场景复现与演练,全面检测应急能力,例如监控的发现能力、预警能力、应急响应能力、排查能力、应急处置能力等,全面提升人员应急意识、应急流程熟练度、锻炼处置能力,验证预案有效性。
基于应急作战地图、巡检报告、日志分析、变更记录、监控等多元化信息,进行影响范围定位,为应急决策提供数据支撑。
横向故障收敛:依据影响评估结果,判断是否可以横向收敛(应用上下游关系、应用间资源共享,多个事件关联成一个事件) ,然后进行统一处置。事件智能定级:支持定级指标自定义,定级模型配置,基于定级模型自动定级。基于决策模型推荐预案:支持决策指标自定义,决策模型配置,基于决策算法 计算 预案推荐指数、预计恢复时间点 、风险说明。
支持单机一键恢复:宕机自动重启、坏盘自动下线、故障节点自动剔除;支持变更一键回滚:应用变更定位、发布自助回滚;容量一键扩容:接口自动限流、SQL限流、一键扩容、线程池参数自动调整;机房容灾一键切换:支持一键灾备切换。内置自动化工具:支持自动化脚本执行,一键启动应急处置。支持现有自动化运维平台对接,复用现有能力。
产品目标:提升应急响应和处置能力,有效应对各类突发事件。最小影响范围,最少业务损失,最短时间内恢复业务。面临挑战:预案数量和质量 / 信息碎片化、不对称 / 高效率协同 / 智能化处置工具 / 持续改善的能力。
成立应急组织,并能够基于应急事件灵活匹配应急组织,基于工具快速实现人员召集、协同会商、分工决策。
通过风险分析,梳理应急场景库,编写场景预案,形成知识库,提升应急响应和处置能力,有效应对各类突发事件。
开发应急预案,并能够基于预案模板和关键结构化数据自动生成,实现在线编辑、维护预案内容;可验证预案的有效性。
影响评估:评估影响范围(业务/系统/交易/客户/财务等)、一键式排查,内置排查流程。(首查监控、关联变更、历史回顾、信息共享、联动后线、恢复优先)。应急决策:事件智能定级(104号文 根据时长/省份定级 或者 结合行内实际情况 确定定级策略)、智能推荐预案(影响范围、级别、历史数据、时长等综合因素)。应急处置:统一指挥、一键恢复(重启、隔离、扩容)、支持同时启动多预案: 业务预案、科技预案、危机沟通预案、其他保障类预案。业务验证:支持手工验证和RPA业务验证二种方式。应急会商:协调最强力量,协作排查、快速处置、恢复业务。(电话会诊、远程访问、现场支持)。应急通知:故障对内上报、故障对外上报(银监要求《银行业重要信息系统突发事件应急管理规范(试行)》、中国人民银行要求《支付清算系统安全生产事件报送标准》)。
事件时长分析、时长影响因素分析、根本原因分析、专项分析、应急改进,事件报告、全量事件专项分析:数据统计、分析、可视化展示。
业务恢复完成后,应根据事件的现象、发生的原因、处置过程进行分析、总结、改进,并完成应急处置报告。报告对风险事件的根因进行深入的分析,识别风险发生的具体原因、预防措施以及解决方案,从而调整风险防范的措施与内容,更新应急场景知识库,修订并完善应急响应过程,加快事件的处置过程,建立持续的改进计划,为日后的应急处置提供强有力的技术支持。
该项目通过对接聚合告警API,汇聚所有告警数据,按照一定的规则转化成应急事件,通知对应应急组织,启动应急响应流程。 通过知识图谱快速定位事件影响,基于轻量决策模型进行预案推荐。通过对接行内自动化运维工具进行应急处置与业务验证。支持事后多维度评价,生成应急报告。某西南大型联合社 通过本系统有效提升应急响应、处置效率,完成业务、系统恢复目标,有效提升系统可用性目标。
同创永益是面向未来的数字韧性服务提供商,专注于提供业务连续性、IT韧性和灾难恢复相关产品、解决方案及服务的国家级高新技术企业。在数字经济时代助力企业实现业务连续性的可视化、自动化、智能化、成本优化,成为客户业务连续性的最后一道防线。
应对数字韧性领域的挑战,保障金融行业信息系统安全高效的稳定运行,同创永益提供三位一体的全方位解决方案,助力金融行业提升数字韧性。
目前,我们的产品和服务广泛并成功地应用于各行业的杰出企业。我们在提供先进的软件和完善的服务帮助企业级客户构建完善的业务连续性及灾备管理体系,助力企业成就非凡。