实践丨天旦BPC服务水平监测告警分析操作指南

来源: 云巴巴 2021-12-16 14:05:33

作为业务的守护者,也许你经常会遇到同一种情况:每当业务问题爆发时,可能你接到了投诉电话,也可能收到了应用异常的短信提醒。然后,你会召集应用链路上的每家厂商工程师来集中排查生产问题。厂商陆续抵达现场之后,大家会先各自查看自家设备的日志log及其监控手段,从路由器、防火墙、SSL、负载均衡、中间件、服务器、数据库等等层层深入。先抛开各家厂商到达问题现场的时间不谈,当你向厂商工程师们阐述清楚问题现象,并顶着压力耐心等待他们从Ping、Traceroute再到抓包分析之后,最终会收到同一个结论:“这不是我们的问题”。

那么问题来了,那到底是谁的问题呢?没有依据,你很难辩驳厂商的分析结论,也无从找到解决方案。但领导的要求是不变的:在最短的时间内解决问题。于是,你陷入了两难。

图片

现在有一种从天而降的“掌法”,能够快速帮你定位业务故障的问题根源,你学还是不学?

天旦BPC“五大场景化告警”之

服务水平监测告警

天旦BPC“五大场景告警监测”覆盖了绝大部分金融应用交易异常事件,而“服务水平监测告警”,则是BPC在用户实际应用场景中被最频繁使用的告警场景。通过服务水平监测告警功能,用户可以实时监控分析高频关键应用交易,在应用交付链上自动定位故障根源节点,快速找出影响故障发生的维度和维度值,并一键形成告警成因分析报告,帮助用户改善应用性能问题,极大地缩短了排障周期,同时节省了人力功耗成本。

本文将以“用户真实场景”为例,详细介绍当应用系统出现生产问题导致服务水平监测告警时,如何操作BPC告警分析模块,快速定位问题发生的根源。以此,帮助用户按照同样的步骤,能够在告警发生时,独立完成问题的分析操作。

服务水平监测告警使用场景

服务水平监测告警适用于对业务应用有明确服务水平要求的场景。(阈值告警)

(BPC应用性能中心---告警设置---新建)

服务水平监测告警用法示例

如图所示,我们可以根据业务的历史服务水平,设置告警的阈值范围和告警级别,比如:

  • 每分钟的交易量大于1000笔,且每分钟交易平均响应时间均高于300ms,持续2分钟,被认为服务水平不达标,需要触发告警;

  • 设置告警级别,交易平均响应时间在300-500ms之间视为警示事件,高于500ms视为严重事件。

(BPC应用性能中心---告警设置---新建---服务水平监测)

服务水平监测告警分析操作过程

案例背景

某银行柜面业务异常,导致20多个营业网点无法办理某种缴费业务,该故障触发了BPC告警。让我们来看看,如何通过操作BPC实现3分钟定位问题所在。

Step 1:查看BPC告警信息

运维工程师在收到BPC服务水平监测告警短信的第一时间,立即打开BPC。如图所示,BPC已经在服务状态板上对产生故障的”业务系统”进行告警,并标记出了最近30分钟内受到故障影响的时间范围(1根时间轴为1分钟),如下图所示:

(BPC服务状态板)

Step 2:查看告警业务系统所关联的监控视图

点击显示红色的时间轴,前往该业务系统的详细监控视图。在该业务的服务路径图上我们可以看到,当前时间共触发了”3“条告警。其中,防火墙组件显示1条告警,某交易网关显示2条告警。根据BPC内置的告警故障定位算法,会自动定位发生问题的根源节点组件并标示为全红组件,如下图所示,某交易网关即为问题节点。

图片

(BPC服务路径图)

Step 3:查看告警记录概况

点击交易网关告警节点上的数字“2”,可以速览告警记录概况。如图,其中已初步描述了当前告警的触发时间、来源系统、告警事件类型、告警持续时间、本次告警的当前状态和级别等。

图片

同时点击告警记录最前方的“+”,我们可以对该条告警记录“展开”预览视图,如下图所示。

图片

(仅供告警记录说明)

Step 4:自动告警成因分析

点击第三步告警记录“操作”(绿框)内的“分析”功能,“自动告警成因分析报告”即刻自动生成。从报告中即可确认,本次故障的根源来自中间业务平台。同时,报告中呈现了导致告警发生的维度层次和维度值。通过报告的第一维度可以看出,是中间业务平台的某种缴费业务出现了问题,而该缴费业务来自第二维度的柜面渠道,同时通过第三和第四维度可以看到该业务访问的服务器地址和端口号是多少,紧接着又可以通过以下第五、第六、第七维度看到发起该业务的源地址、服务编号以及对应的错误码等。通过这张简单易懂的报告,我们便很快精确定位到发生问题的根源。

(BPC告警自动成因分析报告)

 

最后,为了不影响营业时间内的柜面缴费服务,运维工程师立即重启了对应服务器并临时恢复业务,同时督促负责中间业务的厂家对应用涉及的交易类型代码进行整体优化调整。

回顾与思考

现实中,像开篇提到的排障场景比比皆是。在对业务的各个节点缺乏足够可视性的监控分析之时,一旦出现问题往往需要依靠多厂商联合排障。但多厂商的参与,确实很难做到口径统一,快速定位问题所在,在问题的排查过程中我们需要大量的时间去复现去验证,问题发生时刻的数据我们也很难保证获取全面,一个问题能花费一周甚至一个月的时间,最后还有可能是徒劳无功。

而天旦BPC通过互联数据以应用为中心的监控视角,无论是应用架构中的应用主机、数据库实例,或是防火墙负载均衡等网络设备都能纳入到监控范围当中,端到端实现全路径交易追踪,提供指标口径一致、时间戳一致的故障定位分析结果。通过BPC,一方面可以将原先无从下手的排障过程变得目标明确、精准有序,确认问题节点后引入对应的厂商解决问题;另一方面,针对问题发生时的故障数据,所见即所得,不但可以用来复现问题,还可以用于回溯分析取证。这极大地缩短了传统方式的排障周期,针对故障告警事件,在5秒内自动找出导致告警发生的维度层次和维度值,减少反复繁琐的人工查询操作步骤,节省人力成本,提升运维管理的效能。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

案例解析 | 指掌易签约德赛西威 零信任方案赋能企业数据安全

案例解析 | 指掌易签约德赛西威 零信任方案赋能企业数据安全

今日,指掌易签约惠州市德赛西威汽车电子股份有限公司(下称“德赛西威”),该项目采用指掌易移动业务智能管理平台,满足德赛西威移动应用数据防泄露、信息安全合规管控等需求。

2021-12-27 17:44:28

有关网络安全技术之网络安全态势感知所用到的算法

有关网络安全技术之网络安全态势感知所用到的算法

正是科技使我们的这个地球变小,人们在享受科技如数字化安全的带来的福祉的同时也收获了快乐。现在的我们已经不再满足于物质的享受,更多的则是精神上的安逸,人类在探索与发明的同时,本文,就对于网络安全态势感知进行了简要相关的的介绍

2020-05-20 16:46:56

腾讯安全是如何把代码审计工具做到优秀的

腾讯安全是如何把代码审计工具做到优秀的

在传统的瀑布流的开发模型时代,代码审计方面做到的本就非常少,加之很多企业为了尽快交付项目就会压缩开发周期,难免出现无法保障代码质量的问题,就造成很多暴力破解和SQL注入攻击有机可乘。 其实这些常见的网络攻击都可以在代码层面解决,如果说在人工上实在精力有限

2022-11-23 10:32:26

工业互联网安全态势感知系统的设计与实现

工业互联网安全态势感知系统的设计与实现

当前在互联网、移动互联网和物联网的快速经济发展前提下,在“两化融合”的行业市场发展社会需求下,工业技术企业为了能够提高产品生产高效运行、生产经营管理工作效率,众多行业大力推进工业互联网平台建设,随着社会生产网、办公网与互联网企业之间互联互通性逐步加强,

2020-03-24 16:57:34

你怎么可以不知道什么是网络安全态势感知的可视化

你怎么可以不知道什么是网络安全态势感知的可视化

网络安全态势感知在数据结构层面,“网络”也称作图,相比于树形结构,这是一种非线性关系数据类型,但表达的关系更自由和复杂。在图结构中,图G由一个有穷节点集合V和一个边集合E组成。网络安全态势感知的常将节点称为顶点,边是顶点的有序偶对,若顶点间存在一条边,表示

2020-05-19 17:01:05

【客户案例】为某知名车企构建应用代码审计平台

【客户案例】为某知名车企构建应用代码审计平台

应用程序安全是过程(Process)、实践(Practice)和工具(Tools)的组合动作,旨在在整个应用程序(Applications)生命周期中保护应用程序免受威胁。

2021-12-03 15:18:48

严选云产品

网御星云可信API代理系统 网御可信API代理系统 (俗称:API网关),产品独立于应用系统前、后置API微服务组件,是数据域一系列微服务集合的入口安全网关。产品可以与零信任体系安全联动,根据授权提供API级的应用安全防护。
斑马Zebra ZT510工业打印机 斑马Zebra ZT510以行业领先的105SLPlus打印机功能为基础,可以经济高效的价格点提供您所需要的工业打印机核心功能。
Kyligence Zen一站式指标平台 Kyligence Zen一站式指标平台,数据分析师和业务⽤⼾⾃助完成基于指标的数据分析全流程,零⻔槛,摆脱对技术开发的依赖。集中管理指标,确保指标⼝径⼀致和数据可信,提⾼指标数据在不同业务间复⽤。
PingCAP TiDB全新一栈式实时HTAP数据库 PingCAP TiDB全新一栈式实时HTAP数据库,打破数据壁垒,合而为一。事务性与分析型处理完全基于一体化的数据基座。 在线数据分析与决策,分秒必争。强一致性保障基于数据的决策,分毫不差。一站式数据服务基座;高弹性、按需扩缩容;在线 DDL;无需分片、无业务侵入;金融级高可用。
群脉SFE智慧导购系统 群脉SFE智慧导购系统是群脉科技推出的一款面向新零售趋势的产品,旨在连接线下终端门店和消费者,提升导购的营销和服务能力,以及促进导购人员的能力成长。群脉SFE智慧导购系统通过整合线上线下数据、提供工具赋能和强化客户连接,帮助企业在新零售环境下实现更高效的客户管理和销售增长。
甄知科技燕千云智能服务管理 甄知科技燕千云智能服务通过自然语言理解(NLU)评估智能助理和用户对话信息的含义和上下文,从而推断用户或系统的操作,使系统能够学习并响应人类表达的意图,通过智能预测、智能推荐等能力应用在IT服务、企业服务、客户服务等业务场景。

甄选10000+数字化产品 为您免费使用

申请试用