作为业务的守护者,也许你经常会遇到同一种情况:每当业务问题爆发时,可能你接到了投诉电话,也可能收到了应用异常的短信提醒。然后,你会召集应用链路上的每家厂商工程师来集中排查生产问题。厂商陆续抵达现场之后,大家会先各自查看自家设备的日志log及其监控手段,从路由器、防火墙、SSL、负载均衡、中间件、服务器、数据库等等层层深入。先抛开各家厂商到达问题现场的时间不谈,当你向厂商工程师们阐述清楚问题现象,并顶着压力耐心等待他们从Ping、Traceroute再到抓包分析之后,最终会收到同一个结论:“这不是我们的问题”。
那么问题来了,那到底是谁的问题呢?没有依据,你很难辩驳厂商的分析结论,也无从找到解决方案。但领导的要求是不变的:在最短的时间内解决问题。于是,你陷入了两难。
现在有一种从天而降的“掌法”,能够快速帮你定位业务故障的问题根源,你学还是不学?
天旦BPC“五大场景化告警”之
服务水平监测告警
天旦BPC“五大场景告警监测”覆盖了绝大部分金融应用交易异常事件,而“服务水平监测告警”,则是BPC在用户实际应用场景中被最频繁使用的告警场景。通过服务水平监测告警功能,用户可以实时监控分析高频关键应用交易,在应用交付链上自动定位故障根源节点,快速找出影响故障发生的维度和维度值,并一键形成告警成因分析报告,帮助用户改善应用性能问题,极大地缩短了排障周期,同时节省了人力功耗成本。
本文将以“用户真实场景”为例,详细介绍当应用系统出现生产问题导致服务水平监测告警时,如何操作BPC告警分析模块,快速定位问题发生的根源。以此,帮助用户按照同样的步骤,能够在告警发生时,独立完成问题的分析操作。
服务水平监测告警使用场景
服务水平监测告警适用于对业务应用有明确服务水平要求的场景。(阈值告警)
(BPC应用性能中心---告警设置---新建)
服务水平监测告警用法示例
如图所示,我们可以根据业务的历史服务水平,设置告警的阈值范围和告警级别,比如:
每分钟的交易量大于1000笔,且每分钟交易平均响应时间均高于300ms,持续2分钟,被认为服务水平不达标,需要触发告警;
设置告警级别,交易平均响应时间在300-500ms之间视为警示事件,高于500ms视为严重事件。
(BPC应用性能中心---告警设置---新建---服务水平监测)
服务水平监测告警分析操作过程
案例背景
某银行柜面业务异常,导致20多个营业网点无法办理某种缴费业务,该故障触发了BPC告警。让我们来看看,如何通过操作BPC实现3分钟定位问题所在。
Step 1:查看BPC告警信息
运维工程师在收到BPC服务水平监测告警短信的第一时间,立即打开BPC。如图所示,BPC已经在服务状态板上对产生故障的”业务系统”进行告警,并标记出了最近30分钟内受到故障影响的时间范围(1根时间轴为1分钟),如下图所示:
(BPC服务状态板)
Step 2:查看告警业务系统所关联的监控视图
点击显示红色的时间轴,前往该业务系统的详细监控视图。在该业务的服务路径图上我们可以看到,当前时间共触发了”3“条告警。其中,防火墙组件显示1条告警,某交易网关显示2条告警。根据BPC内置的告警故障定位算法,会自动定位发生问题的根源节点组件并标示为全红组件,如下图所示,某交易网关即为问题节点。
(BPC服务路径图)
Step 3:查看告警记录概况
点击交易网关告警节点上的数字“2”,可以速览告警记录概况。如图,其中已初步描述了当前告警的触发时间、来源系统、告警事件类型、告警持续时间、本次告警的当前状态和级别等。
同时点击告警记录最前方的“+”,我们可以对该条告警记录“展开”预览视图,如下图所示。
(仅供告警记录说明)
Step 4:自动告警成因分析
点击第三步告警记录“操作”(绿框)内的“分析”功能,“自动告警成因分析报告”即刻自动生成。从报告中即可确认,本次故障的根源来自中间业务平台。同时,报告中呈现了导致告警发生的维度层次和维度值。通过报告的第一维度可以看出,是中间业务平台的某种缴费业务出现了问题,而该缴费业务来自第二维度的柜面渠道,同时通过第三和第四维度可以看到该业务访问的服务器地址和端口号是多少,紧接着又可以通过以下第五、第六、第七维度看到发起该业务的源地址、服务编号以及对应的错误码等。通过这张简单易懂的报告,我们便很快精确定位到发生问题的根源。
(BPC告警自动成因分析报告)
最后,为了不影响营业时间内的柜面缴费服务,运维工程师立即重启了对应服务器并临时恢复业务,同时督促负责中间业务的厂家对应用涉及的交易类型代码进行整体优化调整。
回顾与思考
现实中,像开篇提到的排障场景比比皆是。在对业务的各个节点缺乏足够可视性的监控分析之时,一旦出现问题往往需要依靠多厂商联合排障。但多厂商的参与,确实很难做到口径统一,快速定位问题所在,在问题的排查过程中我们需要大量的时间去复现去验证,问题发生时刻的数据我们也很难保证获取全面,一个问题能花费一周甚至一个月的时间,最后还有可能是徒劳无功。
而天旦BPC通过互联数据以应用为中心的监控视角,无论是应用架构中的应用主机、数据库实例,或是防火墙负载均衡等网络设备都能纳入到监控范围当中,端到端实现全路径交易追踪,提供指标口径一致、时间戳一致的故障定位分析结果。通过BPC,一方面可以将原先无从下手的排障过程变得目标明确、精准有序,确认问题节点后引入对应的厂商解决问题;另一方面,针对问题发生时的故障数据,所见即所得,不但可以用来复现问题,还可以用于回溯分析取证。这极大地缩短了传统方式的排障周期,针对故障告警事件,在5秒内自动找出导致告警发生的维度层次和维度值,减少反复繁琐的人工查询操作步骤,节省人力成本,提升运维管理的效能。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2021-12-27 17:44:28
2020-05-20 16:46:56
2022-11-23 10:32:26
2020-03-24 16:57:34
2020-05-19 17:01:05
2021-12-03 15:18:48
甄选10000+数字化产品 为您免费使用
申请试用
评论列表