Gartner 2020全球IaaS公有云市场分析报告显示,阿里与华为跻身全球公有云市场占有率前五。中国大型云平台、云服务商已经成为服务企业云原生业务发展的中坚力量。
CNCF认为云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。因此,云原生的关键并不在于在哪里部署应用,而是在哪里构建应用。从虚拟机到容器,云原生进一步改变了云资源的获取与使用方式,缩短了应用的建设周期,显著提升了业务上线的效率。
第三方支付产业虽然起步较晚,但是市场竞争激烈,且面临银保监会严格的监管要求。为了扩大市场占有率,各类企业纷纷寻求差异化竞争,业务变化较快,新业务的不断变更与上线对传统服务器负载、IT资源利用率等带来挑战。
因此,越来越多的第三方支付企业选择将新应用以云原生的方式进行开发与部署。一方面,通过云服务商与云平台,快速地构建新应用,业务创新效率得到明显提升;另一方面,利用服务网格、无服务计算等新计算范式,为整体的IT架构带来了极致弹性,更好地服务于业务。
云原生应用监控面临挑战
如果企业依然按照传统方法开发应用,只是将应用部署在云服务器上,那并不是真正的云原生。按照云原生应用的设计逻辑,无论部署在哪种云平台上,从设计之初就采用专有节点进行分布式存储,具备更高程度的灵活性,一旦业务增长导致负载过大,可以根据配置自动化扩缩。因此,提高开发效率、快速部署应用是云原生技术的关键所在。
而云原生应用的快速开发与部署也为监控带来了不少挑战。首先,每个应用开发与部署的背后由成百上千的微服务组成,当微服务变慢或者系统无法正常工作后,快速定位问题根源变得艰难;其次,基于容器的部署,应用节点呈指数级增长,自动化的弹性扩缩使得监控无法覆盖到每一处节点;再次,多数企业选择外部的云平台与供应商进行合作,运维不仅需要了解自身架构内部的系统运行状况,还须了解外部组件与监控服务之间的关系。
云原生监控的“白盒与黑盒”
白盒监控,是指从系统内部获取信息的监控方式。有别于传统环境,云原生环境下存在大量的容器、集群与节点,且存在异常复杂的逻辑关联,采用何种形式获取全量的数据信息,并对这些信息进行解读与分析,成为了解云原生架构内部自身系统运行状况的关键;
黑盒监控,是指将系统视为黑盒并从外部进行检查而得出结论的监控类别。由于多数企业采用第三方云平台和云服务商,导致企业对供应商组件的监控极为有限,一旦外部组件影响系统整体性能之时,了解应用与外部组件的关联、服务关系就变得非常重要。
传统的监控方式以系统的可用性为核心,当发生告警或者明显的故障症状后,运维才会“被动”地排障;而随着微服务、容器、K8s等技术的出现,一切以业务、用户体验为核心,云原生应用具备极高的动态性与敏捷性,“被动”地排障既无法满足以业务为中心的快速发展需要,同时也无法打破云原生监控的白盒与黑盒,需要具备更“底层”的视角、更详细的数据信息与更主动的发现能力,这种能力被称为“可观测性”。
从监控到可观测性,须要主动发现
“告警”作为传统监控的核心,以宏观的观察视角以及明确的故障信息为依托。而云原生时代,告警并非必选项。系统架构的复杂性导致任意层级都可能发生异常,且并非所有异常皆可触发告警。因此,运维须要建立主动发现的能力,运用宏观指标与微观数据分析系统健康状况,建立对整个应用架构的全局视角。
过去,运维与开发间是割裂的,当运维无法找到故障根因时,往往需要开发人员搜索源代码进行协助;而云原生应用,开发运维一体化,应用在设计之初就考虑到容错等各方面机制,直接将运维带入开发者的视野,主动发现与观测IT系统内部的细枝末节。
“主动发现能力”是“监控”在进入云原生语境之后概念的进一步外延,让运维从传统的被动排错转向了主动观察。“主动发现能力”由排错(Degugging)、剖析(Profiling)与依赖分析(Dependency Analysis)三部分组成:
排错(Degugging),即运用数据和信息去诊断故障出现的原因;
剖析(Profiling),即运用数据和信息进行性能分析;
依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。
这三部分存在严谨的逻辑关系:首先,无论是否发生告警,运用主动发现能力都能对系统运行情况进行诊断,通过指标呈现系统运行的实时状态;其次,一旦发现异常,逐层下钻,进行性能分析,调取详细信息,建立深入洞察;再次,调取模块与模块间的交互状态,通过链路追踪构建“上帝视角”。主动发现能力的目的并不是为了告警与排障,而是通过获取最全面的数据与信息,构建对系统、应用架构最深入的认知,而这种认知可以帮助我们提前预测与防范故障的发生。
运用主动发现能力,
天旦BPC保障联通支付云原生业务稳定
作为第三方支付公司,联通支付面临激烈的市场竞争。为了快速应对市场变化与用户需求,以解决业务应用变更、新应用上线快等问题,联通支付选择华为CloudFabric构建私有云,大举推进云原生新业务应用建设。
联通支付的业务范围覆盖快捷支付、移动电话支付、手机钱包、企业综合支付解决方案等领域,在项目建设过程中,为保障云原生应用的稳定性,最终选择天旦BPC对其进行观测与保障。
全流量的采集、转发与存储,打破云原生监控黑盒
与开源的OpenStack相比,华为云属于闭源的商业云架构,应用状态更难被实时感知,全流量的采集、存储与转发十分必要。目前,天旦的云流量采集主要基于以下三种方式:
第一种,在业务虚拟机内部署微探针采集业务流量。这是最直接的采集方式,多用于公有云的流量采集;
第二种,通过虚拟交换机,经过OVS SDN引流的方式,将业务流量从SDN引出,主要应用于OpenStack环境的流量采集;
第三种,在宿主机或容器节点中创建独立的虚拟机或容器部署旁路探针,减少对宿主机内部业务的影响,同时采集和转发宿主机或容器节点内的所有流量,多用于vmware和Kubernetes环境。
为满足客户多样化的需求,在该项目中,主要通过华为云直接将网络流量导向BPC的方式,进行全流量的转发与存储,由一主三从四台BPC服务器对双活数据中心实现全范围、无盲区的采集覆盖。
主动关联应用模块,解析业务应用指标,为业务状态监控与容量扩充提供依据
由于应用在云原生环境中的状态更加灵活多变,因此应用的性能监控与负载评估更加复杂,这就需要对网络层、应用层乃至业务层的指标进行深度解析,通过实时的量化指标作为业务状态监控与容量扩充的依据。天旦BPC可以深度解析与呈现网络层与应用层指标,通过协议解码器对中间件、应用、核心等进行协议解码,提取所需字段、自动验证解码结果,并对应用或业务架构进行有效梳理,通过场景化配置与告警,实现对业务应用无死角监控,并作为动态扩容时的量化指标,实现数据驱动的运维决策。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2024-06-24 09:56:37
2024-05-31 17:09:19
甄选10000+数字化产品 为您免费使用
申请试用
评论列表