案例丨如何保障云原生业务稳定运行?

来源: 云巴巴 2021-12-16 13:19:58

Gartner 2020全球IaaS公有云市场分析报告显示,阿里与华为跻身全球公有云市场占有率前五。中国大型云平台、云服务商已经成为服务企业云原生业务发展的中坚力量。

CNCF认为云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。因此,云原生的关键并不在于在哪里部署应用,而是在哪里构建应用。从虚拟机到容器,云原生进一步改变了云资源的获取与使用方式,缩短了应用的建设周期,显著提升了业务上线的效率。

第三方支付产业虽然起步较晚,但是市场竞争激烈,且面临银保监会严格的监管要求。为了扩大市场占有率,各类企业纷纷寻求差异化竞争,业务变化较快,新业务的不断变更与上线对传统服务器负载、IT资源利用率等带来挑战。

因此,越来越多的第三方支付企业选择将新应用以云原生的方式进行开发与部署。一方面,通过云服务商与云平台,快速地构建新应用,业务创新效率得到明显提升;另一方面,利用服务网格、无服务计算等新计算范式,为整体的IT架构带来了极致弹性,更好地服务于业务。

云原生应用监控面临挑战

如果企业依然按照传统方法开发应用,只是将应用部署在云服务器上,那并不是真正的云原生。按照云原生应用的设计逻辑,无论部署在哪种云平台上,从设计之初就采用专有节点进行分布式存储,具备更高程度的灵活性,一旦业务增长导致负载过大,可以根据配置自动化扩缩。因此,提高开发效率、快速部署应用是云原生技术的关键所在。

而云原生应用的快速开发与部署也为监控带来了不少挑战。首先,每个应用开发与部署的背后由成百上千的微服务组成,当微服务变慢或者系统无法正常工作后,快速定位问题根源变得艰难;其次,基于容器的部署,应用节点呈指数级增长,自动化的弹性扩缩使得监控无法覆盖到每一处节点;再次,多数企业选择外部的云平台与供应商进行合作,运维不仅需要了解自身架构内部的系统运行状况,还须了解外部组件与监控服务之间的关系。

云原生监控的“白盒与黑盒”

白盒监控,是指从系统内部获取信息的监控方式。有别于传统环境,云原生环境下存在大量的容器、集群与节点,且存在异常复杂的逻辑关联,采用何种形式获取全量的数据信息,并对这些信息进行解读与分析,成为了解云原生架构内部自身系统运行状况的关键;

黑盒监控,是指将系统视为黑盒并从外部进行检查而得出结论的监控类别。由于多数企业采用第三方云平台和云服务商,导致企业对供应商组件的监控极为有限,一旦外部组件影响系统整体性能之时,了解应用与外部组件的关联、服务关系就变得非常重要。

传统的监控方式以系统的可用性为核心,当发生告警或者明显的故障症状后,运维才会“被动”地排障;而随着微服务、容器、K8s等技术的出现,一切以业务、用户体验为核心,云原生应用具备极高的动态性与敏捷性,“被动”地排障既无法满足以业务为中心的快速发展需要,同时也无法打破云原生监控的白盒与黑盒,需要具备更“底层”的视角、更详细的数据信息与更主动的发现能力,这种能力被称为“可观测性”。

从监控到可观测性,须要主动发现

“告警”作为传统监控的核心,以宏观的观察视角以及明确的故障信息为依托。而云原生时代,告警并非必选项。系统架构的复杂性导致任意层级都可能发生异常,且并非所有异常皆可触发告警。因此,运维须要建立主动发现的能力,运用宏观指标与微观数据分析系统健康状况,建立对整个应用架构的全局视角。

过去,运维与开发间是割裂的,当运维无法找到故障根因时,往往需要开发人员搜索源代码进行协助;而云原生应用,开发运维一体化,应用在设计之初就考虑到容错等各方面机制,直接将运维带入开发者的视野,主动发现与观测IT系统内部的细枝末节。

“主动发现能力”是“监控”在进入云原生语境之后概念的进一步外延,让运维从传统的被动排错转向了主动观察。“主动发现能力”由排错(Degugging)、剖析(Profiling)与依赖分析(Dependency Analysis)三部分组成

  • 排错(Degugging),即运用数据和信息去诊断故障出现的原因;

  • 剖析(Profiling),即运用数据和信息进行性能分析;

  • 依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。

这三部分存在严谨的逻辑关系:首先,无论是否发生告警,运用主动发现能力都能对系统运行情况进行诊断,通过指标呈现系统运行的实时状态;其次,一旦发现异常,逐层下钻,进行性能分析,调取详细信息,建立深入洞察;再次,调取模块与模块间的交互状态,通过链路追踪构建“上帝视角”。主动发现能力的目的并不是为了告警与排障,而是通过获取最全面的数据与信息,构建对系统、应用架构最深入的认知,而这种认知可以帮助我们提前预测与防范故障的发生。

运用主动发现能力,

天旦BPC保障联通支付云原生业务稳定

作为第三方支付公司,联通支付面临激烈的市场竞争。为了快速应对市场变化与用户需求,以解决业务应用变更、新应用上线快等问题,联通支付选择华为CloudFabric构建私有云,大举推进云原生新业务应用建设。

联通支付的业务范围覆盖快捷支付、移动电话支付、手机钱包、企业综合支付解决方案等领域,在项目建设过程中,为保障云原生应用的稳定性,最终选择天旦BPC对其进行观测与保障。

全流量的采集、转发与存储,打破云原生监控黑盒

与开源的OpenStack相比,华为云属于闭源的商业云架构,应用状态更难被实时感知,全流量的采集、存储与转发十分必要。目前,天旦的云流量采集主要基于以下三种方式:

  • 第一种,在业务虚拟机内部署微探针采集业务流量。这是最直接的采集方式,多用于公有云的流量采集;

  • 第二种,通过虚拟交换机,经过OVS SDN引流的方式,将业务流量从SDN引出,主要应用于OpenStack环境的流量采集

  • 第三种,在宿主机或容器节点中创建独立的虚拟机或容器部署旁路探针,减少对宿主机内部业务的影响,同时采集和转发宿主机或容器节点内的所有流量,多用于vmware和Kubernetes环境。

为满足客户多样化的需求,在该项目中,主要通过华为云直接将网络流量导向BPC的方式,进行全流量的转发与存储,由一主三从四台BPC服务器对双活数据中心实现全范围、无盲区的采集覆盖。

主动关联应用模块,解析业务应用指标,为业务状态监控与容量扩充提供依据

由于应用在云原生环境中的状态更加灵活多变,因此应用的性能监控与负载评估更加复杂,这就需要对网络层、应用层乃至业务层的指标进行深度解析,通过实时的量化指标作为业务状态监控与容量扩充的依据。天旦BPC可以深度解析与呈现网络层与应用层指标,通过协议解码器对中间件、应用、核心等进行协议解码,提取所需字段、自动验证解码结果,并对应用或业务架构进行有效梳理,通过场景化配置与告警,实现对业务应用无死角监控,并作为动态扩容时的量化指标,实现数据驱动的运维决策。

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

云手机怎么选?火山云云手机怎么样?有哪些优势以及应用场景?

云手机怎么选?火山云云手机怎么样?有哪些优势以及应用场景?

数字化转型的浪潮中,云手机技术正逐渐成为企业和个人用户的首选。市场上有多种云手机产品和服务,而火山引擎云手机,作为字节跳动旗下的创新产品,以其卓越的性能和创新的服务理念,为用户提供了一种全新的移动体验。本文将深入探讨火山引擎云手机的核心技术、产品优势以及如何帮助用户实现数字化转型。

2024-06-24 09:56:37

跨境电商如何规避运营风险?跨境云手机实现多店铺多账号管理

跨境电商如何规避运营风险?跨境云手机实现多店铺多账号管理

本文将分析跨境电商多账号运营的风险痛点,并介绍跨境云手机多账号管理的优势。

2024-04-26 17:48:53

业界瞩目!云巴巴成为京东云金牌合作伙伴,双方携手共赢

业界瞩目!云巴巴成为京东云金牌合作伙伴,双方携手共赢

京东云是领先的云计算服务提供商,凭借技术实力和行业经验,成为业界佼佼者。

2024-03-27 15:05:44

疯狂的弹幕游戏,腾讯弹幕游戏云渲染助你一键互动直播

疯狂的弹幕游戏,腾讯弹幕游戏云渲染助你一键互动直播

腾讯云音视频团队适时推出了全面的一站式弹幕互动云渲染解决方案。

2024-07-30 09:55:40

青椒云电脑的用户体验和安全性怎么样?细数青椒云在远程办公领域的竞争优势

青椒云电脑的用户体验和安全性怎么样?细数青椒云在远程办公领域的竞争优势

在众多云电脑服务提供商中,青椒云电脑凭借其出色的用户体验和严格的安全性保障,在远程办公领域展现出了独特的竞争优势。

2024-05-31 17:09:19

重构虚拟世界最佳体验,一文了解腾讯云应用云渲染

重构虚拟世界最佳体验,一文了解腾讯云应用云渲染

腾讯云的应用云渲染基于腾讯云强大的GPU算力和音视频串流技术,为用户提供一站式应用云化能力。

2024-06-26 09:37:24

严选云产品

驰亚科技产品赋码平台 驰亚科技产品赋码平台蜂铃系统连接内外部,打通内部及渠道账户体系,连接终端消费者。蜂铃多快好省,为品牌量身打造专属营销活动。营销策略多样化,可应对不同场景需求精准触达。渠道返利,bC一体化利器。
DataHunter智能制造数字化方案 DataHunter智能制造数字化方案,基于IOT平台,连接现场人、机、料、法、环等各项数据,对数据进行整治、编排,实现全方位数据透明、精益管理,以海量数据驱动的智能化生产,基于AI的物联方案:低成本、高效率、可复制、易推广、见效快.
思必驰智能会议平台 思必驰智能会议平台智能化会议终端领导品牌。1080P/4K PTZ云台;高清摄像头;12倍光学变焦 + 16倍 数字变焦;叠加实时字幕。实时语音转文字等功能。
安全狗云网云主机漏洞发现及补丁修复系统 云网·发现及补丁修复系统可以为用户构建属于自己的补丁大数据仓库,用于修补可能导致安全薄弱、破坏关键系统数据或导致系统不可用的漏洞。云网不仅可以进行补丁部署,还可扫描网络漏洞、识别缺失的安全补丁和修补程序,并立即部署以降低网络空间风险。
数云淘域赢家淘系商家消费者运营管理平台 数云淘域赢家淘系商家消费者运营管理平台,官方平台并无有效会员规模要求,只需保证权益在线天数的基础上,重视会员运营,完成优质会员占比或会员成交占比任一指标,达成潜力商家资质,从而可获得会员专享、会员0.01元锁定权益等玩法,继而进一步往优质商家推进。
六部工坊启智模块机器人 启智模块机器人是一款侧重机器人底层硬件教学的模块化套件,在有限的实验课时里快速体验和学习各种机器人构型的优缺点和控制特性,为将来深入学习机器人学打好坚实基础。

甄选10000+数字化产品 为您免费使用

申请试用