从物理环境的“圈养式”运维,走向云环境的“散养式”运维,云原生的出现在加速应用开发进程与促进云资源自由扩缩的同时,云网运维正面临着越来越多的失控危机。
在成全云资源自由变换的同时,云原生网络正呈现出高密度、多层级与频变动的三大特性:
高密度,大型企业的私有云环境中往往部署了上千台宿主机,由于虚拟化后的资源对象数量呈指数级上涨,因此拥有上万个虚拟节点成为常态。与此同时,虚拟网络以及虚拟化后的防火墙、负载均衡器、网关等关键组件数量也会成倍数增长。
多层级,从横向来看,云网增加了大量的虚拟交换机、多路复用器等虚拟化设施,网络会话从A端发送至B端需要经历多次IP转换;从纵向来看,网络会话还需要经过从Overlay到Underlay的多层封装。
频变动,虚拟化资源调度是云原生的技术优势,但同时高频的调度,也使得共享的计算、网络、存储资源之间产生多样的或深层的相互影响。
因此,随着云原生环境下资源数量暴增、云网快速动态变更、网络传输路径愈发复杂等因素,传统“圈养式”的运维管理模式已经难以应对。若要看清云网流量的来龙去脉,杜绝云上业务应用“云深不知处”,具备全栈全路径的统一观测性能力是关键。近日,天旦举办新产品发布会,正式发布“云起·智观CloudObserver”云网可观测性分析等产品,呈现天旦的解决之道。
技术驱动“硬实力”,赋能“智观”与云赛跑
现有的可观测性技术基本都源自传统运维技术的迭代升级。当运维技术面对云技术与云应用的赛跑落于下风时,现有的可观测性技术就会出现覆盖面窄、可扩展性有限等问题。数据是实现云网运维监控与可观测性的基本要素。因此,天旦认为,构建全栈全路径的统一可观测性能力的第一步,当从统一云中的观测数据开始。
Netis Telemetry,统一云中观测数据
Netis Telemetry是一套全新的可观测性技术标准,通过将云中观测数据进行标准化与统一化处理,进而实现快速的数据传输与极高的数据处理性能。Netis Telemetry由标准描述文档、软件开发包与分析调试工具组成,是业界首个全栈统一可观测性技术的工程实践。
以Netis Telemetry为核心,让天旦最新发布的云网可观性分析产品“智观”CloudObserver能够解决横纵向、多层级的网络交互与会话传输问题,让运维对变化多端的云网流量“看得全、看得细”。
“三大核心技术”应对“云网三大挑战”
天旦对于智能运维技术的研究探索已有多年,曾连续进入Gartner人工智能技术、AIOps等权威报告。“智观”产品汇集来自天旦智能化技术与云网专家团队的经验,凝练成智能标签、智能关联与智能事件“三大核心技术”,逐个击破云网“高密度、多层级与频变动”的管理难题。
智能标签技术 vs 高密度:
“智观”将Netis Telemetry数据与云网元数据结合,为数据打上智能标签,建立了云网资源从属关系的多维度映射,可随时获得任意维度切面的统计数据,全面覆盖区域、可用区、虚拟网络、主机、虚机、服务,可以轻松透视云网资源,进而解决了高密度的难题。
智能关联技术 vs 多层级:
天旦汇集了国内顶尖的云网专家,开创性地建立了网络会话指纹算法,打通纵向Overlay/Underlay的从属关系,实现横向跨越3、4、7层网络设施的前后关联,在云网内追踪全栈全路径的会话流转过程,进而解决了多层级的难题。
智能事件技术 vs 频变动:
“智观”的智能化技术可以解决云网资源监测和告警难题,为不同的场景适配阈值、离群、变化、异常等算法,让系统自动适配资源变更,自动发现异常问题,免去或减少人工维护的成本,进而解决了频变动的难题。
(“智观”三大核心技术)
“智观”CloudObserver
让云网流量分析“看得全、看得细”
云网通信,关系错综复杂。对于云管运维团队而言,既需要总览全局,还需要细查局部,实现全栈全路径观测。同时,还需要以应用保障为核心,实时洞察云网异常,通过快速、智能化的排障工作流,将云网管理化繁为简,赋能业务高质量发展。
(“智观”核心技术与功能全景图)
“四大智能引擎”,十倍好的“智观”性能
“智观”采用天旦自主研发的云原生技术底座,通过“四大智能引擎”驱动云网运维管理迈向智能化、自动化。
标签引擎:完成Netis Telemetry数据的丰富加工,建立多维切面,为下游功能模块准备数据;
图引擎:实时计算纵横交错的网络访问关系,绘制云网地图;
高速时序数据引擎:记录原始网络会话,并进行预处理,为下游应用加速;
AI引擎:专门针对云原生网络技术特点进行算法优化,提供异常洞察能力。
“智观”的四大智能引擎,为高密度的云原生网络专门设计,具备大容量、低延迟的网络会话数据处理和查询能力,在十亿数据集下,可以秒级输出会话查询结果。配合Netis Telemetry数据,实现用网络报文5-10%的容量成本,解决云网分析问题,性能和使用体验得以提升十倍以上。
此外,“智观”还通过应用四大智能算法,适配不同场景,实时洞察云网异常。
阈值算法,用于有固定SLA要求的指标;
离群算法,多用于微服务场景下有相同特征的同组对象的指标;
变化算法,适用于长期小幅波动特征的指标;
异常算法,适用于有趋势特征的指标。
“智观”五大核心功能,落地全栈全路径观测
“智观”拥有云图、实况、追踪、分析、洞察等五大核心功能,落地云网可观测性分析的“全”与“细”:
云图,提供总览与细查功能。一方面,提供飞行云图查看全局状态;另一方面,提供细查与多层追踪功能。“查资产”,通过区块的层级区分,识别从属关系;“查路径”,通过节点和连线识别通信路径;“查状态”,通过节点标识,发现异常和故障事件;
实况,提供会话明细查询功能;
追踪,提供故障定位分析功能,通过Netis Telemetry数据明细,定位故障根因;
分析,提供多维统计分析功能;
洞察,提供指标与服务异常的自动发现功能。
“智观”三步工作流,让云网排障化繁为简
面对云网环境的运维排障等工作场景,基于“智观”的产品功能,专门设计“查路径—看指标—追踪定位”的三步分析工作流,能够将排障分析时间缩减一半以上。
(“智观”三步工作流)
通过“智观”进行快速排障的案例:
问题发现:某云管团队收到用户报障信息后,发现云内业务访问变慢。
排障方法:利用“智观”云图功能,通过“查路径、看指标、追踪定位”的三步工作流定位根因。
排障过程:
第一步:在云图中查询路径,看到这是一个云外分行客户端,向云内服务发起访问的场景,展开靠近服务端的路径详情,可以看到会话存在重传现象。
第二步:继续向下展开会话列表,专家系统已经直接将这些会话状态标识成了黄色,发现重传指标均存在异常。
第三步:选择一条重传会话进行追踪分析,展开会话路径,看到从客户端到服务端,经过的每个节点以及会话逐段流转的路径都已经按照时间和方向序列关联在一起。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-22 16:07:38
2022-11-21 15:21:21
2023-12-11 16:54:21
2022-11-23 16:32:48
2022-11-23 15:55:41
甄选10000+数字化产品 为您免费使用
申请试用
评论列表