icon云原生发展带来的指标可观测挑战与痛点icon
• 观测对象种类多,覆盖与打通成难题
从基础设施、中间件、数据库到云服务、业务应用,数据源繁杂且一致性难保证,数据分散在不同运维系统中,缺乏统一管控视角。
• 观测对象动态化,实时监控困难
容器部署普及化,无法及时了解实例变更动态。
• 故障响应缓慢,运维协同敏捷要求高
业务迭代与用户体验要求更快的故障响应与恢复速度,缺乏工单协同管理和经验沉淀路径,依旧依赖手动运维,故障解决周期长。
• 可观测自建系统搭建/维护成本高
自建部署/维护过程复杂,项目周期长,SLA保障差,导致维护成本攀升。
icon从监控到可观测:指标、链路、日志可观测数据融合icon
icon开源自建Prometheus的方案弊端icon
Prometheus全面覆盖业务监控/应用层监控/˙中间件监控/系统层监控,结合 Grafana 和 Alartmanager 提供一站式指标观测体系。助业务快速发现和定位问题,减轻故障给业务带来的影响。随着Prometheus成为指标观测事实标准, Prometheus已从专精于Kubernetes容器观测延展到全栈指标观测。
自建要面临的问题 & 劣势
运维部署麻烦:自行安装告警/采集/可视化组件,配置复杂,维护频繁;稳定性受限:稳定性内存消耗大,复杂聚合查询需要64G以上内存,易触发稳定性问题;性能存在局限:单次采集的Metrics指标数量无法突破百万级别;运维成本高:存储能力受限于单节点本地存储规模,数据量为有限,远端存储方案带来额外运维成本。
icon产品介绍icon

阿里云Prometheus服务是完全兼容可观测事实标准 - Prometheus开源项目的全托管服务。默认集成Grafana看板与智能告警功能。一键观测主流云服务、自建组件/集群,覆盖业务监控/应用层监控/中间件监控/系统层监控。全面优化探针性能与系统可用性,用户无需关注系统可用性与Exporter自研集成。帮助企业快速搭建一站式指标可观测体系。

icon常见应用场景icon
icon产品架构icon
icon产品优势icon
icon产品优势一:开源兼容,性能强化icon

• 高性能:Agent 部署在用户侧,保留原生采集能力同时, 尽量使用最少资源; 通过采集存储分离架构,提高整体性能;采集组件优化,提升单副本采集能力,降低资源消耗;通过多副本横向扩展均衡分解采集任务,实现动态扩缩,解决开源水平扩展问题。高可用:采集/数据处理/存储组件支持多副版本,保证核心数据链路高可用;基于集群规模可直接进行弹性扩容;支持数据重传,彻底解决丢弃逻辑弊病,确保数据完整性与准确性;查询增强:通过DAG执行优化、算子下推,提升大规模数据查询性能并支持长时间区间秒级查询;通过Global DataSource和Global View实现对多集群统一监控与跨集群聚合查询;开源兼容:兼容标准开源prometheus.yaml采集规则配置文件、适合自定义K8s内监控采集规则ServiceMonitor、默认采集规则Annotation;兼容开源Exporter/Client lib;支持Remoto write,实现自建Prometheus的快速迁移;静态文件配置和动态发现机制发现监控对象,实现轻松迁移及接入。

icon产品优势二:云服务集成icon

云产品在各自控制台都提供自身产品的可观测性,但这些云产品的指标及看板散落在各控制台,且无法进行精细化的指标数据应用。Prometheus服务提供云产品监控功能,将这些数据进行统一展现、查询、告警,为运维团队提供更加便捷的日常运维监控界面。

目前已接入超过 50+ 款云产品,并持续增加!弹性计算类:阿里云 ECS;存储类、阿里云 SLS、阿里云 OSS等;网络类:阿里云 ALB、阿里云 API网关、阿里云 Connector、阿里云 CDN、阿里云 CEN、阿里云 DCDN、阿里云 Cloud NAT、阿里云 EIP等;数据库类:阿里云Clickhouse、阿里云Lindorm、云数据库MongoDB、阿里云 PolarDB、阿里云 RDS PostgreSQL、阿里云 RDS MySQL、阿里云 Redis、阿里云 RDS SQLServer、阿里云 Hologres、阿里云ADB、阿里云 DRDS、阿里云 DTS等;消息队列类:消息队列RabbitMQ、消息队列Kafka、消息队列RocketMQ等;大数据类:阿里云 E-MapReduce、阿里云 Elasticsearch、阿里云 Logstash等;中间件类:企业级分布式应用服务EDAS、微服务引擎MSE - 云原生网关、微服务应用引擎SAE、应用高可用服务AHAS等;运维&安全类:阿里云容器服务ACK、Grafana服务、性能测试PTS、阿里云 WAF等;
icon产品优势三:Grafana看板增强icon
预置常见云服务、应用等看板模板
默认集成应用实时监控服务ARMS、云监控CMS、日志服务SLS、阿里云Elasticsearch等云服务,提供各种云服务的数据源配置及预置大盘,实现各种可观测数据的统一展示。
Grafana自由扩展
在预置看板之外,可以通过Grafana官方自由增加新插件,添加新的可视化模板以及数据源,进一步满足个性化运维监控需求。
针对容器等主流服务提供Pro大盘模板
针对容器、消息队列Kafka等主流云服务,提供Grafana Pro大盘,帮助运维进行更加精细化的指标观测。
更加安全的权限管理体系
打通阿里云账号体系OSS(主子账号),并支持阿里云用户权限控制RAM。
icon产品优势四:智能告警管理增强icon
多渠道数据推送
支持钉钉、邮件、短信、webhook等10+ 监控数据源,确保及时触达
告警协作提升协同效率
基于钉钉的ChatOPS,借助报警管理、报警记录、历史查看,让告警变得可协作,可追溯,可统计
智能降噪
提供异常检查、智能降噪等算法能力有效减少无效告警
告警根因分析
基于应用上下文的告警根因分析,提升故障定位效率
icon产品优势五:多实例全局聚合查询icon

全局统一聚合查询,统一Grafana数据源,统一告警等能力

icon产品选型(自建 Vs 阿里云Prometheus监控)icon
icon产品集成组合 – 云原生可观测套件ACOSicon

通过与Grafana服务、链路追踪、应用实时监控服务ARMS、日志服务等阿里云产品组合,帮助企业构建融合指标、链路、日志的完整可观测体系,并广泛应用于IT成本管理、企业风险治理、智能运维、业务连续性保障、敏捷组织等不同运维场景。

icon应用场景一:业务自定义指标观测icon

场景&痛点:(1)监控范围宽泛,关注点无法聚焦;(2)业务指标无法与运维指标联动,及时关注并分析指标异常;最佳解决方案:根据业务特点,设定业务目标指标、业务服务质量指标、技术组件指标、基础资源指标,通过指标自定义,配置相关抓取任务,关联指标完整展现,提升数据关联性。

icon应用场景二:应用性能指标观测icon

场景&痛点:(1)应用性能监控多为独立监控工具,无法与其他监控工具进行有效打通;最佳解决方案:(1)与ARMS应用监控集成,预置应用性能指标观测大盘。(2)针对JVM、Go应用:可为应用埋点,使用ServiceMonitor配置服务发现。(3)针对VPC网络下ECS实例中Java应用,通过Actuator和Micrometer配置服务发现。

icon应用场景三:云服务指标观测icon

场景&痛点:(1)各个云服务可观测看板散落在各自控制台,无法在同一大盘进行统一监控。(2)自建用户想要监控云服务,需要自行开发定制Exporter,拖慢业务上线效率。且Exporter本身REST服务器带来线程消耗,接入云产品越多、指标越多消耗的资源也会增加。最佳解决方案:(1)通过企业云监控获取监控指标,Prometheus免费存储及应用。在用户运维成本未增加的前提下,获得了Prometheus更精细与灵活的的指标加工与应用能力。(2)Prometheus服务提供云产品自监控集成,云产品自监控集成相关指标来源于各云产品,为运维团队提供更加便捷的日常运维监控界面。

icon应用场景四:容器层指标观测icon

场景&痛点:(1)传统监控工具无法适配容器环境动态伸缩,手动配置难度大。开源Prometheus没有高可用架构,无法应对大规模集群海量数据采集、存储、查询需求;(3)Kubernetes 集群内自建数据库、中间件等组件缺乏监控手段。各个组件监控系统相对独立,无法形成统一监控体系,故障排查时间被大幅拉长。最佳解决方案:与阿里云容器服务ACK深度集成,配置容器集群过程中,即可开启Prometheus监控。针对容器提供工作负载性能监控、ingress性能监控、CoreDNS性能监控等组件,并提供专属观测大盘,节省自建监控面板的时间成本。统一大屏包含容器服务、应用组件、云服务和应用自身监控指标,同步云资源Tag进行业务维度监控数据展现;

icon应用场景五:多云ECS/线下IDC应用组件的指标观测icon

场景&痛点:(1)由于安全、组织管理等因素,业务通常部署在多个相互隔离的 VPC,需要在多个 VPC 内都重复、独立部署 Prometheus,导致部署和运维成本高。(2)缺少与阿里云 ECS 无缝集成的服务发现(ServiceDiscovery)机制,无法根据 ECS 标签来灵活定义抓取 targets。如果自行实现类似功能,需使用 Golang 开发(调用阿里云 ECS POP 接口)、集成进开源 Prometheus 代码、编译打包后部署,实现门槛高、过程复杂、版本升级困难。最佳解决方案:针对提供 MySQL、Redis 等数十种组件Exporter 。只需要在控制台配置基本信息,即可实现 VPC 内 ECS 上组件指标观测。线下 IDC 通过专线与 VPC 互通,也能采集到线下 IDC 内的组件指标。 针对未提供托管 Exporter 的组件或应用的自定义指标可在 VPC 或 IDC 部署自定义 Exporter 。 Node/Windows Exporter需部署在每台 ECS 上,以便采集 ECS OS 上观测信息。阿里云 Prometheus 提供 Node/Windows Exporter原生支持。

icon计费说明(按量付费 & 包年包月)icon

容器基础指标免费。上报自定义指标计费根据每天上报指标数量范围,按阶梯递减累加计算。存储指标费用:15天内免费,若手动变更存储天数超出15天,根据每天的指标上报数量,以每天存储每百万条指标计费0.01元进行累计计算。Prometheus实例 for 容器服务类型包年包月计费方式内置了性能监控套件和集成K8s事件能力,包括集成事件采集、工作负载性能监控、Ingress性能监控、CoreDNS性能监控功能。Prometheus监控实例的大盘将会自动升级为Pro版大盘。包年包月为容量规格和存储时长计费,而按量计费为上报指标采样点数量和存储时长。

icon计费对比(按量付费 & 包年包月)icon
icon奖项证书icon
icon客户案例icon
产品推荐 查看更多>>
    短信服务

    短信服务(Short Message Service)是广大企业客户快速触达手机用户所优选使用的通信能力。 调用API或用群发助手,即可发送验证码、通知类和营销短信; 国内验证短信秒级触达,到达率99%;

    丰富场景

    安全可靠

    功能完备

    阿里云零信任办公安全平台SASE

    阿里云零信任办公安全平台SASE,一键开启,无需部署,云网络深度集成,CEN、VBR等网络一键打通;线下、异构云三方业务资源,封装式简易配置;跨账号场景统一管控。可随业务需求随时弹性扩/缩容,实时适应业务增长、回退需求。无需服务器单独部署维护,有效控制资源投入。

    轻配置,易管理

    网络高速,无延时

    易使用,无感知

    弹性扩容,低成本

    阿里云实时计算Flink版

    阿里云实时计算Flink版,计算结果要低延时,处理无序、无边界的数据,强一致性,保证业务场景可用,支持时间属性的处理。每次增量计算得到的结果,即是当前的精确结果,随用随取,特别适合流计算场景。每一个处理节点能够保留其本地中间状态和上游输入的所有数据。

    流式计算

    全量计算

    增量计算

    EventTime