阿里云可观测监控Prometheus版_云原生指标观测平台

阿里云可观测监控Prometheus版

阿里云Prometheus服务是完全兼容可观测事实标准 - Prometheus开源项目的全托管服务。默认集成Grafana看板与智能告警功能。一键观测主流云服务、自建组件/集群，覆盖业务监控/应用层监控/中间件监控/系统层监控。全面优化探针性能与系统可用性，用户无需关注系统可用性与Exporter自研集成。帮助企业快速搭建一站式指标可观测体系。

立即咨询

首页 > 产品中心 > 监控与运维 > 阿里云可观测监控Prometheus版

云原生发展带来的指标可观测挑战与痛点 icon

• 观测对象种类多，覆盖与打通成难题

从基础设施、中间件、数据库到云服务、业务应用，数据源繁杂且一致性难保证，数据分散在不同运维系统中，缺乏统一管控视角。

• 观测对象动态化，实时监控困难

容器部署普及化，无法及时了解实例变更动态。

• 故障响应缓慢，运维协同敏捷要求高

业务迭代与用户体验要求更快的故障响应与恢复速度，缺乏工单协同管理和经验沉淀路径，依旧依赖手动运维，故障解决周期长。

• 可观测自建系统搭建/维护成本高

自建部署/维护过程复杂，项目周期长，SLA保障差，导致维护成本攀升。

从监控到可观测：指标、链路、日志可观测数据融合 icon

开源自建Prometheus的方案弊端 icon

Prometheus全面覆盖业务监控/应用层监控/˙中间件监控/系统层监控，结合 Grafana 和 Alartmanager 提供一站式指标观测体系。助业务快速发现和定位问题，减轻故障给业务带来的影响。随着Prometheus成为指标观测事实标准， Prometheus已从专精于Kubernetes容器观测延展到全栈指标观测。

自建要面临的问题 & 劣势

运维部署麻烦：自行安装告警/采集/可视化组件，配置复杂，维护频繁；稳定性受限：稳定性内存消耗大，复杂聚合查询需要64G以上内存，易触发稳定性问题；性能存在局限：单次采集的Metrics指标数量无法突破百万级别；运维成本高：存储能力受限于单节点本地存储规模，数据量为有限，远端存储方案带来额外运维成本。

产品介绍

常见应用场景

产品架构

产品优势

产品优势一：开源兼容，性能强化 icon

• 高性能：Agent 部署在用户侧，保留原生采集能力同时，尽量使用最少资源；通过采集存储分离架构，提高整体性能；采集组件优化，提升单副本采集能力，降低资源消耗；通过多副本横向扩展均衡分解采集任务，实现动态扩缩，解决开源水平扩展问题。高可用：采集/数据处理/存储组件支持多副版本，保证核心数据链路高可用；基于集群规模可直接进行弹性扩容；支持数据重传，彻底解决丢弃逻辑弊病，确保数据完整性与准确性；查询增强：通过DAG执行优化、算子下推，提升大规模数据查询性能并支持长时间区间秒级查询；通过Global DataSource和Global View实现对多集群统一监控与跨集群聚合查询；开源兼容：兼容标准开源prometheus.yaml采集规则配置文件、适合自定义K8s内监控采集规则ServiceMonitor、默认采集规则Annotation；兼容开源Exporter/Client lib；支持Remoto write，实现自建Prometheus的快速迁移；静态文件配置和动态发现机制发现监控对象，实现轻松迁移及接入。

产品优势二：云服务集成 icon

云产品在各自控制台都提供自身产品的可观测性，但这些云产品的指标及看板散落在各控制台，且无法进行精细化的指标数据应用。Prometheus服务提供云产品监控功能，将这些数据进行统一展现、查询、告警，为运维团队提供更加便捷的日常运维监控界面。

目前已接入超过 50+ 款云产品，并持续增加！弹性计算类：阿里云 ECS；存储类、阿里云 SLS、阿里云 OSS等；网络类：阿里云 ALB、阿里云 API网关、阿里云 Connector、阿里云 CDN、阿里云 CEN、阿里云 DCDN、阿里云 Cloud NAT、阿里云 EIP等；数据库类：阿里云Clickhouse、阿里云Lindorm、云数据库MongoDB、阿里云 PolarDB、阿里云 RDS PostgreSQL、阿里云 RDS MySQL、阿里云 Redis、阿里云 RDS SQLServer、阿里云 Hologres、阿里云ADB、阿里云 DRDS、阿里云 DTS等；消息队列类：消息队列RabbitMQ、消息队列Kafka、消息队列RocketMQ等；大数据类：阿里云 E-MapReduce、阿里云 Elasticsearch、阿里云 Logstash等；中间件类：企业级分布式应用服务EDAS、微服务引擎MSE - 云原生网关、微服务应用引擎SAE、应用高可用服务AHAS等；运维&安全类：阿里云容器服务ACK、Grafana服务、性能测试PTS、阿里云 WAF等；

产品优势三：Grafana看板增强 icon

预置常见云服务、应用等看板模板

默认集成应用实时监控服务ARMS、云监控CMS、日志服务SLS、阿里云Elasticsearch等云服务，提供各种云服务的数据源配置及预置大盘，实现各种可观测数据的统一展示。

Grafana自由扩展

在预置看板之外，可以通过Grafana官方自由增加新插件，添加新的可视化模板以及数据源，进一步满足个性化运维监控需求。

针对容器等主流服务提供Pro大盘模板

针对容器、消息队列Kafka等主流云服务，提供Grafana Pro大盘，帮助运维进行更加精细化的指标观测。

更加安全的权限管理体系

打通阿里云账号体系OSS（主子账号），并支持阿里云用户权限控制RAM。

产品优势四：智能告警管理增强 icon

多渠道数据推送

支持钉钉、邮件、短信、webhook等10+ 监控数据源，确保及时触达

告警协作提升协同效率

基于钉钉的ChatOPS，借助报警管理、报警记录、历史查看，让告警变得可协作，可追溯，可统计

智能降噪

提供异常检查、智能降噪等算法能力有效减少无效告警

告警根因分析

基于应用上下文的告警根因分析，提升故障定位效率

产品优势五：多实例全局聚合查询 icon

全局统一聚合查询，统一Grafana数据源，统一告警等能力

产品选型（自建 Vs 阿里云Prometheus监控） icon

产品集成组合 – 云原生可观测套件ACOS icon

通过与Grafana服务、链路追踪、应用实时监控服务ARMS、日志服务等阿里云产品组合，帮助企业构建融合指标、链路、日志的完整可观测体系，并广泛应用于IT成本管理、企业风险治理、智能运维、业务连续性保障、敏捷组织等不同运维场景。

应用场景一：业务自定义指标观测 icon

场景&痛点：（1）监控范围宽泛，关注点无法聚焦；（2）业务指标无法与运维指标联动，及时关注并分析指标异常；最佳解决方案：根据业务特点，设定业务目标指标、业务服务质量指标、技术组件指标、基础资源指标，通过指标自定义，配置相关抓取任务，关联指标完整展现，提升数据关联性。

应用场景二：应用性能指标观测 icon

场景&痛点：（1）应用性能监控多为独立监控工具，无法与其他监控工具进行有效打通；最佳解决方案：（1）与ARMS应用监控集成，预置应用性能指标观测大盘。（2）针对JVM、Go应用：可为应用埋点，使用ServiceMonitor配置服务发现。（3）针对VPC网络下ECS实例中Java应用，通过Actuator和Micrometer配置服务发现。

应用场景三：云服务指标观测 icon

场景&痛点：（1）各个云服务可观测看板散落在各自控制台，无法在同一大盘进行统一监控。（2）自建用户想要监控云服务，需要自行开发定制Exporter，拖慢业务上线效率。且Exporter本身REST服务器带来线程消耗，接入云产品越多、指标越多消耗的资源也会增加。最佳解决方案：（1）通过企业云监控获取监控指标，Prometheus免费存储及应用。在用户运维成本未增加的前提下，获得了Prometheus更精细与灵活的的指标加工与应用能力。（2）Prometheus服务提供云产品自监控集成，云产品自监控集成相关指标来源于各云产品，为运维团队提供更加便捷的日常运维监控界面。

应用场景四：容器层指标观测 icon

场景&痛点：（1）传统监控工具无法适配容器环境动态伸缩，手动配置难度大。开源Prometheus没有高可用架构，无法应对大规模集群海量数据采集、存储、查询需求；（3）Kubernetes 集群内自建数据库、中间件等组件缺乏监控手段。各个组件监控系统相对独立，无法形成统一监控体系，故障排查时间被大幅拉长。最佳解决方案：与阿里云容器服务ACK深度集成，配置容器集群过程中，即可开启Prometheus监控。针对容器提供工作负载性能监控、ingress性能监控、CoreDNS性能监控等组件，并提供专属观测大盘，节省自建监控面板的时间成本。统一大屏包含容器服务、应用组件、云服务和应用自身监控指标，同步云资源Tag进行业务维度监控数据展现；

应用场景五：多云ECS/线下IDC应用组件的指标观测 icon

场景&痛点：（1）由于安全、组织管理等因素，业务通常部署在多个相互隔离的 VPC，需要在多个 VPC 内都重复、独立部署 Prometheus，导致部署和运维成本高。（2）缺少与阿里云 ECS 无缝集成的服务发现（ServiceDiscovery）机制，无法根据 ECS 标签来灵活定义抓取 targets。如果自行实现类似功能，需使用 Golang 开发（调用阿里云 ECS POP 接口）、集成进开源 Prometheus 代码、编译打包后部署，实现门槛高、过程复杂、版本升级困难。最佳解决方案：针对提供 MySQL、Redis 等数十种组件Exporter 。只需要在控制台配置基本信息，即可实现 VPC 内 ECS 上组件指标观测。线下 IDC 通过专线与 VPC 互通，也能采集到线下 IDC 内的组件指标。针对未提供托管 Exporter 的组件或应用的自定义指标可在 VPC 或 IDC 部署自定义 Exporter 。 Node/Windows Exporter需部署在每台 ECS 上，以便采集 ECS OS 上观测信息。阿里云 Prometheus 提供 Node/Windows Exporter原生支持。

计费说明（按量付费 & 包年包月） icon

容器基础指标免费。上报自定义指标计费根据每天上报指标数量范围，按阶梯递减累加计算。存储指标费用：15天内免费，若手动变更存储天数超出15天，根据每天的指标上报数量，以每天存储每百万条指标计费0.01元进行累计计算。Prometheus实例 for 容器服务类型包年包月计费方式内置了性能监控套件和集成K8s事件能力，包括集成事件采集、工作负载性能监控、Ingress性能监控、CoreDNS性能监控功能。Prometheus监控实例的大盘将会自动升级为Pro版大盘。包年包月为容量规格和存储时长计费，而按量计费为上报指标采样点数量和存储时长。