阿里云Prometheus服务是完全兼容可观测事实标准 - Prometheus开源项目的全托管服务。默认集成Grafana看板与智能告警功能。一键观测主流云服务、自建组件/集群,覆盖业务监控/应用层监控/中间件监控/系统层监控。全面优化探针性能与系统可用性,用户无需关注系统可用性与Exporter自研集成。帮助企业快速搭建一站式指标可观测体系。
• 高性能:Agent 部署在用户侧,保留原生采集能力同时, 尽量使用最少资源; 通过采集存储分离架构,提高整体性能;采集组件优化,提升单副本采集能力,降低资源消耗;通过多副本横向扩展均衡分解采集任务,实现动态扩缩,解决开源水平扩展问题。高可用:采集/数据处理/存储组件支持多副版本,保证核心数据链路高可用;基于集群规模可直接进行弹性扩容;支持数据重传,彻底解决丢弃逻辑弊病,确保数据完整性与准确性;查询增强:通过DAG执行优化、算子下推,提升大规模数据查询性能并支持长时间区间秒级查询;通过Global DataSource和Global View实现对多集群统一监控与跨集群聚合查询;开源兼容:兼容标准开源prometheus.yaml采集规则配置文件、适合自定义K8s内监控采集规则ServiceMonitor、默认采集规则Annotation;兼容开源Exporter/Client lib;支持Remoto write,实现自建Prometheus的快速迁移;静态文件配置和动态发现机制发现监控对象,实现轻松迁移及接入。
云产品在各自控制台都提供自身产品的可观测性,但这些云产品的指标及看板散落在各控制台,且无法进行精细化的指标数据应用。Prometheus服务提供云产品监控功能,将这些数据进行统一展现、查询、告警,为运维团队提供更加便捷的日常运维监控界面。
全局统一聚合查询,统一Grafana数据源,统一告警等能力
通过与Grafana服务、链路追踪、应用实时监控服务ARMS、日志服务等阿里云产品组合,帮助企业构建融合指标、链路、日志的完整可观测体系,并广泛应用于IT成本管理、企业风险治理、智能运维、业务连续性保障、敏捷组织等不同运维场景。
场景&痛点:(1)监控范围宽泛,关注点无法聚焦;(2)业务指标无法与运维指标联动,及时关注并分析指标异常;最佳解决方案:根据业务特点,设定业务目标指标、业务服务质量指标、技术组件指标、基础资源指标,通过指标自定义,配置相关抓取任务,关联指标完整展现,提升数据关联性。
场景&痛点:(1)应用性能监控多为独立监控工具,无法与其他监控工具进行有效打通;最佳解决方案:(1)与ARMS应用监控集成,预置应用性能指标观测大盘。(2)针对JVM、Go应用:可为应用埋点,使用ServiceMonitor配置服务发现。(3)针对VPC网络下ECS实例中Java应用,通过Actuator和Micrometer配置服务发现。
场景&痛点:(1)各个云服务可观测看板散落在各自控制台,无法在同一大盘进行统一监控。(2)自建用户想要监控云服务,需要自行开发定制Exporter,拖慢业务上线效率。且Exporter本身REST服务器带来线程消耗,接入云产品越多、指标越多消耗的资源也会增加。最佳解决方案:(1)通过企业云监控获取监控指标,Prometheus免费存储及应用。在用户运维成本未增加的前提下,获得了Prometheus更精细与灵活的的指标加工与应用能力。(2)Prometheus服务提供云产品自监控集成,云产品自监控集成相关指标来源于各云产品,为运维团队提供更加便捷的日常运维监控界面。
场景&痛点:(1)传统监控工具无法适配容器环境动态伸缩,手动配置难度大。开源Prometheus没有高可用架构,无法应对大规模集群海量数据采集、存储、查询需求;(3)Kubernetes 集群内自建数据库、中间件等组件缺乏监控手段。各个组件监控系统相对独立,无法形成统一监控体系,故障排查时间被大幅拉长。最佳解决方案:与阿里云容器服务ACK深度集成,配置容器集群过程中,即可开启Prometheus监控。针对容器提供工作负载性能监控、ingress性能监控、CoreDNS性能监控等组件,并提供专属观测大盘,节省自建监控面板的时间成本。统一大屏包含容器服务、应用组件、云服务和应用自身监控指标,同步云资源Tag进行业务维度监控数据展现;
场景&痛点:(1)由于安全、组织管理等因素,业务通常部署在多个相互隔离的 VPC,需要在多个 VPC 内都重复、独立部署 Prometheus,导致部署和运维成本高。(2)缺少与阿里云 ECS 无缝集成的服务发现(ServiceDiscovery)机制,无法根据 ECS 标签来灵活定义抓取 targets。如果自行实现类似功能,需使用 Golang 开发(调用阿里云 ECS POP 接口)、集成进开源 Prometheus 代码、编译打包后部署,实现门槛高、过程复杂、版本升级困难。最佳解决方案:针对提供 MySQL、Redis 等数十种组件Exporter 。只需要在控制台配置基本信息,即可实现 VPC 内 ECS 上组件指标观测。线下 IDC 通过专线与 VPC 互通,也能采集到线下 IDC 内的组件指标。 针对未提供托管 Exporter 的组件或应用的自定义指标可在 VPC 或 IDC 部署自定义 Exporter 。 Node/Windows Exporter需部署在每台 ECS 上,以便采集 ECS OS 上观测信息。阿里云 Prometheus 提供 Node/Windows Exporter原生支持。
容器基础指标免费。上报自定义指标计费根据每天上报指标数量范围,按阶梯递减累加计算。存储指标费用:15天内免费,若手动变更存储天数超出15天,根据每天的指标上报数量,以每天存储每百万条指标计费0.01元进行累计计算。Prometheus实例 for 容器服务类型包年包月计费方式内置了性能监控套件和集成K8s事件能力,包括集成事件采集、工作负载性能监控、Ingress性能监控、CoreDNS性能监控功能。Prometheus监控实例的大盘将会自动升级为Pro版大盘。包年包月为容量规格和存储时长计费,而按量计费为上报指标采样点数量和存储时长。
短信服务(Short Message Service)是广大企业客户快速触达手机用户所优选使用的通信能力。 调用API或用群发助手,即可发送验证码、通知类和营销短信; 国内验证短信秒级触达,到达率99%;
丰富场景
安全可靠
功能完备
阿里云零信任办公安全平台SASE,一键开启,无需部署,云网络深度集成,CEN、VBR等网络一键打通;线下、异构云三方业务资源,封装式简易配置;跨账号场景统一管控。可随业务需求随时弹性扩/缩容,实时适应业务增长、回退需求。无需服务器单独部署维护,有效控制资源投入。
轻配置,易管理
网络高速,无延时
易使用,无感知
弹性扩容,低成本
阿里云实时计算Flink版,计算结果要低延时,处理无序、无边界的数据,强一致性,保证业务场景可用,支持时间属性的处理。每次增量计算得到的结果,即是当前的精确结果,随用随取,特别适合流计算场景。每一个处理节点能够保留其本地中间状态和上游输入的所有数据。
流式计算
全量计算
增量计算
EventTime