云掣ACOS统一运维监控平台_让可观测运维更简单_大数据运维托管服务-云巴巴 -云巴巴

云掣ACOS统一运维监控平台

云掣YUNCHE，袋鼠云旗下企业云服务品牌，以ACOS统一运维监控平台为核心，结合全栈运维专家服务，包括大数据运维托管服务,数据库运维托管服务,应用系统运维托管服务，致力于可观测运维领域，为企业建立可视化的全业务运维管理体系，将IT质量管理与业务质量管理融合。

立即咨询

企业新发展带来的挑战 icon

人才储备
线上业务相关人才

大数据相关人才

数据安全
符合监管政策

商业机密

可观测能力
以业务发展为导向，衡量信息系统，保障用户体验，为数字化业务赋能，解决未知问题

云掣服务的优势

专家团队全栈覆盖
专业团队：成长于原生数据平台产品团队，更专业。10+阿里云MVP专家；全域覆盖：覆盖多个大数据领域的全栈技术服务能力。

运维平台高效支撑
ACOS：轻松建立起业务和基础平台的可观测性能力；EasyManager：开源大数据计算集群的自动化部署、监控和运维工具；运维数字化大屏：直观展示运维数字化信息，指导运维工作开展。

解决方案丰富多样
运维可视化解决方案

DevOps解决方案

基于EasyMR的大数据运维解决方案

云上Oracle RAC解决方案

企业服务专业及时
覆盖能力：累计服务1000+客户，覆盖30+行业；服务能力：年处理事件量26000+，托管数据平台节点量15000+，平均响应时间<10分钟。

传统监控与可观测性的关系 icon

监控（Monitoring）：是以系统可用性为中心，收集、分析和使用明确的信息来观察一段时间内的运行进度，并且进行相应的决策管理的过程。可观测性（Observability）：基于白盒化的思路，通过分析系统生成的数据，构建完整的观测模型，理解推演出系统内部的状态。

统一运维可观测套件ACOS--问题与方向 icon

存在的问题

系统架构复杂：云原生、容器、微服务、大数据集群，应用架构多样，调用关系复杂。监控工具分散：多个监控工具，无法全景展示，数据割裂，无法实现数据共享、统一应用，缺乏业务视角。依赖经验：监控只能反馈问题，故障诊断太依赖专家经验。

需要

统一监控分析能力：覆盖基础设施到用户体验的日志、指标、链路数据，可集成外部监控，统一存储和分析。可观测：丰富的链路展现形式，清晰的故障链路传递图，业务影响面分析与问题根源分析。快速发现、快速定位，不仅定位问题原因，甚至发现隐患。智能运维能力：引入AI辅助决策，结合数据、算法和专家经验。

统一运维可观测套件ACOS--功能大图 icon

统一日志

ACOS统一运维监控平台，让可观测运维更简单 icon

全景监控

全域数据采集和集成

一个监控平台

智能异常发现、预警

适用于运维、开发、运营人员

资源管理与容量分析

资源管理与拓扑设计

基于组织-业务系统―模块实现资源管理，形成资源关系图谱。

繁忙与闲置资源发现

基于水位监控对资源容量和使用效率进行分析，发现繁忙与闲置资源。

业务系统资源优化

基于容量优化建议优化网络层、应用层、数据层资源配置，节约成本支出，保障系统稳定。

运维驾驶舱

12块运维大屏

从宏观到微观，从全局到局部，建设面向老板、运维经理、运维工程师等不同角色、不同粒度监控决策大屏。

专业运维经验总结

从业务–应用–网络-基础设施实现全方位、全层级的决策支持。

基础设施监控

硬件监控物理服务器安全设备存储设备

网络设备监控交换机路由器其他

主机监控操作系统进程

云平台监控公有云私有云混合云

容器监控 Kubernetes Docker

数据库监控关系型数据库非关系型数据库

中间件监控 Web中间件消息中间件其他中间件

业务监控

强大数据采集解析能力

轻量级Agent，支持多种数据源，简单易用的日志切割和灵活的采集配置，同一日志来源支持应用多批次解析。

灵活的可视化报表

简单易用的可视化大盘配置，丰富的可视化图表，支持组织业务架构管理业务大盘。

简单及时的故障告警

支持钉钉、企业微信、电话、短信、邮件、webhook等多种通知渠道，支持基于SQL的告警配置。

关联应用监控的根因定位

支持关联应用监控调用链排查故障。

应用监控

应用性能黄金指标&JVM监控&主机监控

SQL调用分析&NOSQL调用分析

异常分析&错误分析

调用链查询&代码级下钻

智能报告

选择或自定义巡检目标

设定巡检时间

自动产生和发送巡检报告

智能巡检时自动化巡检，通过自定义选择平台系统分析后的指标（或直接采用平台已有的巡检模板)。设定系统自动巡检时间，平台自动完成巡检工作，将报告发送给相关人员。

安全生产可观测解决方案 icon

专业的运维托管服务--助力企业快速获取专业的运维能力 icon

运维服务整体流程

服务接入期

目标：服务顺利接入启动
服务启动会议

成立专业服务团队

明确客户对接人员

对齐服务目标和范围

服务内容、标准、流程介绍及培训

建立日常沟通机制渠道

资源信息搜集整理

必要账号授权

服务建立期

目标：服务体系正式建立
监控接入，建立可观测模型

全面体检，摸排系统环境运行情况

针对体检结果，进行整体一次性优化

运维安全隐患排查加固

建立服务报告制度

环境部署*

数据迁移*

服务保障期

目标：业务连续性保障
7*24小时监控处理

定期巡检

日常技术咨询

组件性能优化

数据备份维护

定期安全检查

安全漏洞修复

故障应急处理与复盘

服务提升期*

目标：降本增效，服务升级
成本分析和优化

资源使用分析和优化

系统架构调整和优化

系统性能优化

高可用、灾备演练

新技术引进和探索

运维服务标准承诺

如遇到重大事件需现场处理，袋鼠云可快速到达现场进行技术支持。

5*8日常运维服务

平均响应时间10分钟以内

限时4小时内提供解决方案或者解决

保证全年95%以上的服务响应率

7*24紧急运维服务

平均响应时间15分钟以内

限时4小时内提供解决方案或者解决

保证全年95%以上的服务响应率

解决方案

案例一：某市健康码全链路监控 icon

背景：XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》，明确XX全面复工复产时间点和任务安排，XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性，支撑XX人民有序复工复产。痛点：ISV厂商众多，缺乏全局视角，快速定界厂商问题。业务链路复杂，出现故障后定位问题困难，缺乏全链路可观测视角。故障频发，被动响应，缺乏体系化故障梳理。时间紧、客户”因为看见，所以相信”，同时需求变动频繁。

案例二：某券商大数据平台升级扩容 icon

需求痛点

由于初期采用开源Apache Hadoop框架建设分布式计算平台已运行2年之久，集群性能每况愈下。需要基于Cloudera的Hadoop发行版CDH(Cloudera’sDistribution Including Apache Hadoop)构建新平台，迁移核心业务，逐步替代老旧Apache Hadoop。

建设内容

架构设计-根据可用的基础计算资源，规划CDH集群规模和数据节点容量，新集群组件组合部署方案。平台建设-盘点生产环境各组件，根据业务需求完成新平台建设细节规划。安全访问控制-实现Ranger与CDH各组件集成，做到HDFS、HBase、Kafka、PrestoSQL的数据安全访问。系统调优-中文乱码、数组越界、查询报错、通信超时、字段转换失败、任务卡顿、元数据异常、参数解析异常。数据迁移-完成精确到Hive表、字段的PB级全量数据迁移校验。

案例三：某电商迁云