icon企业新发展带来的挑战icon
人才储备
线上业务相关人才
大数据相关人才
数据安全
符合监管政策
商业机密
可观测能力
以业务发展为导向,衡量信息系统,保障用户体验,为数字化业务赋能,解决未知问题
icon云掣服务的优势icon
专家团队全栈覆盖
专业团队:成长于原生数据平台产品团队,更专业。10+阿里云MVP专家;全域覆盖:覆盖多个大数据领域的全栈技术服务能力。
运维平台高效支撑
ACOS:轻松建立起业务和基础平台的可观测性能力;EasyManager:开源大数据计算集群的自动化部署、监控和运维工具;运维数字化大屏:直观展示运维数字化信息,指导运维工作开展。
解决方案丰富多样
运维可视化解决方案
DevOps解决方案
基于EasyMR的大数据运维解决方案
云上Oracle RAC解决方案
企业服务专业及时
覆盖能力:累计服务1000+客户,覆盖30+行业;服务能力:年处理事件量26000+,托管数据平台节点量15000+,平均响应时间<10分钟。
icon传统监控与可观测性的关系icon

监控(Monitoring):是以系统可用性为中心,收集、分析和使用明确的信息来观察一段时间内的运行进度,并且进行相应的决策管理的过程。可观测性(Observability):基于白盒化的思路,通过分析系统生成的数据,构建完整的观测模型,理解推演出系统内部的状态。

icon统一运维可观测套件ACOS--问题与方向icon
存在的问题
系统架构复杂:云原生、容器、微服务、大数据集群,应用架构多样,调用关系复杂。 监控工具分散:多个监控工具,无法全景展示,数据割裂,无法实现数据共享、统一应用,缺乏业务视角。 依赖经验:监控只能反馈问题,故障诊断太依赖专家经验。
需要
统一监控分析能力:覆盖基础设施到用户体验的日志、指标、链路数据,可集成外部监控,统一存储和分析。 可观测:丰富的链路展现形式,清晰的故障链路传递图,业务影响面分析与问题根源分析。快速发现、快速定位,不仅定位问题原因,甚至发现隐患。 智能运维能力:引入AI辅助决策,结合数据、算法和专家经验。
icon统一运维可观测套件ACOS--功能大图icon
icon统一日志icon
iconACOS统一运维监控平台,让可观测运维更简单icon
全景监控
全域数据采集和集成
一个监控平台
智能异常发现、预警
适用于运维、开发、运营人员
资源管理与容量分析
资源管理与拓扑设计
基于组织-业务系统―模块实现资源管理,形成资源关系图谱。
繁忙与闲置资源发现
基于水位监控对资源容量和使用效率进行分析,发现繁忙与闲置资源。
业务系统资源优化
基于容量优化建议优化网络层、应用层、数据层资源配置,节约成本支出,保障系统稳定。
运维驾驶舱
12块运维大屏
从宏观到微观,从全局到局部,建设面向老板、运维经理、运维工程师等不同角色、不同粒度监控决策大屏。
专业运维经验总结
从业务–应用–网络-基础设施实现全方位、全层级的决策支持。
基础设施监控
硬件监控 物理服务器 安全设备 存储设备
网络设备监控 交换机 路由器 其他
主机监控 操作系统 进程
云平台监控 公有云 私有云 混合云
容器监控 Kubernetes Docker
数据库监控 关系型数据库 非关系型数据库
中间件监控 Web中间件 消息中间件 其他中间件
业务监控
强大数据采集解析能力
轻量级Agent,支持多种数据源,简单易用的日志切割和灵活的采集配置,同一日志来源支持应用多批次解析。
灵活的可视化报表
简单易用的可视化大盘配置,丰富的可视化图表,支持组织业务架构管理业务大盘。
简单及时的故障告警
支持钉钉、企业微信、电话、短信、邮件、webhook等多种通知渠道,支持基于SQL的告警配置。
关联应用监控的根因定位
支持关联应用监控调用链排查故障。
应用监控
应用性能黄金指标&JVM监控&主机监控
SQL调用分析&NOSQL调用分析
异常分析&错误分析
调用链查询&代码级下钻
智能报告
选择或自定义巡检目标
设定巡检时间
自动产生和发送巡检报告
智能巡检时自动化巡检,通过自定义选择平台系统分析后的指标(或直接采用平台已有的巡检模板)。设定系统自动巡检时间,平台自动完成巡检工作,将报告发送给相关人员。
icon安全生产可观测解决方案icon
icon专业的运维托管服务--助力企业快速获取专业的运维能力icon
icon运维服务整体流程icon
服务接入期
目标:服务顺利接入启动
服务启动会议
成立专业服务团队
明确客户对接人员
对齐服务目标和范围
服务内容、标准、流程介绍及培训
建立日常沟通机制渠道
资源信息搜集整理
必要账号授权
服务建立期
目标:服务体系正式建立
监控接入,建立可观测 模型
全面体检,摸排系统环境运行情况
针对体检结果,进行整体一次性优化
运维安全隐患排查加固
建立服务报告制度
环境部署*
数据迁移*
服务保障期
目标:业务连续性保障
7*24小时监控处理
定期巡检
日常技术咨询
组件性能优化
数据备份维护
定期安全检查
安全漏洞修复
故障应急处理与复盘
服务提升期*
目标:降本增效,服务升级
成本分析和优化
资源使用分析和优化
系统架构调整和优化
系统性能优化
高可用、灾备演练
新技术引进和探索
icon运维服务标准承诺icon
如遇到重大事件需现场处理,袋鼠云可快速到达现场进行技术支持。
5*8日常运维服务
平均响应时间10分钟以内
限时4小时内提供解决方案或者解决
保证全年95%以上的服务响应率
7*24紧急运维服务
平均响应时间15分钟以内
限时4小时内提供解决方案或者解决
保证全年95%以上的服务响应率
icon解决方案icon
icon案例一:某市健康码全链路监控icon

背景:XX市新型冠状病毒肺炎疫情防控工作领导小组办公室下发《关于我市持续巩固疫情防控成果有序复工复产的实施方案》,明确XX全面复工复产时间点和任务安排,XX大数据中心要求防疫相关的扫码等服务系统务必保证稳定性,支撑XX人民有序复工复产。痛点:ISV厂商众多,缺乏全局视角,快速定界厂商问题。业务链路复杂,出现故障后定位问题困难,缺乏全链路可观测视角。故障频发,被动响应,缺乏体系化故障梳理。时间紧、客户”因为看见,所以相信”,同时需求变动频繁。

icon案例二:某券商大数据平台升级扩容icon
需求痛点
由于初期采用开源Apache Hadoop框架建设分布式计算平台已运行2年之久,集群性能每况愈下。需要基于Cloudera的Hadoop发行版CDH(Cloudera’sDistribution Including Apache Hadoop)构建新平台,迁移核心业务,逐步替代老旧Apache Hadoop。
建设内容
架构设计-根据可用的基础计算资源,规划CDH集群规模和数据节点容量,新集群组件组合部署方案。平台建设-盘点生产环境各组件,根据业务需求完成新平台建设细节规划。安全访问控制-实现Ranger与CDH各组件集成,做到HDFS、HBase、Kafka、PrestoSQL的数据安全访问。系统调优-中文乱码、数组越界、查询报错、通信超时、字段转换失败、任务卡顿、元数据异常、参数解析异常。数据迁移-完成精确到Hive表、字段的PB级全量数据迁移校验。
icon案例三:某电商迁云icon
需求痛点

电商行业,主营线上购物业务。业务数据量18T,每月增量1T+,大促高峰期业务时长出现白屏卡顿,希望数据库上云,大促业务流畅,支持百万级QPS。数据库节点异常不能影响业务,需要异地灾备,优化数据架构适应应用百万级QPS。

建设内容

MHA ProxySQL+Keepalived+Mysql建设两地三中心云上架构。业务架构优化:数据库实施分库分表,实现一库一表,降低大促单库压力。

项目成果

迁云:上云前后业务不中断,上云过程安全平滑。运维托管:根据云掣10年阿里秒杀架构经验优化客户业务逻辑架构和数据库物理架构,实现亿级秒杀高并发架构,同时性能提升35%,资源成本节省10%。

icon公司资质和荣誉icon
icon客户数字化转型的选择icon
产品推荐 查看更多>>
    格创东智设备健康管理系统EHM

    格创东智设备健康管理系统EHM,构建360度的数字化档案,全局、全时数据,包括设备资产静态主数据和结构模型、动态记录、参数运行记录等。可以定义点检、换产、润滑、维修等不同类型工单。形成标准SOP指导,提高设备维保效率。实现备件耗用和工单、设备的绑定,备件寿命测算、预警,备件库存预警,自动采购申请对接等。

    定义点检

    SOP指导

    备品备件

    状态监测

    策略智能运维平台

    策略智能运维平台实现工单申请、路径仿真、策略检查、风险分析、配置生成下发、路径验证与报告审计全流程自动化,解决策略运维效率低与业务敏捷性高的矛盾,持续保障策略变更的准确、高效与合规。

    安全可靠

    高效稳定

    基调听云智能可观测性平台

    基调听云新一代贯通全栈IT与业务的智能可观测性平台,涵盖五个层面的能力升级:一是全栈数据采集,二是多维多源智能分析,三是以应用和业务为中心,四是可观测数据的纵横融合打通,五是全方位可观测,帮助企业从容应对数字化时代挑战,助力业务增长。

    全栈数据采集

    多维多源智能分析

    全方位可观测

    助力业务增长