背景:根据国网公司总部的要求,各省公司开展业务系统的应用监测和成效分析,推动业务系统下线及功能优化整合。
实现路径:通过可观测平台,能够观测每一个应用的状态,包括运行状态、健康状态、热度,应用热度按照访问量排序,访问量最大的排最前,访问量小及没有访问量的排最后。通过健康状态、响应时间、错误率等维度对应用的整体使用状态进行评估,分析应用投入产出比。
背景:国网公司新建和已建系统中存在大量的僵尸系统和模块,系统基本无人使用,但是这些系统占用了大量的硬件资源,造成国网系统资源紧张,并且需要投入大量的金钱和人力进行维护。
实现路径:通过可观测平台,采集系统、应用、实例的用户访问数据,包括访问次数、PV、UV、吞吐率等数据评估系统的繁忙程度,通过建模将系统分模块展示其访问量等数据,评估一个应用的访问频次。通过此数据整体评估系统的繁忙程度,为系统的下架、关停提供有效、客观的数据支撑。
通过应用访问频度数据,为应用瘦身提供数据支撑,减少僵尸系统、应用、实例、模块的数量,腾退宝贵的基础架构资源。
背景:国网业务转向互联网,运营管理的视角需要基于业务视角,监控成功交易、失败交易的次数、交易总额等、通过业务看板实时掌握关键业务状态,准确度量和洞察真实用户体验及IT异常事件对业务的影响
实现路径:通过灵活的自定义业务指标配置功能,基于业务场景式的问题还原,支持操作追踪、业务流程追踪和用户交互路径追踪,形成从业务至基础组件的深度关联。
背景:建设的信息系统用户体验差、故障频繁,通过建立红黑榜机制,促进信息系统的优化,提升用户体验。
实现路径:通过对系统的健康状态、运行状态、用户体验数据进行健康,为应用评价提供数据支撑。
背景:国家电网基于临时的业务需要,发布响应的功能,需要对这些功能的业务体验和可用性实时监控,及时掌握运行状态,
实现路径:通过 拨测产品对关键接口配置响应的监测任务,按照一定频率进行访问,获取性能和可用性指标,并实时告警。
背景:网上国网 App 的活跃用户数据是网上国网的重要的业务及运营数据,通过数据指定相应的推广策略,吸引或留住用户。
实现路径:通过基调听云 App 的用户活跃监控模块,实时掌握月活及日活的用户变化数据,为运营管理提供数据支撑。
背景:基于国网公司对构建“研运安”体化管控体系,实现源头控制。要求研发验证、安全测试、生产发布全环节一体化运作,缩短系统发布迭代周期,保障测试环境和生产环境的应用质量一致性。
实现路径:在开发就引入可观测工具,实时监控代码质量和性能瓶颈,辅助开发者进行性能优化。将APM与自动化测试框架集成,确保在单元测试、集成测试及系统测试阶段都能监控到应用的质量表现。
在业务验证环节引入 可观测 工具来帮助研发和测试团队告别黑盒测试在功能和性能测试中让代码性能和异常信息清晰可见。
背景:基于国网公司对构建“研运安”一体化管控体系,实现源头控制。要求发布的系统安全可靠,没有致命的漏洞。
实现路径:在开发就引人基调听云的ASPM产品,提供针对利用代码级漏洞的应用程序级攻击的保护,例如反序列化、服务器端清求伪造(SSRF)、SOL注入、跨站脚本攻击(XS)、内存马攻击等行为,在观试阶段就能够发现问题,保证上线的系统安全可靠。
背景:为了提高业务系统建设研发质量,降低后端运维效率,需要对代码的质量进行监控,优化代码提升系统的健壮性,强化代码质量管控能力。
实现路径:代码级诊断能力通过提供深度的代码分析、链路追踪、异常、性能指标等功能,帮助客户实时诊断代码执行的性能,快速定位并解决问题,提升系统代码健壮性。
背景:电力系统在夏季高温期间,为了应对用电负荷高峰而采取的一系列保障措施和应对策略。此时客服的投诉话务量大幅增长,需要对用户的用能进行保障。同时省公司需要保电,故障及时处理。业务系统的稳定和可用在迎峰度夏期间极为重要,一但业务系统异常直接影响用户用能。
实现路径:通过可观测平台,实施观测应用的状态,一旦发生异常及时发现、告警,并实现根因定位,并且能够对影响的范围做出响应的评估
背景:迎峰度夏期间的话务投诉大幅增长,用户在此期间使用过程中遇到问题会通过 95598 进行投诉,客服对问题难以进行追踪和复现。
实现路径:通过 的“用户旅程回溯”功能,客服像素级重现用户交费、户号绑定、订单查询的全过程。通过教据能够复现用户在那个步骤出现了异常,导致用户无法办理买电购电业务。
背景:国网的业务调用链路复杂,涉及多个环境,希望能够从客户端视角对异常和用户体验问题进行追踪。
实现路径:APM系统能够从真实的客户端追踪到代码、三方接口、数据库、基础架构,实现对问题的快速定位。
背景:国网系统上云,从传统的单体架构变成分布式的架构,链路变的非常复杂,导致异常故障发生后难以对故障节点进行追踪。
实现路径:通过 基调听云的调用链追踪技术,对跨多个服务、语言的应用链路进行追踪,准确、快速定位系统异常节点及异常原因。
业务链路,资源视角向资源和业务视角转变,通过全景式的应用程序拓扑图,可以自动发现和绘制整个应用程序环境的拓扑结构,包括用户体验、应用.进程、Pod、主机、部署环境间的关系。
背景:各网省的二级部署系统是做不到实时的管理和监督,那对于各网省来说,访问总部一级部署系统,是存在跨地域访问的情况的,那运维在做系统维护,特别是排查问题上应该是很复杂
实现路径:在国网的总部和各网省系统部署探针,多个区域都要访问的一级部署系统可以在监控平会设置警报告警,出现问题及时告警排査,避免出现一级部署系统不能访问影响多个地区的业务的情?
背景:国网系统上云,从传统的单体架构变成分布式的架构,链路变的非常复杂,导致异常故障发生后难以对故障节点进行追踪。
实现路径:通过 基调听云的调用链追踪技术,对跨多个服务、语言的应用链路进行追踪,准确、快速定位系统异常节点及异常原因。
背景:某电力公司,6 个月共发布检修 77 次,更新微服务 4754 次,耗费大量的人力和时间资源,检修的系统质量不高,效率低。
实现路径:在业务验证环节和发布上线环节,结合APM工具对系统的异常、性能问题,从客户端到基础架构全面监测,定位全链路问题及时发现问题,及时进行整改,提升检修质量和效率。
背景:国家电网退出面向互联网的 App 应用,包括网上国网、!国网等应用,但是应用的用户体验严重影响了用户的口碑和用户留存
实现路径:通过APM做到可视、可控以及故障快速发现、快速定位、及时止损,建立起一套有效的APM性能监控体系,为APP稳定应用保驾护航。
背景:网上国网 App 是国网公司面向公众的互联网业务,用户在使用过程中遇到问题会通过 95598 进行投诉,客服对问题难以进行追踪和复现。
实现路径:通过RUM的“用户旅程回湖”功能,客服像素级重现用户交费、户号绑定、订单查询的全过程。通过数据能够复现用户在那个步骤出现了异常,导致用户无法办理买电购电业务。
用户体验问已经反馈至研发部门分析并定位根因
背景:网上国网 App 中安装了大量的第三方 SDK,大量的崩溃是第三方的 SDK 导致的,希望通过监控能够区分出第三方 SDK 导致的崩溃
实现路径:通过对网上国网App 拆包,梳理出第三方 SDK 并提取其特征,通过崩溃中信息识别第三方 SDK 导致的崩溃,为第三方 SoK 优化提供数据。
背景:用户在办理用能业务的时候,大量的用户通过小程序进行业务办理,国网需要对小程序的用户体验进行健康。
实现路径:通过小程序监控产品对小程序的一碗面性能、网络请求、访问路径、错误等进行实时监控,提供用户体验分析数据,帮助优化小程序用户体验。
背景:国网 I6000 系统基于基础架构的监控,国网通过整合 APM 的业务性能数据,补全自身监控体系建立统一的运维监控体系。
实现路径:系统的原始数据和中间数据推送到I6000的消息中间件(kafka)上,集成方可按自己的需求进行分析和汇总。
背景:新一代电力交易平台已接入性能监测平台及SG-16000 2.0监控平台,针对系统页面响应速度和运行指标监控两个方面进行系统监测。监控指标包括:系统运行状态、日登陆用户数、数据库响应时长、系统服务响应时长健康运行时长等运行相关指标。新一代电力交易平台目前暂无业务相关指标纳入监控。
建设方案:新一代电力交易平台定制化监控建设方案主要体现核心业务监控场景视角,围绕系统基础资源,性能及用户体验,应用情况等维度通过多维度数据融合实现业务系统定制化全链路监控,全方位感知业务服务状态。
建设目标:通过性能监控指标的分析,和国网的16000数据融合,实现和业务场景的结合快速定位系统异常。
应用成效:目前已经在公司内网和外网部署完成平台,并在市场合规、市场结算、市场服务、信息发布、差异化等业务系统上部署Agent探针,覆盖外网【178】和 内网【247】左右的应用。监控维度主要包括核心微服务健康度指标监控、纵向任务下发成功率指标监控、纵向任务上传成功率指标监控、接口链路健康度指标监控,通过场景的全链路监测监测,实现对场景中业务流转所涉及的关键业务运行状态、调用链路、服务异堂的监测。
成效修改:提供数据支撑
主要监控的指标:
业务:业务健康状态、业务吞吐率、响应时间、错误率、错误数
服务组件-数据库:吞叶率、响应时间、调用次数、异常次数、追踪次数、最大连接数、初始连接数、最小连接数、最大连接数、连接数使用率、连接数空闲率、平均连接时间
应用/实例:吞叶率、响应时间、错误率、堆内存使用、非堆内存使用、GC time、GC count、线程数。
背景:按照中心2020年重点工作安排,进一步提升业务需求的全流程管控水平。提升需求价值评估,对需求的实现应用情况做十工作。使用部门的背景,门户每日产生2万条相关告警信息到有据可查,现开展95598业务支持系统功能应用情况监控统通过数据排查和基础架构关系不大,均是应用的异常导致,但是没有监控的手段能够对应用层面的代码数据库、外部请求进行监控,无法定位问题。
建设方案:通过对 国网门户网站 系统的前端和后端进行监控对系统健康状态、运行状态、用户使用状态数据开展分析,评估用户体验的状态及问题,提供相关优化建议提升系统用户体验
目建设标:实现对国网门户网站系统的健康状态、运行状态用户使用状态实时监控,通过数据分析提升系统的体验,
应用成效:监控了国网门户网站 系统下的基础支撑平台、业务支持系统-北京、业务支持系统-上海等平台,共安装 100 多个 个探针。通过监控、问题定位、优化后,系统的日告从2万条下降至每日 50 条左右。应用服务响应时间由 2000 毫秒下降至
背景:实现用户端健康度评估、业务系统运行画像、服务端及服务端健康度评估、资源指数评估康数据、资源使用数据、用户使用体验数据,通过综合模型实现
建设方案:通过在国网总部的 15 套核心系统部署探针,获取健系统运行画像。
目建设标:通过系统画像工具,将运维部门从被动响应转化为主动响应运维事件,提供规范有效的系统支持工具,规范运维管理。
应用成效:15套系统的“健康度”"资源利用率”监控部署工作,并且根据监控数据开展对15条信息系统的优化工作,通过优化工作提升了15套系统的服务质量,提升用户的体验。共开优化专题 10 次,提出优化建议共 87 条,执行 87 条,系统通过优化 sql 性能和 web 事务性能提升 50%。
背景:为进一步完善XX 移动办公业务性能监控,测试应用程在各种情况下的稳定性、可靠性和响应速度等方面的表现,量化用户的使用体验感知,调控中心组织开展了模拟用户行为工具调研。
建设方案:通过真机拨测产品对移动办公系统的核心业务流进行监控,通过模拟仿真监控发现移动办公系统的异常、崩溃、严重的性能问题
目建设标:通过主动拨测方案,主动发现移动办公应用的问题和定位问题。
应用成效:通过主动拨测,共发现网上国网8类异常,包括启动时间长、启动崩溃、登录耗时长、登录失败、签到失败、交费支云付失败等现象。通过量化APP的使用体验,提前发现异常,主动分析定位,提前解决,减少对用户的影响,减少对企业形象的影响。发现重大故障一次,帮助国网在 5 分钟内定位了问题。
腾云悦智维鹰云智能运维平台,依托人工智能和大数据技术,将各种云平台或监控工具产生的运维告警信息统一进行接收、降噪、分析、转派、处理的事件全生命周期管理平台,让运维团队彻底告别告警风暴。
降噪率高达95%以上
高效便捷的运维值班台
全员零门槛使用
从企业微信可直接使用维鹰
IDC指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用的服务平台,提供服务器托管、独享宽带、CDN加速、多线BGP独享、同城/异地灭备方案等服务。
安全可靠
高效稳定
万昆科技ADAM应用交付智能运维服务平台,ADAM能够将多设备、多区域、多功能、多品牌的负载均衡设备纳入平台统一管理,解决该领域的运维管理痛点。通过自动化、统一管控、功能配置编排、动态关联和协同合作,实现高效运维并能为客户带来显著的收益和价值。
统一管控
功能配置
动态关联
协同合作