icon产品概述icon

IStorM Chaos是一套完整的混沌工程体系化实践工具平台,提供成熟的实践场景和丰富的故障注入手段,通过对业务系统进行平台、中间件、应用等维度的故障注入实验,并提供提供自动化、智能化的混沌实验和体检套餐,帮助技术团队发现更多未知的业务稳定性隐患,有效的提升业务和系统稳定性。

icon应用场景一:提升Kubernetes平台韧性icon
icon应用场景二:提升应用系统稳定性icon
微服务熔断降级演练问题:由于调用关系的复杂性,如果调用链路中的某个资源不稳定,最终会导致请求发生堆积。熔断降级会在调用链路中某个资源出现不稳定状态时(例如调用超时或异常比例升高),对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联错误。
解决方案:通过注入网络延迟/网络丢包/CPU满载/内存负载故障,来验证服务熔断降级的有效性,系统主体业务的稳定性 微服务流量控制演练问题:瞬时的流量高峰可能冲垮应用解决方案:模拟注入入口流量,内部流量,检验流量塑形是否有效保障应用的高可用性。
微服务强弱依赖演练问题:强弱依赖对于架构设计和线上运维非常重要,缺少工程化跟踪方式,持续成本高。解决方案:通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。
icon应用场景三:混沌工程去除系统单点icon
icon应用场景四:混沌工程信创稳定性测试icon
信创所面临的挑战
信创产品成熟度有待提高
信创技术储备不足
信创产品兼容性有待验证
信创生态下端到端解决方案不足
混合环境(传统产品和信创产品) 下,整体稳定性验证不足
信创场景下混沌实验的”坑”
arm64和x86下的网络故障注入能力差异 
针对arm64和x86混合k8s集群, 镜像版本,集群组件的兼容能力;由于调度配置问题,导致信创节 点宕机后,k8s集群出现大量调 度任务导致榨干集群资源
混沌工程助力信创
通过模拟设备级的故障,验证信创产品自愈能力通过注入服务器,操作系统的故障,验证国产服务器,国产操作系统等与常用平台,如Kubernetes的兼容性;针对混合环境(信创和非信创设备),通过模拟各类型产品的故障来测试整体环境的稳定性
icon应用场景五:上云可靠性验证icon
icon故障注入能力:演练场景分层实施,故障场景分级覆盖icon

丰富的可扩展的故障库,除提供所有基础的,基本上涵盖基础资源、平台、中间件、应用。除了所有的已知故障外,还支持快速自定义来扩展故障库。

icon专家故障场景经验icon
微服务重启
应用杀死
强弱依赖
熔断降级
流量控制
应用幂
容器关闭
容器网络抖动
配置文件删除
IO负载故障
容器端口占用
磁盘满载
ser v let访问异常
tomcat内存溢出
服务注册故障
nginx端口故障
消息持久化
minio高可用
路由器高负载
交换机入口断网
DNS域名劫持
防火墙用户上限
负载均衡丢包
堡垒机重启
coredns组件异常
nf s存储服务异常
节点网络延迟
kubelet版本与内
核版本不兼容
国产主机故障
启用psp安全检查
禁用特权容器
容器文件系统检查
命名空间检查
镜像检查
系统安全检查
my sql集群体检
Kubernetes体检
Springc loud微服体检
Redis体检
Kaf ka体检
icon分布式应用管理能力icon

混沌工程实验的故障注入对象是分布式应用,通过实验的方式提升分布式应用的稳定性。将应用接入到IStorM Chaos混沌工程平台后,可 通过平台安装故障注入介质,获取应用的信息,下发故障,完成混沌实验,从整体应用的维度分析稳定性。

icon开箱即用的系统稳定性体检套餐icon

智能推荐实验场景,生成体检套餐;可以自定义应用、平台、基础设施、组件等维度配置标准检查项目;针对检查对象,自动按照套餐中的检查项目开展混沌实验,快速得出体检结论;统计视图可以纵向分析应用技术风险隐患,横向比对或排查故障影响范围。

icon常规实验——灵活的执行方式和过程控制icon

基于工作流引擎的场景编排,支持并行,串行的组合,支持实验计划的手动执行、定时及周期执行、随机自动执行的流程定义,演练过程 灵活可控,可随时终止演练。

icon生产无损级别的实验防护能力icon

事前:对爆炸半径进行控制到应用级别、支持构建网络沙箱,控制流量半径、支持对数据的备份保护、支持云原生生产沙盘实验;事中:支持基于指标基线、告警基线、特征基线的智能化终止保护、支持一键终止保护;事后:自动化故障自愈以及环境恢复、基于应急预案的事后处置;管理:基于项目维度的人员操作和数据权限管理,以及流程审批,审计日志等,确保实验全程可管理。

icon系统稳态指标icon

由内置原子故障智能推荐关联观测指标,也支持自定义指标添加;稳态基线验证故障执行指标及实验结果是否符合预期,以及对实验进行防护。

icon可扩张的指标库,实验过程全程可观测,混沌实验白盒化icon

可扩展指标库:支持Promethus、Zabbix、Influxdb等;场景编排可视化:拖拉拽的可视化编排场景,以及参数配置;注入流程可视化:故障节点执行状态全程可视(完成、实验中、失败等)、过程全程可视(注入状态、生效状态、恢复状态、 稳态判断)、日志展示(开始、结束、失败原因等);可视化的实验观测面板、可视化的实验结果、可视化根因分析。

icon交付形态可选择icon
icon混沌工程应用场景的价值体现icon
icon产品价值icon
稳定性保障
提高企业信息系统稳定性,降低生产故障发生概率
故障风险探知
提高企业信息系统潜在故障和风险的发现能力
专家经验积累
平台内置故障库和故障场景专家经验直接提升企业应对能力
icon案例一:某银行混沌工程项目成果icon

该机构在进行新核心系统改造,微服务化,容器化,云原生化的过程中发现:如何在上生产前验证平台以及应用的稳定性?需寻找 一种机制确保在 IT 架构转型过程中所有业务可以稳定对外提供服务。 根据信通院发表的云原生构建的业务应用的能力成熟度评估模型,从基础平台、应用研发域、服务治理域等方面评估该银行云原生 业务应用在弹性、高可用、自愈性、可观测性以及自动化等方面的云原生能力成熟度。

icon案例一:某银行混沌工程项目成果icon
icon案例二:某证券故障演练平台建设项目icon

第一阶段,通过对集中交易系统研发、运维体系调研,规划、设计并输出混沌工程技术平台和工作流程体系,保障技术平台和系统具备CO2+ (分布式系统稳定性评估)能力要求,加速数字化转型。 第二阶段,建设混沌工程平台,构建实验场景库,投产前通过混沌实验验证研发架构、技术框架策略有效性,为应用研发提供框架可靠性支撑; 投产后,运维团队通过混沌工程,模拟基础设施和业务操作实验,贴近运维故障关注点和预案防范点,提高运维监控、应急响应能力。

产品推荐 查看更多>>
    安科瑞医疗建筑综合能效管理系统

    AcrelEMS-MED医院综合能效管理系统由变电站综合自动化系统、电力监控及能效管理系统组成,压变配电系统、应急电源、IT配电系统、照明控制、设备运维等,贯穿医院能源流的始终,帮助运维管理人员通过一套平台、一个APP实时了解医院配电系统运行状况,并且根据权限可以适用于医院后勤部门管理需要。

    应急电源

    照明控制

    设备运维

    IT配电系统

    博睿宏远网站运营管理

    博睿宏远Bonree Browser通过在网站页面中嵌入JS探针,获取基于真实浏览器用户全样本访问数据,帮助网站运营人员快速定位影响用户体验问题的根源,为客户持续优化网站性能提供参考依据。

    安全可靠

    高效稳定

    壹合原码Ai技术智慧文物监管平台

    壹合原码Ai技术智慧文物监管平台,联相应AI技能的设备会根据配置的AI技能运行时间进行实时监测,当发生违规行为,文物异常、环境异常等事件时,会产生相应的风险告警。告警会生成预警事件图片及事件视频用于回看。对每一个预警事件进行全流程的处理跟踪,以及预警的全生命周期管理。

    离岗识别

    徘徊检测

    人脸识别

    陌生人识别