磁盘故障频发有多可怕? 公开数据显示,百度数据中心4年29万次硬件故障中,硬盘故障占比高达81.84%,在所有硬件中,磁盘的故障率是最高的,平均每天多达200次、每月多达6000次的硬盘故障 而磁盘本身在使用过程中,其发生故障的比率在年化0.67%-1%间,严重影响了数据的安全磁盘故障事件频发,重建时间漫长且往往以天计算,数据重建对客户的业务影响很大。数据中心磁盘系统容量不足,会导致系统不可用,客户业务中断 。
●帮助客户预防硬件故障带来的损失,并给出具体的扩容建议 ●为客户提供更稳定、高性能、智能化的存储服务 ●降低存储的复杂性和维护成本
华中科技大学专利授权,益尧科技公司商用开发,目前已部署华为公司正式商用。
益尧科技联合华中科技大学计算机学院、光电国家研究中心、协和医院,汇聚了大量优质的医疗资源和人才资源,具备成长为一家独角兽企业的潜力!
数据中心磁盘预警系统,利用大数据和AI技术,在磁盘故障发生前,有效预测出即将产生故障的磁盘,提早做出告警并及时解决问题,同时针对磁盘的容量和性能作出精准科学预测。
展示集群的基本信息。 信息通过采集程序采集,定时上传到服务器并展示。 其中: 节点个数:集群中的物理服务器个数。 已连接个数:处于监控中的节点个数。 总容量:集群的总硬盘存储空间。 Windows、Linux:每台服务器的主操作系统类型统计。 HDD:所有机械硬盘的个数统计。 SDD:所有固态硬盘的个数统计。
展示每一个节点的当前的基础信息、性能状况。 信息通过采集程序采集,定时上传到服务器并展示。 其中: IP:节点的IP地址。 操作系统:节点的主操作系统类型。 CPU使用率、内存使用率、硬盘容量:节点各项系统资源的使用率。 网络接收、发送:节点与服务器间的通信速率。 IOps:节点每秒钟的IO次数。 硬盘读取、写入:节点的硬盘读写速率。
详细展示每一个节点在一段时间内的CPU利用率变化趋势。 信息通过查询数据库并展示。 其它同类图表同理。
详细展示每一个节点的运行中的主要进程的资源消耗情况。 信息通过采集程序采集,定时上传到服务器并展示。
柱状图,展示各个时间节点(一般为每天)的故障盘的数量,并分为HDD、SSD。 信息通过查询数据库并展示。 (目前没有故障盘所以是空的)。
展示当前使用的故障预测模型的性能指标。 数据通过查询数据库并计算得出。 其中: FDR、FAR、AUC、FNR、Accuracy、Precision、Specificity、ErrorRate为故障预测模型的性能指标。 预测指标:模型训练时生成的指标,根据训练的结果确定,模型一旦训练完毕则指标固定。 真实指标:模型部署后,每次预测都会产生预测结果,通过预测结果与真实结果计算得出模型的真实指标。例如模型预测硬盘A一周内正常,但硬盘A在一周内运行时故障失效,则模型预测错误,其真实性能指标也随之变化。
折线图,展示各个时间节点(一般为每天)的故障盘的数量变化趋势。 信息通过查询数据库并展示。 (目前没有故障盘所以是空的)
折线图,展示各个时间节点(一般为每天)某一特定硬盘的故障趋势变化。 信息通过查询数据库并展示。 其中,根据故障概率将硬盘分为正常、报警、故障,例如: 正常:0% ~ 50% 报警:50% ~ 80% 故障:80% ~ 100% 。
展示所有硬盘的故障预测信息。 信息通过查询数据库并展示。 其中 搜索:通过硬盘的名称查询某一特定硬盘状态。 硬盘Model:硬盘的系列号。 预测时间:最近一次对该硬盘进行故障预测的时间。 状态:正常、报警、故障。
首先选择模型类型(以随机森林为例) 其次设置正负样本比例:默认为1:3,也可选择其它比例。 然后设置验证集占比:默认为10%,小于30%最佳,不可超过100%。 最后根据模型类型,展示相应的“主要参数”列表并设置,例如选择随机森林模型后,网页端展示出如下参数列表: Max Depth:最大深度。 Max Features:最大特征数。 N Estimators:树的个数。 最后点击开始训练按钮,训练模型,上方分别为划分数据集、数据预处理、模型训练的进度条。注意: 不同类型的模型对应不同的主要参数列表。 每个模型的参数数量与参数类型是固定的。 参数的类型可能是整数、小数、字符串。 每个参数的取值以逗号分割,表示该参数的取值范围。例如10,20,30表示参数可以取值10或20或30。 参数的设置都设有默认值,参数调整需要机器学习算法的相关经验。
展示所有模型训练的历史记录。 信息通过查询数据库并展示。