IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用

近日 , 腾讯数据中心与清华大学自动化系智网中心团队的贾庆山老师合作论文被第21届IFAC国际自动控制世界大会录取 。 该大会为自动控制领域三大顶会之一 , 将于今年7月在德国柏林举办 。 本届大会将关注可持续资源、绿色能源、数字化和工业4.0等主题 , 人工智能、控制和计算机科学日益重要的融合也将成为大会关注的焦点 。
此次腾讯联合团队投中的论文全称为PredictiveMaintenanceofVRLABatteriesinUPStowardsReliableDataCenters(中文名称:对可靠数据中心UPS使用的VRLA电池的预测性维护) 。
据介绍 , 论文提出的电池故障检测方法 , 填补了此前行业针对UPS(UninterruptiblePowerSystem , 不间断电源)电池基于数据驱动的预测性维护的研究空白 , 相比当前基于专家经验和阈值规则等进行判断的检测方式有更高的准确率 , 同时可以提前预警电池健康状态 , 有效提升数据中心的智能管理水平 , 是人工智能技术在数据中心落地应用的生动实例 。
IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用
文章图片
据了解 , 该研究成果也已经整合形成电池AI诊断服务 , 搭载在腾讯自研的数据中心智能运维平台——腾讯智维上 , 成功支撑了腾讯深汕数据中心的电池健康管理服务交付工作 , 目前已覆盖了腾讯自建数据中心的数万只蓄电池 。 未来 , 将全面覆盖腾讯数据中心的几十万节电池 , 并面向广大行业伙伴开放 。
通过人工智能对数据中心蓄电池进行预测性维护
UPS供电系统是满足数据中心供电质量的核心部分 , 而蓄电池又是UPS系统中最重要的组成之一 , 是整个供电系统的“最后一道屏障” , 在UPS系统的故障中 , 与蓄电池有关的原因占30%以上 。 如果电池故障引起UPS系统宕机 , 关键业务中断 , 将产生很大的经济损失 。 行业调查机构显示:金融行业的数据中心每宕机一小时的损失为1495134美元 , 通讯行业的数据中心每宕机一小时的损失为2066245美元 。 因此通过对蓄电池系统科学的运维管理、监测维护 , 及时发现故障隐患并及时维护更换 , 将极大提升数据中心持续运转的可靠性 。
【IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用】
IT168:AI走进数据中心智能化运维:腾讯与清华联合论文被IFAC录用
文章图片
不间断电源系统使用的蓄电池
面对数据中心成千上万的蓄电池 , 通过人工智能自动化的方式进行检测和维护能极大提升效率 。 但现实中 , AI在蓄电池故障预测的落地并不容易 。 首先 , 由于日常状态UPS中使用的蓄电池通常在浮充状态下运行 , 因此监控数据的信息量远不及进行放电测试所收集的数据 。 第二 , 没有统一的电池更换标准 , 现有的维护策略依赖于专家知识 。 第三 , 电池故障相关的数据量不足 , 使寻找高质量模型的任务具有挑战性 。
此前行业关于用数据驱动电池寿命预测的研究 , 也多关注于电动汽车电池这类可循环使用的电池 , 针对UPS类等常态处于浮充状态电池的健康管理 , 此前未见已有研究 。
针对这些问题 , 腾讯清华联合团队依托于腾讯智维平台提供的海量数据中心运营数据 , 研究了一种用于UPS中VRLA电池的预测维护的新型数据驱动技术 。 据介绍 , 为了提高数据采集和标注的效率 , 团队首先对电池自然老化和内部急剧衰退两种情况 , 提出了一种可以自动标注电池退化时间点的算法 , 分别以电池内阻和电压离群程度进行自动标注 , 避免了数据标注过程中的重复和繁重的体力劳动 。 然后 , 针对蓄电池监控数据数据量大、数据维度低的问题 , 应用特征工程技术对数据维度进行扩展 。 在完成特征工程后 , 研究人员分别训练了逻辑回归、随机森林、梯度提升决策树和人工神经网络模型 , 对蓄电池是否发生故障进行预测 。 实验结果表明 , AI模型对故障电池的预测准确率为98% , 和现有的基于阈值的判断规则相比 , AI模型平均能够提前15天预测电池的故障 。


推荐阅读