mdc-c
前海乐成MDC微模块数据中心集配电系统、UPS系统、精密空调系统、动环监控系统、门禁系统于标准19英寸机柜内,采用模块化设计、标准化生产
IT监控管理
前海乐成MDC微模块数据中心集配电系统、UPS系统、精密空调系统、动环监控系统、门禁系统于标准19英寸机柜内,采用模块化设计、标准化生产
机柜&机架
前海乐成MDC微模块数据中心集配电系统、UPS系统、精密空调系统、动环监控系统、门禁系统于标准19英寸机柜内,采用模块化设计、标准化生产
精密空调
前海乐成MDC微模块数据中心集配电系统、UPS系统、精密空调系统、动环监控系统、门禁系统于标准19英寸机柜内,采用模块化设计、标准化生产
客制化ODM/OEM
解决方案
×

会员登录

0755-2668 5832
sales@drawerkvm.cn
AdeptDC尝试使用人工智能来防止数据中心停机
2018-10-26

        正如谷歌所展示的,应用机器学习来理解热模式并微调数据中心冷却系统以获得最大效率(KVM)是机器学习的一个健全的数据中心用例。但将机器学习应用于数据中心管理的软件初创公司AdeptDC认为,如果它考虑(机柜显示器)的不仅仅是冷却,甚至是电力,它甚至可以更有效。该公司在其早年一直专注于制冷优化,扩大了其能力的范围,希望收集数据的系统,冷却,和硬件,相关的各种信息,整体优化效率,排除,问题事件提醒,防止设备故障通过识别异常。

        AdeptDC首席执行官Rajat Ghosh在一次采访(远程管理)中告诉data center Knowledge, AdeptDC希望最快在下个月推出其数据中心运营商的人工智能助手。它使用相同的机器学习技术,通过Docker容器使用相同的相对简单的安装方法,不需要硬件传感器。该公司了解到,除了从飞行员那里获得冷却,它还需要处理与前景相关的更多问题。

       戈什说:“我们已经在美国和海外的几个数据中心进行了试点,我们从中了解到,降低冷却成本和提高相对效率是件好事,但这并不是(运营商)关心的主要问题。”

       操作人员最担心的是避免出现故障,这通常是由于冷却和相关硬件问题造成的。(上个月灾难性的微软Azure宕机只是最近备受瞩目的例子。)应用它的技术来帮助解决这类问题是AdeptDC的新目标。他说:“我们使用的是相同的机器学习技术,但我们使用的不是电力和冷却优化,而是确保硬件运行正常,并预测性能问题。”

       这意味着从服务器电源和风扇收集操作数据,根据他的说法,服务器电源和风扇的故障是数据中心操作的主要问题。CPU已经在硬件体系结构中得到了处理,但是电力系统和服务器风扇总是会出现故障。AdeptDC的角度是将硬件数据与设备冷却系统的状态数据相关联。Ghosh说,像谷歌这样的公司使用环境数据作为数据中心生态系统和性能整体健康状况的代表。环境数据(温度和湿度)是整个系统健康的一部分,但电压监测也很关键,他建议。电压是数据中心整体健康状况的主要指标;如果电压表现得很奇怪,那么就会出现各种各样的问题。

       安装后大约需要一周的时间来收集足够的数据以获得基线,并开始生成精确的相关性。当发生事故时,这些相关性有助于生成修复建议并对冷却系统进行微调,但最重要的是,它们有助于在正常运行期间检测异常。一旦AdeptDC标记出异常,它的仪表板就会显示出它所在的逻辑层:it、网络或电源和冷却。戈什说:“我们希望捕捉到这些症状,作为早期预警。”相关性也有助于故障排除。该系统包括对事故分类的检查清单,以帮助员工,他们可能在停机期间感到恐慌,或者在错误的地方寻找问题。Ghosh说,当数据中心出现故障时,大多数团队成员会跑到服务器室,但服务器问题可能与冷却问题有关。

有多个故障排除级别:一级用于简单的事情。例如,如果服务器没有亮灯,电源或冷却系统可能会出现问题。下一个级别稍微复杂一些,比如设备内部的电压问题。更复杂的级别处理的是气流数据。如果系统通过较低的层次,而不能识别问题,机器学习功能就会开始查找根本原因与可能导致问题的各种其他来源之间的相关性。

       使用机器学习来处理事件可能有助于弥补熟练数据中心工作人员数量的减少。Ghosh指出,目前人才严重短缺,而且没有大学的数据中心运营管理课程,所以这将是未来的一个大问题。人工智能可以以更系统的方式完成一些工作,我非常希望下一代人工智能能够帮助弥合供需之间的差距。


办公地址:
深圳市宝安区留仙三路长丰工业区F3栋B座
Copyright © DrawerKVM. All Rights Reserved
全国统一热线
0755-2668 5832
业务咨询邮箱 sales@drawerkvm.cn