创新实验室文勇刚:“无人”数据中心管控和运维——人工智能带来的变革

2017-04-13 11:10:01 热度:
2017年4月12-13日,2017亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖峰会、国际CDN论坛、电视新媒体CDN论坛、视频云论坛、未来网络论坛、C未来视频峰会、亚太CDN展览会等7大部分组成。在未来网络论坛上,创新实验室主任、助理院长文勇刚作了题为《“无人”数据中心管控和运维:人工智能带来的变革》的主题报告。
 


图为:创新实验室主任、助理院长文勇刚
 
创业实验室的主任和助理院长文勇刚先生认为借助人工智能算法来提升数据中心的运维和管控能力,来实现数据中心管控的无人化,是目前一个比较挑战性的工作。数据中心运维当中能耗较高,以及人工智能在数据中心可能的应用,他以新加坡落实这个模式为例来具体说明这个问题。 据统计国家超过4万个数据中心,但是能效标准远低于国际标准,全国的POE占2.2左右,POE就是定义为所有的数据中心的能耗/IT设备能耗,它越小越好,接近于1是最好的。50%的电都拿来做智能。为了推动技术发展,在2015年发布了《绿色数据中心试点方案》,他表示在新加坡推动新加坡政府对绿色数据中心的发展时,先制定新加坡的绿色数据中心标准SS564,最后推动了新加坡NIF,相当于我们国家的基金委投入4亿接下来做绿色数据中心的研究。
 
传统数据中心能效管理方面三大痛点
 
文勇刚提出目前在传统数据中心能效管理方面面临着几个比较大的痛点,第一是电费比较高,大概超过20%所有的数据中心成本来源于电费;第二是协调能力比较弱,数据中心和业务部门分属不同的分管领导,他们的目标不一致直接造成的后果,业务部门和数据中心运维部门没有办法协调起来;第三风险比较高,随着业务对数据中心的依赖性越来越强,任何小的改变对业务带来的风险就比较大,造成大家在业务当中不愿意采用新的技术去提升运维效率。这是数据中心运营商调查中发现很多的问题。最后是要求非常严,数据中心要求运维性能非常高,使得一旦一个技术上线以后,很难去改变它。基于这些给数据中心运维和改进带来很多麻烦,他们发现把人工智能算法引入数据中心,开发一套叫Cloud3DView的数据中心节能系统来解决这些麻烦。
 
数据中心节能系统四大特点
 
数据中心节能系统四大特点主要是:1.根据不同的应用场景,测算整体节能。2.方案主要是基于人工智能的算法和软件,具有部署快、成本低的特点。3.联合优化数据中心的供冷、配电和IT系统三个子系统,以期能够达到一个总体的优化目标。4.通过CFD仿真和神经网络的模拟对技术改造,通过新的运维模式来提供比较量化的风险评估和控制达到解决风险问题的目的。
 
人工智能和机器学习如何支撑用户运维?在人工智能范畴里面有一个很重要的部分,叫机器学习。机器学习里面有两个主要的模式:监督学习和无监督学习,监督学习是指有标注过的机器学习,无监督学习就是没有标注的自主学习。在这个之外还有一个叫强化学习,强化学习是一个动态的学习过程,是一边看一边在学习和控制的过程。集中在把强化学习和神经网络结合的一个新的模式,叫深度强化学习。深度强化学习比较成功的一个机器学习的方法。文勇刚举出两个成功的例子,一是AlphaGo打败李世石,二是最近大家关注的德州扑克,它们都是用深度强化学习的方法,在很多方面衍生这种深度强化学习,已经在很多领域表现出能战胜人类专家的潜力。这也是我们相信用这个技术可以很好地帮我们人做数据中心运维,达到我们以前光靠专家很难达到的效果。基于深度强化学习,数据中心无人管控总体解决方案,它是有两套系统,物理系统,物理数据中心,通过传感器采集它的数据,然后传输到我机器学习得出一些结论和控制算法,
 
通过这种模拟策略,用算法在一个3D模型上先进行模拟,判断控制算法会不会对数据中心造成大的影响和危害,然后对这些结果进行可视化。管理人员可以直接看到它的效果,在效果确认之后,才会通过这样一个控制策略直接控制物理中心。这是一个通过深度强化学习的方法,把物理系统和模拟系统建立一个综合技术,叫做数字双身技术,这样一个控制流程与原来单一的只控制物理系统比较,带来的效果会非常有效,主要体现在风险控制方面优先。
   
两个核心技术
 
第一,供冷和计算任务的联合优化,通过数据采集把数据中心里面的参数采集到计算引擎里面,然后把它转化成一个目标优化的数学模型。通过机器学习解决非确定条件下的优化过程,可以开发出一些算法对数据中心有严格的控制,比如提出热感知管理算法;第二是性能感知管理算法,是基于任务对供冷进行感知优化;第三是成本感知管理算法,对成本进行管理算法,我们开发这些算法回头再控制数据中心的运维。
 
第二是基于深度强化学习的数据中心风险量化和评估,通过传感器对数据中心进行实时的数据采集,把数据全部放到一个CFD,第一对热动力学进行模拟,同时也是对他的IT所有的输入输出用神经网络进行评估,评估的结果能看到它在两部分可能遇到的问题,可以看到对方如果继续使用会对数据中心带来的影响,可以考虑能不能持续操作,这就有一个风险控制能力在里面。这个系统的性能指标,把POE降20%-30%,整个供冷成本减少达概到40%,节约成本10%-35%。
 
文勇刚表示这个成果2015年开始做,主要集中在新加坡,他们已经建立了一个比较强的博士研究生和Cloud3DView开发团队,在新加坡开始试点,采用东芝公司提供的集装箱数据平台做测试平台,在新加坡政府、金宝地产和新电信建的两个测试平台试产。这个算法对半导体生产企业和整个生产线进行控制,可以达到节省成本的效果。东南亚业界对此项技术十分认可,在2015年授予了堪称数据中心行业的奥斯卡奖。
 
至少在观念上和传统数据中心运维有一些差别。在新加坡主要是在政府的支持下做试点和落地,主要建立了云平台,用SaaS方式帮新加坡政府各个IT数据中心进行节能优化,在这个平台上为每个政府不同部委数据中心建立独立的平台,我们按他的每个项目收一点成本费。当然现在我们也收建设费,如果它对每个数据基本上是按照每年实际节电费再收取一点钱,大概现在已经有十多个新加坡不同部委的数据中心已经联到我这个平台上帮他做数据中心管控。
    
文勇刚指出,在全球背景下,从2012年左右开始,在2015年完成第一期的时候做试点,虽然在试点的时候遇到一些人的挑战,但是到2016年谷歌发布新闻发布会,人工智能算法实现了制冷能耗,能耗节省高达40%,取得了较好的成效。他指出现在国内还没有公司具体做此项工作,主要是和其他公司、包括国内外公司的合作,比如最近正在与新加坡做的联合项目。研究如何用人工智能的方法去提高数据中心能耗标准,同时对风险又有一个比较量化的管理和控制是目前的主要内容。

责任编辑:方珍