从云时代迈入AI时代,数据中心准备好了吗?
2019-01-15 22:25:30
  • 0
  • 0
  • 0
  • 0

伴随着云计算、大数据、IoT物联网、AI人工智能、5G等新兴技术的快速发展,数据中心正在成为新型IT基础设施不可或缺的核心,为科技改动世界的步伐不断提速。

譬如华为GIV(Global Industry Vision,全球产业展望)2025白皮书就曾预测:在2025年,全球年新增数据量将达到惊人的180ZB/年,其中多达95%的语音、视频等非结构化数据都要依赖AI处理。而企业对AI的采用率,也将从2015年的16%飞速提升至2025年的86%。

可以预见的是,随着数据中心从云时代向AI时代的进化,未来还会有越来越多的企业利用AI助力决策,提升客户体验,甚至是重塑商业模式与生态系统。

然而在迎接AI时代到来的同时,数据中心和企业用户也正在面临前所未有的严峻挑战。

“去年我见了很多的客户,大家都有一个普遍反馈:过去几年里很多企业都在关注云,然而在把云部署起来之后,却突然发现从AI算力,到网络带宽,再到运营维护,都可以说是困难重重。那么面向AI时代的数据中心网络,究竟应该是什么样子?”华为网络产品线总裁胡克文的这一席话,道出了无数企业的心声。

AI时代数据中心网络面临的三大挑战

胡克文指出,从网络视角来看,数据中心在AI时代正面临三大挑战。

1、AI算力

在传统的以太网时代,千分之一的丢包率还被业界认为是可以接受的。然而随着AI时代的来临,受数据中心网络性能的影响,AI算力正在成为AI商用进程的关键瓶颈。

“千分之一的丢包率对AI时代意味着什么?意味着数据中心的AI算力仅仅只能发挥50%!这是通过我们实际测试发现的问题。”胡克文表示,“未来的网络应该做到零丢包,这是强制性的需要。”

2、网络带宽

2018年,全球年新增数据量是10ZB;然而到了2025年,这个数字将飞速增长到180ZB。这也意味着现有100GE为主的数据中心网络,已经无法支撑未来数据洪水的冲击。

“做到了零丢包之后,我们又碰到了第二个问题,那就是带宽。未来五年流量越增长,AI数据越集中,数据中心越大,带宽需求越多,互访也越频繁。”胡克文表示,“这一点从服务器的升级就可以看出来,从10G到25G再到100G,升级的速度超乎想象,特别是25G到100G在中国的增长,更是远远超过了全球其他区域。”

3、运营维护

随着数据中心服务器规模的不断增加,以及计算网络、存储网络、数据网络的三网融合,数据中心运维人员也迎来了更大的问题。

“计算、存储、数据的三网融合带来了更加复杂的问题,这也让传统的人工运维手段难以为继。譬如遇到一个故障的时候,有可能几天几夜都无法准确定位。”胡克文表示,“我们做网络的都非常辛苦,为什么这么说呢?因为业务部门一般是最先发现问题的,等他找你解决的时候已经是心急火燎、气急败坏,留给你的时间非常短,结果你花几天时间还不一定能解决问题。所以我们做网络的压力都很大,这就迫切需要新的技术来对网络故障进行排查。”

AI时代数据中心交换机的三大特征

“为了应对以上这三大挑战,AI时代的数据中心交换机也应该具备三大特征,那就是内嵌AI芯片、单槽48×400GE以及向自动驾驶网络演进的能力。”胡克文说道。

1、内嵌AI芯片

内置AI芯片的目的非常明确,那就是能够百分之百地发挥AI算力,不至于因为网络问题让AI算力成为瓶颈。

“要做内嵌AI芯片是很难的,非常非常难。但正是因为难才有价值,所以我们坚决在这项技术上进行了突破。”胡克文表示。

2、单槽48×400GE

面对海量数据的增长,为了提供能够满足未来应用需求的足够带宽,单槽48×400GE已经成为现实。但是这也带来了诸多的困难与挑战,譬如超高速信号传输对材料和槽位的限制,急剧增加的功耗,以及随之而来的供电与散热问题等等。

3、向自动驾驶网络演进的能力

对于数据中心运维人员而言,如果能够做到秒级故障识别,那么压力就能减轻很多。因此作为AI时代的数据中心交换机,就必须要有支撑自动驾驶网络的能力。

胡克文指出,要做到自动驾驶网络,主要有三大要素:第一是要有算法,来对不同场景下的各种模式进行识别;第二是要有局域本地的数据,能够让算法据此判断和排查故障;第三是要有本地的推理和执行,这样在不同的网络场景下,判断排查的精度和准确度都能做到非常高。

CloudEngine 16800:为AI时代而生

在深入洞察了AI时代数据中心网络面临的三大挑战,以及AI时代数据中心交换机的三大特征之后,华为也有的放矢地推出了相应的解决方案,那就是CloudEngine 16800数据中心交换机。作为业界首款搭载了高性能AI芯片的数据中心交换机,这款产品可以说是为AI时代而生,具有非常鲜明的特点。

1、内嵌AI芯片,100%发挥AI算力

内置高性能AI芯片,拥有独创iLossLess智能无损交换算法,可实现流量模型自适应自优化,零丢包,低时延,高吞吐,100%发挥AI算力,数据存储IOPS(Input/Output Operations Per Second)性能提升30%……这就是CloudEngine 16800能够让AI算力充分释放的原因。

2、单槽位48×400G,5倍流量交换能力

为了提供足够的网络带宽,CloudEngine 16800突破了超高速信号传输、高效供电、超强散热等多个高密400GE技术难题,实现了单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大768端口400GE交换容量,其交换能力是业界平均值的5倍,满足AI时代流量倍增需求。与此同时在功耗控制方面,其单比特功耗大幅下降了50%,更加绿色节能。

举例来说,单槽48×400GE使得原本16槽位一般只能做到12槽位,而CloudEngine 16800采用新型亚微米级无损材料将超高速电信号传输效率提升30%,从而可以支撑16槽位,并且未来还能支持高密800GE端口平滑演进;

在供电方面,CloudEngine 16800通过SuperPower高效电源技术、磁吹灭弧技术,能够让电源输入切换时间小于6毫秒,并在单个普通电源里做到独立双输入。原本N+N备份时20个模块要加20个模块,现在只需要加1个模块,减少了19个模块的成本;

在散热方面,新一代风扇技术除了可以大大降低噪声之外,SuperCooling技术还可通过相变散热,在普通芯片里内置层中间采用液体与气体,可将单位面积散热效率提升4倍,温度从93.5度降至74.5度,可靠性提升20%。以一台设备满配单板来算,每年光是电费就可以为企业节省26万人民币。

3、使能自动驾驶网络,大幅提升运维效率

基于内置AI芯片,CloudEngine 16800大幅度提升了“网络边缘”即设备级的智能化水平,让交换机具备了本地推理和实时快速决策的能力;通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,使能自动驾驶网络加速到来。同时,该架构还可大幅提升运维系统的灵活性和可部署性。

“作为华为AI发展战略以及全栈全场景AI解决方案的重要组成部分,CloudEngine 16800率先将AI技术引入数据中心交换机,将重新定义数据中心网络的代际切换,助力客户使能和加速AI商用进程,引领数据中心网络从云时代迈入AI时代。”胡克文表示,“这也是华为‘普惠AI’的愿景,让AI不再高高在上,而是让大家都能用得起。这也将助力更多的企业加速智能化转型,共同构建万物互联的智能世界。”


 
最新文章
相关阅读