当前速读:腾讯云织了张AI大模型的“网”
时间:2023-06-28 15:04:00来源:光子星球

眼下AIGC激荡着各个行业,随着产品落地、应用增加,如何提升算力成为了整个行业的迫切需求,不过算力的提升并非只靠购买大量的GPU就能实现,网络基础设施起着至关重要的作用。

由于GPU集群之间的数据交换与通信都要依靠网络承接,如果网络带宽不够大、延时长,不仅会让算力边际递减,而且还增加了大模型训练的时间成本。因此大带宽、高利用率并且信息无损的高性能网络对于当下算力的提升尤为重要。


(资料图)

日前,腾讯云在北京举办了一场面向AI大模型的高性能网络沟通会,向外界首次完整披露了其自研的星脉高性能网络。

腾讯云副总裁王亚晨提到,星脉网络为大模型而生,提供大带宽、高利用率、零丢包率的高性能网络服务,从而突破算力瓶颈。腾讯数据中心网络总监李翔在介绍星脉的演进过程时,用了一个通俗的比喻:如今业务和客户对我们算力网络有了更高要求,过去前两个阶段我们是“村村通”,解决大规模部署和广覆盖的问题,到了第三个阶段的星脉网络,我们要做的是全自动化、无拥塞的高速公路。

沟通会上,腾讯云展示了在交换机、通信协议、通信库以及运营系统等软硬件方面的升级,推出了自研的大模型专属高性能网络“星脉”。

在硬件方面,在硬件方面,星脉网络自研白盒交换机,这是一种软硬件解耦的开放网络设备,采用四层解耦体系,包括接入、转发、路由、管控系统。在自研设备的基础之上,腾讯云还构建了自研网络操作系统,包括网络OS与网管平台,构建了互联底座,实现自动化部署和配置。

在软件方面,腾讯云自研的TiTa网络协议,能够实时监测并调整网络拥塞,TiTa网络协议能够提升40%的带宽负载,还能提供低延时无损网络,实现高负载下的0丢包,使集群通信效率达90%以上。

此外,腾讯云还为星脉网络设计了高性能集合通信库TCCL,为星脉网络提供定制化的高性能节点间数据通信解决方案。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。

腾讯云方面称,星脉网络集成了腾讯自研技术积累,以极致高性能实现了AI大模型通信性能的10倍提升,GPU利用率40%提升,通信时延降低40%,支持10万级 GPU 集群组网。基于全自研网络硬件平台网络建设成本降低30%,模型训练成本节省30%~60%。

王亚晨与李翔在会上回应了诸多外界关注的问题。

提问:腾讯高性能网络的主要优势在哪里?技术关键点集中在哪些地方?

王亚晨:腾讯在以太网上的优化从去年年初就开始了。从国内来看,我们是以太网里针对GPU优化比较有优势的,为什么我们会和其他厂商做那么多全调度以太网的合作?因为我们做了很多优化,尤其是在协议自研这块。

另一个优势在于我们的架构。我们是把存储跟计算做了分离,保证两边的性能更优。

无论是1.6T还是3.2T的GPU,我们可能用了8张GPU,一个CPU,加上8张网卡,但腾讯做了一些优化,8个网卡,一个网卡两个端口。好处是一旦有一个端口故障,另一个端口能够快速切上来,流量之间不受任何影响,也涉及到和交换机、和软件的配合,这种技术是我们的特色。

提问:做大模型对网络技术的核心要求,解决零丢包、低延时最大的技术困难是哪些呢?

王亚晨:当时我们遇到的最大困难是“拥塞控制”。去年年中,腾讯已经建了2K-4K的GPU集群用于模型训练,那时候我们用一级,最多两级交换机就OK了。

但大模型出来后,GPU规模建设需求已经是万卡规模,这时候整个交换机组网规模必须要到三级了,因为我们交换的芯片容量是主流的25.6T,128个网口,它决定了组网的规模两级最优是4K,这决定了我们要做更大规模时交换机一定要做三级,便会遇到拥塞控制的问题,到今年年底扩容到51.2T时会好一点。

虽然之前装了TiTa已经一定程度上解决了拥塞。但到三级之后,因为拥塞不可控,之前的机制不完全能达到很好的效果,所以我们得做新的拥塞控制机制,这也是现在业界讲到的主动拥塞控制。

在GPU发包时要先了解网络的状况,有点类似于我出门前,先看看是否拥堵,如果拥堵,系统主动告诉我先不做。以前以太网都是被动拥塞控制,拥塞了才调度,但主动拥塞控制机制一定要在网卡发包时和交换机配合。

为什么现在我们要自研新的算力网卡,其实它解决的是在多级组网情况下更好的拥塞控制,这是当时我们面临的挑战,也和我们现在的一些能力相关。

另一个是带宽利用率的提升。现在我们做到95%左右的带宽利用率,实际上到新的3.2T服务器接入与三级架构时,我们发现这个带宽利用率会遇到巨大挑战。带宽利用率要消除网络不均匀的问题,之前我们用哈希(Hash)的方式。

现在以太网是基于流调度,流有长有短,类似于路上跑的车有的大马力有的小马力,即使哈希到不同路径,你却不知道每个流的长短是什么样,很难完全消除不均匀。

怎么做?现在以太网里有几个做法,一个是定长包,网卡侧发包时是定长的包,等于你看到的车都是标准化大小,这时候我再去哈希到不同路径,一定是相对均匀。这就是为什么我们要把端侧发包时变成定长的包,交换机要支持定长包的处理,同时定长包很容易出现乱序的问题,所以我们还要和端侧配合,保证不同的包虽然都是定长的,传过来可能有快有慢,还要把乱序的问题解决,这也要靠端侧解决。

总而言之,拥塞控制与带宽利用率是我们当下遇到最大的两个挑战。

提问:在网络管理和硬件设计上,我们倾向于采用集中式还是分布式?

李翔:分布和集中都是设计网络的工具手段,我们会根据的场景需求来选择。在网络技术上,集中和分布一直是亘古不变的议题,网络中SDN2008年提出来到现在二十年了,集中后,下面被管理的网源会比较简单。集中管理、集中部署,下面的网元会非常简单,成本比较低。但现在分布式是现在网络比较认可的生态形式,分布式管理能够复用我们之前的运营积累,确保运营质量。

王亚晨:满足可扩展性和运营安全性,这也是很关键的考量。腾讯基础设施最主要的生命线是网络质量,大系统肯定有大系统的好处,性能肯定更高,一旦出现故障,我们的分布式化可以减小故障率,这是最大的好处。我们把路由器拆成很多小的路由模块,可以跑到容器里,让我们整个网络更可靠。

类似于最早的网络都是集中化的大盒子设备,无论是交换机、路由器还是运营商的基站、核心网,都是集中化的。但云厂商不一样,我们基本是全自研,都是一套自研系统,自主控制,不用引入太多异厂家的交互性。所以一定要在自研情况下做分布式更好,如果不是自研能力,靠各种厂家做分布式,本质上来讲一个厂家自己分布没问题,一旦引入另一个厂家混合搞,可能就复杂很多了。

提问:之前说到白盒交换机的问题,可以多介绍一下吗?

李翔:首先我们为什么要做白盒?刚才提到,交换机从最早的几台一直到现在几十万台在网,每年可能有几万台的采购量。面对大量级的需求,我们遇到了一些比较现实的问题。厂商会卖给你非常完善的解决方案,有几千个共同特性,所以迭代周期很慢。

我们从两个维度考虑问题,第一个维度从质量考虑,我们希望对软件做减法。比如90%我是不是可以裁掉,自己用非常少的人维护起来,可以快迭代、快修复,从实际部署来说软件自主研发之后,显著提升了质量。

第二就是在硬件角度,我们是“海底捞”模式,商业交换机卖的是满汉全席,是粤菜,但比较贵,我们只需要一款交换机,做减法。我们直接跟上游芯片商合作可以更快享受技术能力,过程更加透明,供应商利润也比较合理。

所以我们做白盒有两个维度,第一个维度在软件上,更多是质量和迭代效率的考虑,硬件上是从成本上考虑,能够把它变得更加透明化。

提问:如果将来你们接入其它模型,很多用户在上面训练,网络安全可能就比以前更重要了,以前只有你们自己在用,这方面不知道你们有什么设计或者已经做的事情?

李翔:数据安全的问题在公有云时代是特别重要的。腾讯有七大安全实验室,都是做网络安全,我们整个技术网络有非常完善的虚拟化技术,还有做租户隔离、存储隔离,这些都是比较扎实的技术底座,同时内部还会有各种各样高级别的科学家带领团队做各种模拟攻击,保证不会被攻破。安全问题一直是云客户最重要的事情。

回到GPU,一方面我们复用了它的能力,比如存储,直接复用云大盘的能力,对于基座的物理服务器可能更复杂,因为它比较追求性能,云上做隔离。但是容器、虚拟化对GPU服务器有严格的性能要求,需要一个物理机,这时候我们就只能把隔离监控全部放到网络上做。

王亚晨:星脉除了支持腾讯自己的大模型以外,在腾讯云上也支持很多其它客户的模型做训练,有些客户对于性能觉得虚机也OK,我们就以大盘的能力来保证整个网络的安全。另外刚才说的信息安全,防攻击那些,都是腾讯云上面比较完善的体系。

提问:针对腾讯之外的厂商,我们主要提供技术支持,还是也提供大模型相关的解决方案?

王亚晨:我们整个技术底座除了腾讯自身以外也在支持腾讯云的算力集群,在腾讯云上也可以给客户售卖,今天没有专门讲这个解决方案。我们除了提供GPU的IaaS服务以外也会配合上面的训练框架、加速框架这些PaaS的可选服务,根据团队训练的模型和你的需求定制选购。基本上一些大的公司还是选择以IaaS服务为主,这也是腾讯云以标准产品给到客户。

标签:

  • 上一篇文章: 冀政(2008)132 冀政1985149号文件
  • 下一篇文章: 最后一页
  • 生活指南
  • 华脉科技: 华脉科技股票交易风险提示公告

    华脉科技:华脉科技股票交易风险提示公告

  • 范玲指导孕产期吃什么怎么吃_关于范玲指导孕产期吃什么怎么吃的简介 焦点快报

    音频解说1、《范玲指导孕产期吃什么怎么吃》是2014年7月电子工业出版社

  • 全球快报:各种支付软件如何取消快捷支付?怎么取消快捷支付?

    各种支付软件如何取消快捷支付?一、如果使用微信开通的银行卡快捷支

  • 想开个店铺需要符合哪些条件?开店需要办的手续是什么?_热闻

    想开个店铺需要符合哪些条件?1、选择经营场地(需有房产证及进行租赁

  • 我省第三批制造业单项冠军示范企业名单公布 西安23户企业入选 数量为历年之最

    近日,陕西省工信厅发布“陕西省第三批制造业单项冠军示范企业名单”,

  • 《2023品牌足迹》中国榜单 | 伊利、蒙牛、康师傅、海天稳居前四

    继《2023年品牌足迹》全球快速消费品市场报告之后,凯度消费者指数今日

  • 圣经书电子版_圣经书-全球独家

    1、在中国,根据国家规定,圣经目前只能在各个教堂的图书部购买。2、但

  • 先别骂!这“假戏真做”的大爆剧,真能把人嗑拉

    真情侣还不好嗑?

  • 星展:维持维他奶国际持有评级 目标价下调至13.6港元

    星展发布研究报告称,维持维他奶国际(00345)“持有”评级,但于去年1

  • 自由球员展望之高薪组:哈登欧文被迫降价 追梦成抢手货?-世界热讯

    自由球员展望之高薪组:哈登欧文被迫降价追梦成抢手货?,格林,格兰特,里

  • 省林业保护发展中心深入基层开展林业产业科技服务走基层活动

    为深入推动学习贯彻习近平新时代中国特色社会主义思想主题教育走深走实

  • 青瞳视觉为咪咕NBA季后赛总决赛虚拟直播提供全流程技术支持

    随着元宇宙概念的爆火,我们见证了越来越多形形色色的虚拟数字人如雨后

  • 全球热议:封闭式基金分红方式有几种?分红型基金多久分红一次?

    封闭式基金分红方式有几种?1、开放式基金开放式基金的分红方式也是

  • 联想s205笔记本怎么样_联想的S205怎么样

    我在一周前买的联想s205苏宁2640,家电下乡260就算2400元。说实话,还

  • 全球热讯:星空有约丨全国多地迎高温天气,是入伏了吗?

    星空有约丨全国多地迎高温天气,是入伏了吗?

  • 杰创智能:与上海钻交所签署战略合作协议 环球通讯

    杰创智能公告,近日公司与上海钻石交易所有限公司(简称“上海钻交所”

  • 民生
    • 环球快资讯丨母猫发情期的表现_母猫发情期多长

    • 中国空军7月下旬将在长春举行空中表演等活动 焦点速递

    • 京东物流一号人物余睿辞任,接任者胡伟是谁? 今日快讯

    • 新一代直流换流阀控制系统达到国际领先水平