腾讯发布星脉网络2.0,让AI大模型训练效率提升20%

随着大模型的持续迭代,AI基础设施逐渐成为云厂商的核心竞争力之一。7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,网络通信效率比上一代提升60%。升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,让大模型训练效率提升20%。这意味着,如果原来训练中某个计算结果的同步需要花100秒完成,现在只需要40秒;原来训练一个模型需要50天,现在则只需40天。
AI大模型就像是一场F1比赛,腾讯云专门设计了星脉高性能算力网络“赛道”,并自研了TiTa和TCCL网络协议作为“赛事指挥中心与专业车队”,共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能,助力客户在AI大模型的竞争中遥遥领先。
据介绍,AIGC(人工智能生成内容)的火热推动着AI大模型参数量从亿级到万亿级飙升。模型参数规模与架构升级对底层网络也提出了新的要求。为支撑AIGC中海量数据的大规模训练,大量服务器通过高速网络组成大规模算力集群,互联互通,共同完成训练任务。
然而,集群规模越大,所产生的通信损耗会越高。同时,AI训练的通信模式,与传统的通信模式差异较大,不同大模型架构也存在着通信模式的差异。部分大模型训练过程中通信占比最大可达50%。此外,分布式计算模式也意味着,单点的故障将导致整个集群不可用,因此在故障的时候需要快速定位与恢复训练,把损失降到最低。
如何在大规模组网前提下,提升通信效率、降低通信占比,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。
据悉,腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的腾讯关键技术。
目前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。
本文链接:http://knowith.com/news-1-1185.html腾讯发布星脉网络2.0,让AI大模型训练效率提升20%
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
跨专业考研的要求?葫芦岛消费水平怎么样
护理研究生报考学校(护理研究生报考学校排名)
中国地质大学考研难吗(中国地质大学考研难吗二本)
清华大学研究生宿舍(清华大学研究生宿舍真实照片)
东莞理工学院研究生(东莞理工学院研究生院)
2014考研:经济学名词解释荟萃(第9辑)
应用心理考研科目()
哪里可以找到大学考研大纲?哪里可以找到大学考研大纲答案
金融和财务管理哪个好_金融和财务管理哪个好学
查博士 怎么样_查博士怎么样准不准
2025新手必看:DY月付如何套出来小白必读:
知行合一:羊小咩额度怎么套出来,教你四个操作办法
大吉大利:惠州惠阳区垫还信用卡,最好还款服务,实体店多种方式
大吉大利:广州从化垫还信用卡,专业公司可靠,多年经验诚信
代购渠道:印度帕唑帕尼哪里买?2025印度帕唑帕尼价格多少钱一盒?印度帕唑帕尼代购折合人民币约2300元一盒!国内帕唑帕尼代购渠道yb价格一览
废寝忘食:拼多多先用后付怎么找商家套出来?正确操作步骤如下
天道酬勤:怎么套出来拼多多先用后付额度?公布三个方法
勤学不怠:DY月付额度怎么套出来 - 试试这三个方法
顶天立地:上海浦东新区代还信用卡怎么刷出来,5种常用方式
喜从天降:昆明官渡区代还信用卡怎么刷出来,5种常用方式