首页 › 综合 ›查看内容

大模型训练的必修课：要想快，先修“路”

2024-07-03 03:24| 发布者: 张璠| 查看: 67131| 评论: 0|来自: 证券之星阅读量：6860

摘要:大模型狂奔近两年，Scalinglaw依然有效，这使得大模型的参数规模将持续增长，从亿级向跃升至万亿级。在这个过程中，对算力的挑战也随之而来。为支撑海量数据的大规模训练，研究人员把大量服务器通过高速网络组成大规模算力...

大模型狂奔近两年，Scaling law依然有效，这使得大模型的参数规模将持续增长，从亿级向跃升至万亿级。

在这个过程中，对算力的挑战也随之而来。为支撑海量数据的大规模训练，研究人员把大量服务器通过高速网络组成大规模算力集群，共同完成训练任务。

然而，集群训练会带来额外通信开销。由于各个节点之间要相互通信，这导致随着集群规模的扩大，通信损耗也随之增加。有数据显示，部分大模型训练过程中通信占比最大可达50%。

因此，大集群不等于大算力，N个GPU的算力也达不到单个GPU算力的N倍。而要提高算力集群的利用效率，关键在于提升算力网络的性能。

7月1日，腾讯云副总裁王亚晨向21世纪经济报道记者打了一个比方:AI大模型就像是一场F1比赛，GPU是马力强大的F1赛车，算力网络则是比赛赛道。“现在参加比赛的赛车越来越多，如果还用原来的赛道，那每辆赛车都跑不快，所以整个赛道也需要进行升级”。

算力网络迎来新挑战

当下，大模型对算力集群规模的需求正快速提升。以OpenAI为例，ChatGPT训练使用了千卡集群，到了GPT4变成万卡集群，而对于尚未发布的GPT5，业界普遍认为可能会是十万卡集群。

算力集群规模的增长，对算力网络也提出更多新需求。首先，大模型的训练，几乎无一例外需要使用高性能的RDMA网络，它允许计算节点之间直接通过GPU进行数据传输。

王亚晨表示，这种数据传输方法可以显著提高吞吐量并降低延迟，从而使计算节点之间的通信更加高效。同时，这也需要对网络设备持续升级，让交换机、光模块、网卡等端口速率保持在业界最领先的水平，并能灵活扩展网络规模。

其次，算力网络还要通过优化底层的通信协议来提升网络通信效率。王亚晨称，AI分布式训练采用的是集合通信的模式，与传统的通信模式差异较大，不同大模型架构也存在通信模式的差异。传统的通信模式主要是一对一、一对多等，AI分布式训练采用集合通信的模式，包括如alltoall多对多、allreduce环形通信等模式。

“这样的模式是为了更充分地利用GPU的算力，但是，该模式天然拥塞比较多，很容易增加网络通信成本。”王亚晨说。因此，算力网络要通过对网络传输协议、通信库等的提升，优化底层网络通信效率，降低网络通信成本。

最后，分布式训练也意味着单点的故障将导致整个集群不可用，但软硬件的故障本身又是难以避免的，所以如何做到在故障发生时快速定位与恢复训练，把损失降到最低，也至关重要。

自研技术助力网络升级

针对这些需求，腾讯云近日推出了全新升级的星脉网络2.0。相较去年6月发布的星脉网络1.0，星脉网络2.0可支持超10万卡大规模组网，网络通信效率提升60%，让大模型训练效率提升20%。

王亚晨表示，以前修赛道，腾讯云会从外部采购很多材料，而这次修赛道，腾讯云开始自己生产相关材料，让整个赛道的硬件水平得到大幅提升。

比如在星脉网络2.0中，交换机、光模块和网卡等网络设备均由腾讯云自研。数据显示，采用自研设备后，星脉网络交换机容量从25.6T升级到51.2T，光模块速率从200G升级到了400G，让网络延迟降低40%。

值得关注的是，星脉网络2.0搭载的腾讯自研算力网卡CNIC，是公共云业内首款为AI训练设计的网卡。网卡采用最新一代FPGA芯片，整卡带宽可达400Gbps，整机通信带宽可达3.2T。

除了对赛道硬件的升级，CNIC算力网卡上还运行着新一代腾讯自研通信协议TiTa。在赛事当中，TiTa协议相当于指挥中心，可对赛车进行调度，避免单一车道拥堵。

据王亚晨介绍，相比上一代，TiTa协议2.0从部署在交换机转移到了端侧的网卡上，协议算法也从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法，可主动调整数据包发送速率，从而避免网络拥堵。

简单来说，以前的TiTa协议是在堵塞发生后才去处理，而TiTa2.0让每辆车都知道自己开多快合适，尽量不会造成拥堵。

另外，星脉网络2.0对通信库TCCL也进行了升级。原先的通信库TCCL相当于智能导航系统，能够告诉赛车最短路径。而2.0的通信库TCCL就像把车载导航升级成一支专业车队，除了导航，它现在可以根据不同的场景，对赛车本身进行改装，让赛车时刻处于最佳性能。

针对故障修复问题，星脉网络2.0的运营系统新增灵境仿真平台，从原来仅能定位网络问题，变为可定位GPU节点问题。这相当于对星脉网络进行了360度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间大幅缩短。

大模型的未来趋势是，参数规模越来越大，算力集群规模也将随之扩大。这意味着算力网络需要持续迭代，来匹配算力集群的训练需求。未来，只有通信效率不断提升，以及通信成本不断下降，才能真正充分利用算力资源。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

分享至：

| 收藏

邀请

下一篇：返回列表上一篇：累计覆盖超95%的用户，极氪001、极氪009高速NZP迎全新里程碑时刻

大模型训练的必修课：要想快，先修“路”

相关

图文

最新

推荐