360智算中心:万卡GPU集群落地实践

日期: 2025-03-19 06:07:17 |浏览: 2|编号: 81861

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

360智算中心:万卡GPU集群落地实践

1. 引言

360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施,旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力,还结合了AI开发平台,使得计算资源的使用更加高效和智能化。

360内部对于智算中心的核心诉求是性能和稳定性,本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程,包括算力基础设施搭建、集群优化、AI开发平台建设、以及训练和推理加速的实现。

2. 基础设施建设

2.1 服务器选型

以A100/A800为例,主机内拓扑采用如下

2张存储网卡采用的是25Gb/s的网卡,通过PCIe直连CPU,主要有2个用途,第一个是带内管理,如ssh登录、监控采集等,第二个是访问分布式存储,如读取训练数据、写等。大语言模型训练过程中,对于文本类数据读取量级要求并不高,且一般都会采用异步加载的方式,此时25Gb/s的网卡带宽可以满足需求。但是模型训练过程中保存时,会有瞬时大量写流量,此时25Gb/s的网卡会成为瓶颈,阻塞训练的正常进行。为了平衡成本与性能的问题,我们内部采用了软硬件结合的方案,首先两张网卡采取bond4的网卡绑定方式,可以将整体带宽提高到50Gb/s,虽然牺牲了一定的容错能力,但是极大提高了网络的吞吐量。另外我们也在训练框架层做了2个方面的优化,第一个优化是通过分布式的方式存储,将整个模型的部分分别在不同的节点上保存以减少网卡的压力。第二个优化是多阶段异步保存,第一个阶段将模型与优化器从显存拷贝到内存,不阻塞模型的训练,第二个阶段将内存中的模型拷贝到分布式存储,其中第一个阶段结束后就可以继续训练了,第二个阶段可以在后台异步进行。软件层的优化主要是在基于网卡受限的场景下,通过减少保存时间最大化GPU有效训练时长,最后经过验证,智脑7B的模型保存时间从最开始的383s降低到5s,性能提升约70倍。

8块GPU通过6块芯片全互联,在A100中每块GPU与每块芯片由2条双向25GB/s的连接,所以每块GPU共有12条双向25GB/s的lane,即12 25 2 = 600GB/s。A800在这里做了阉割,只有8条,所以变成了8 25 2 = 400GB/s,很多人都担心在大规模分布式训练时A800的会成为瓶颈,我们经过多次内部验证,至少在跑千卡训练任务时,并不是瓶颈。

我们内部采用的是4张200Gb/s 的 CX6网卡,采用200Gb/s网卡的原因是同主机GPU与相邻的网卡之间通过PCIe Gen4 芯片通信,PCIe Gen4 x16的通信带宽是单向32GB/s,网卡的通信性能是200Gb/s = 25GB/s,接近PCIe的通信性能,如果采用400Gb/s的CX7网卡,此时受限于PCIe Gen4的带宽,CX7的网卡性能很难发挥出来。推荐的单台A100配备8张CX6网卡,我们经过验证和调研,如上图所示,-LM在32台A100节点上跑7.5B模型的时候,4张网卡单次迭代时间是2张网卡一半,但是8张网卡相比于4张网卡提升非常小,因此为了节约成本,我们采用了4网卡的方案。硬件拓扑为每块PCIe Gen4 配备一张网卡,与之相邻的2块A800可以启用GPU RDMA通信,可以通过-smi topo -m佐证查看,经过实际验证,开启了GDR后大模型训练速度最高可以提升50%。

2.2 网络建设

传统的数据中心网络一版聚焦在对外提供服务的流量模型设计,流量主要是数据中心与外部流量交互,即以南北向流量(数据中心外的流量)为主,东西向流量(数据中心内部流量)为辅。而智算中心的流量则以东西向流量为主,南北向网络为辅。

360智算中心借鉴 DGX--A100架构,如上图所示为的一组基本单元 SU( Unit),每个SU包含200台A800以及4台Leaf交换机,这20台节点间的同号网卡之间通过单台Leaf即可直接通信。

上图中展示的是200台A800的网络架构,即10组SU的组合,其中Leaf层和Spine层采用全互联架构,这种架构下,即使出现极端情况Spine交换机只剩下一台存活,整个集群仍能正常通信。但是Leaf交换机或者Leaf交换机与节点间的线缆、光模块等出现异常,会影响正常训练。不同GPU的通信路径如下:

当前的网络架构上限是200台A800主机,如果此时想要支持更多的GPU,需要将2层的架构升级为3层,即在Spine层之上再增加一层 Core ,来支持更大规模的GPU集群。

3. 集群建设

3.1 调度能力

360智算中心基于来优化调度流程,解决了在大模型基础设施中调度过程中碰到的一些难点,其实现的核心调度策略包括以下几点:

3.2 网络方案

360智算中心在RoCE V2和IB这两种主流的高性能网络方案都有落地,具体方案如下图所示:

根据第二节中物理机上的介绍,A800共有6张网卡,其中以太网卡lan0、lan1做bond4后作为主机的管理平面网络,做南北向通信,IB网卡lan2~lan5作为主机的数据平面网络,做东西向通信。

主网络插件VPC负责维护整个k8s集群管理平面的网络,对应每个pod中的eth0网络接口。第三方网络插件 cni、等主要负责维护整个k8s集群数据平面的网络,对应每个pod中的net1~net4网络接口。

-是推出的专门用来在k8s集群中启用RDMA网络的解决方案,包含以下核心组件:

相比RoCE v2网络,IB网络有以下区别:

4. 训推加速

4.1 QLM训练加速

Qihoo Large Model (QLM) 是360内部基于-LM开发并深度优化的训练框架,完美适配智算中心的万卡集群。通过定制调优,QLM在训练MoE模型时的MFU超过47%,Dense模型超过56%。在原有-LM的基础上,QLM还引入了以下核心能力:

4.2 GLLM推理加速

Gaia Large (GLLM) 是360内部开发的一款高效大模型推理引擎,旨在满足NLP领域日益增长的需求。GLLM兼容和昇腾等多平台硬件,集成了多种推理加速技术,与VLLM相比性能提升超过10%。

GLLM强大的推理性能使其在众多自然语言处理场景中展现出广泛的应用潜力,其可以用于智能客服、内容生成、信息检索、语音识别等多个领域。GLLM凭借其多平台硬件支持、业界领先的技术特性以及显著的性能提升,成为360公司在大模型推理领域的重要资产。随着技术的不断发展,GLLM将不断引入新的特性,持续为用户提供更高效、更智能的大模型推理解决方案。

5. AI平台建设

5.1 平台基础能力

现代AI开发平台的核心能力在于为企业和开发者提供强大的工具与基础设施,以支持模型开发到部署的全生命周期。随着大模型训练规模的不断扩大和任务复杂性的提升,AI平台必须具备灵活而高效的功能,以应对多样化的场景和需求。以下是AI平台的核心能力的详细探讨。

AI平台的核心能力涵盖了从模型训练、资源管理到服务部署的各个环节。通过分布式训练、交互式建模、在线部署、最大排队时长限制和低效任务优化等功能,平台不仅提升了模型开发和部署的效率,还为用户提供了灵活、智能的资源管理工具,确保了平台的高效运作和任务执行。

5.2 可视化能力

在AI平台中,可视化能力是提升用户体验、优化系统性能、以及加速模型开发的重要工具。以下是各项主要可视化能力的详细补充:

AI平台的可视化能力通过多层次、多角度的数据展示与分析,不仅为开发者提供了全面的模型训练和资源管理工具,还帮助他们快速定位问题并优化整个训练流程。这些能力提高了系统的透明度,减少了排障时间,并使得大规模的模型开发和部署更加高效、智能。

5.3 故障容错

当训练任务扩展到千卡级别以上规模时,训练过程因GPU出现故障导致任务中断的概率会急剧增加,在训练集群中,平均每周都会有3-7次的GPU故障,这些故障会引起GPU集群利用率下降。因此在AI平台中,我们推出了,一个可以确保系统稳定性和高效性的故障检测与自愈工具。它涉及多个维度,包括运行时环境、硬件故障、网络故障和慢节点的检测与修复。

AI开发平台中的故障检测与自愈机制通过软件、硬件、网络和慢节点的监控和自动修复,保障了平台的稳定性和高效性。针对不同类型的故障,系统应具备灵活的检测手段和自愈策略,以降低人为干预的频率,提升系统的自动化水平。当训练任务因遇到故障导致失败时,AI平台可以3分钟内做到定位故障源、隔离故障、并将任务自动拉起,整个过程完全自动化,无需人工干预。在未来,随着AI训练任务的规模和复杂度增加,360AI平台中的故障自愈能力将朝着更加智能化和精细化的方向发展。

6. 总结与展望

360智算中心的万卡GPU集群建设,结合了AI、大数据、异构计算和高性能网络等多种先进能力,为大规模人工智能计算任务提供了强大的计算能力。本文详细介绍了从基础设施建设、网络设计、调度优化到AI开发平台与训推加速的全面落地实践,以及在大模型训练中应对的诸多挑战。

未来,智算中心将进一步扩展集群规模,提升异构计算支持,优化AI平台的可视化和监控能力,并积极探索智算中心相关技术和跨领域技术的融合。通过持续的技术创新与能效优化,360智算中心将在AI基础设施领域持续跟进,为未来的复杂AI任务提供更强大的支持。

提醒:请联系我时一定说明是从旅游网上看到的!