(相关资料图)
(CWW)8月19日,在2023中国算力大会主论坛上,“全调度以太网(GSE)推进计划”正式成立。该计划由中国移动携手中国信通院,联合腾讯等三十余家产业合作伙伴联合发起,旨在联合产业链企事业单位,共同推动智算中心网络技术创新、标准完善、产业发展和应用实践,打造高速无损、安全可靠、开放兼容的新型智算中心网络技术体系,全面提升算力赋能水平,满足数字经济的网络应用需求。
随着ChatGPT等基础通用大模型的爆发,智能算力需求呈现爆炸式增加态势。研究表明,AI大模型训练依赖GPU集群不同服务器节点间频繁地参数同步,节点间通信开销导致集群的有效算力并不等于单颗GPU算力乘以集群GPU数量,网络的性能成为制约其规模扩展和性能提升的瓶颈。同时,新型智算中心网络技术体系依赖网络芯片、网卡芯片及网络设备等上下游企业协同创新,技术体系庞杂,难度大。
为了应对上述挑战,中国移动研究院联合产业界原创提出全调度以太网技术,于2023年5月联合十多家合作伙伴发布《全调度以太网技术架构白皮书》,明确了全调度以太网的总体架构、关键技术和演进路径,并在CCSA成功立项相关行业标准。
此次“全调度以太网(GSE)推动计划”正式启动,其目标是凝结产业各方力量,突破关键技术,推动标准和开源发展,打造开放、标准、兼容的新型以太网协议体系,全面提升智算中心网络规模和性能,支撑AI等高性能业务的快速发展。
GSE推进计划工作范畴包括但不限于以下四个方面:一是低时延FEC、PhySEC、光交换及光互联在内的物理层增强技术;二是基于报文分发、重组在内的链路层关键技术;三是新型组网拓扑、新型组播协议等在内的网络层新型协议;四是RDMA技术优化、新型拥塞控制协议在内的传输层优化方案。
同时,在上述关键技术基础上,研究针对不同场景的组网方案,例如GSE仅运行在交换机、GSE运行在端到端网卡、GSE实现端网协同等不同组网场景,实现最大限度的兼容现有商用以太网芯片,并能持续演进。
未来,“GSE推进计划”将进一步聚拢产学研各界合作伙伴,从技术攻关、标准体系、创新试验、产业生态等方面加快推动智算中心网络相关技术和产品成熟,助力全球AI产业发展。
关键词: