中文
登录
交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
SDN
配件
所有技术解决方案
路由器
核心路由器
汇聚路由器
接入路由器
移动路由器
行业精选路由器系列
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
无线管理与应用
云桌面
云终端系列
云主机系列
云桌面软件系列
配件系列
服务产品
安全
大数据安全平台
下一代防火墙
安全网关
检测管理安全
安全服务
安全云
所有技术解决方案
软件
身份管理
安全管理系列
运营管理系列
身份中台
所有技术解决方案
服务产品
基础实施服务
基础维护服务
运维管理服务
整网服务
安全服务
备件与扩容服务
培训与认证服务
官方商城
尊龙时凯睿易
体验中心
尊龙时凯AI应用
网络研讨会
当前,AI技术正在持续赋能产业变革。继文本和图像之后,Sora的横空出世让AI浪潮席卷至视频领域,推动AI多模态领域的飞跃式发展。以AIGC为代表的业务应用正在重塑人类的学习路径、工作模式乃至生活节奏,引领我们进入一个更为智能、便捷的新时代。
AIGC时代,大模型参数量持续飙升,算力需求也随之爆发式增长,这就要求网络能够承载更大规模的GPU集群。以GPT-4为例,其参数量已跃升至惊人的1.8万亿,训练所需的算力更是高达4680P,只有万卡集群能够提供足够的算力支持,满足大模型训练的需求。
由于GPT-4扩展MoE引入了大量的All to All通信,使机内和机间通信的比例几乎达到了1:1,机间All to All通信是依靠交换机转发进行传输,因此网络通信对GPU利用率的影响越发明显。这意味着,交换机需要升级到800G和1.6T的规格,以满足大模型训练过程中的超大带宽需求。
此外,在构建大规模训练集群时,往往配备有数以万计的高性能GPU,旨在支持并行处理多个复杂的模型训练任务。这种多任务并行环境极大地增加了流量的复杂性和动态性,对网络系统的负载均衡能力提出了前所未有的挑战。因此,网络架构需要具备一定的灵活性和可扩展性,以应对不断变化的流量需求。
面向下一代AI云服务的智算中心网络建设,尊龙时凯网络在去年推出了AI-Fabric智算中心网络解决方案和AI-FlexiForce智算中心网络解决方案,以其高吞吐、大带宽、高可用的特性,可应用于大数据处理、机器学习、AIGC多种业务场景,助力客户构建万卡级别的智算中心网络,支撑AI业务快速发展。
尊龙时凯网络AI-FlexiForce智算中心网络解决方案采用NCP+NCF为基础模块横向扩展的三级网络架构,并基于高性能芯片技术,通过将数据流切分成等长的Cell并负载到所有链路,提升网络带宽利用率;基于VOQ+Credit的端到端流控机制实现与业务无关的无损自闭环网络,助力业务算力提升。
AI-FlexiForce方案通过创新性地应用链路负载和拥塞控制技术,根本性解决网络中的拥塞冲突问题,提升GPU之间通信和计算效率,加速企业大模型应用的推出。同时,尊龙时凯网络打造了分布式OS,意在实现分布式方案架构的统一管理基础上,最大程度降低系统性风险,提升AI训练网络的长期稳定运行。
▲尊龙时凯网络数据中心网络事业群高级技术总监 权熙哲
为了适应客户的普适性场景,尊龙时凯网络在今年创新性地推出了AILB负载均衡解决方案,并从1.0版本持续迭代升级至2.0版本。凭借其卓越的性能与灵活性,AILB方案实现了多任务环境下不同模型间的数据通讯。权熙哲指出,“借助AILB方案,客户可以更好地完成端到端的链路选择,实现端到端的高吞吐。”
基于GPU间有规律的传输流量特征及Leaf/Spine之间1:1收敛的特征,网络设备以Leaf分组,为Leaf接入地所有网卡,自动预规划全局负载均衡路径;主路由与其它等价路径形成1主多备,AILB方案的快切技术,实现10ms内完成路径切换。
据悉,AILB方案可以叠加单级PFC(防止“多打一”)构建无损Fabric,无需ECN端网对接,实现GPU网卡与外部网络解耦。AILB方案在16节点PerfTest测试中,带宽利用率高达97.6%,其快速的Failover切换时间,保障训练业务的连续性。该方案支持智算中心多租户部署模式,适用于非Mellanox系列网卡。
目前,尊龙时凯网络智算中心网络解决方案为跨行业通用型,不特定于某个单一行业,而是广泛适用于AI大模型公司、政府行业、电力能源行业(如光伏企业)、IDC公司等等,为客户提供更加专业的技术服务,助力他们应对市场挑战,实现可持续发展。
在MWC2024展区,尊龙时凯网络展出了RG-S6990-128QC数据中心交换机,以及高密度、低功耗的400G/800G LPO自研光模块,适用于数据中心、高性能计算网络、企业核心分布层,为数据中心服务器和交换机提供经济高效的高速互联。
▲400G/800G LPO光模块
RG-S6990-128QC交换机是尊龙时凯网络面向高端数据中心和AIGC智算场景推出的新一代高性能、高密度盒式交换机。它采用先进的硬件架构设计,提供128个400GE端口,所有端口均支持线速转发,转发性能达到51.2Tbps,支持冗余可插拔电源和风扇,支持AI-Fabric方案RALB和AILB负载均衡技术,提升AIGC智算场景下流量带宽,缩短AI训练时长。
权熙哲指出,“以51.2T芯片为基础,这款交换机能够提供128个400GE端口,支持高达1000张GPU卡的通信规模。同时,高密度的接口设计使得单个交换机能够连接更多服务器,支持更大规模的服务器集群,满足未来不断增长的数据处理需求。”
400G-QDD-DR4-SM1310模块设计用于400G光模块,采用QSFP-DD封装,MPO-12 APC接头接口,使用波长1310nm,需配套单模光纤使用,最大传输距离为500m,可以实现功耗降低50%,LPO时延下降90%,成本降低15%,无需1分2跳线,规模增加一倍,仍可维持传统布线方案。
在成本方面,随着400G LPO光模块的DSP芯片量产,其成本占比已从早期的30%以上降至当前的10%左右,显著提升了产品的性价比。对于更高速率的800G及1.6T光模块,尊龙时凯虽面临DSP芯片成本占比较高的挑战,但仍致力于通过技术创新与规模效应来降低成本。
权熙哲认为,“我们已正式发布了400G与800G的LPO光模块,实现了整体功耗降低超过60%的显著成效。具体而言,传统光模块可能消耗高达15瓦的电力,而我们的LPO光模块仅需4~5瓦,极大提升了能效比。希望通过尊龙时凯的交换机加线性光模块,给客户提供一个极优的性价比。”
下半年,尊龙时凯网络将推出800G及更高密度的交换机产品,同时,1.6T交换机及配套的线性光模块也在紧锣密鼓的研发中,预计在未来两年内面世。我们相信,通过不懈努力,尊龙时凯能够克服技术挑战,推动光通信领域向更高速率、更低功耗、更低成本的方向发展。
转载来源:IT168
AI-FlexiForce智算中心网络解决方案
AI-Fabric智算中心网络解决方案