2023年8月31日,第十八届中国IDC产业(长三角)年度大典在上海召开,本次大会重点关注生成式AI和大模型对算力产业所带来的变革,通过交流探讨算力产业趋势及应用,促进算力产业的互联互通与创新发展,为打造数字未来提供坚实支撑。
凭借在上海青浦数据中心自主研发的“白露”间接蒸发冷却技术、“启蛰”余热回收利用等多项数据中心创新技术,UCloud优刻得在本次IDC产业年度大典荣获“IDCC 2023长三角区域绿色算力基础设施奖”。
上海市通信管理局最新发布的新型数据中心“算力浦江”行动计划2023年度重点任务提出:持续统筹优化算力布局、筑强新型算力网络体系、提升算力赋能应用水平、推动算力产业创新发展、促进绿色低碳算力发展、加强算力安全防护水平。
长三角地区是我国算力产业的重要聚集地,也是人工智能、金融、游戏等数字产业的创新高地。UCloud优刻得上海数据中心正好位于长三角国家算力网络枢纽节点起步区的上海市青浦工业园区,符合国标A级数据中心标准,具备良好的网络条件和资源配套,可有效承载金融市场高频交易、远程医疗、AI推理等对实时数据分析和网络条件要求较高的企业数字化业务。
为实现“双碳”目标,UCloud优刻得在数据中心的设计和建设过程中始终秉持着“绿色、低碳、环保”的发展理念,采用自然冷却、余热回收利用、露点式间接蒸发冷却,并充分利用光伏发电、智能照明、能源管理与智能控制等众多先进的节能技术,实现了低于1.3的PUE值,大幅降低了数据中心的碳排放量,提升绿色化水平。
“白露”间接蒸发冷却是UCloud优刻得自主研发的专利技术,重构了间接蒸发冷却流程,将送风极限由室外湿球温度调整为室外露点温度,极大的提高了制冷效率、降低数据中心能耗;“启蛰”数据中心余热回收技术,创造性地提出“集散分离、远近两宜”的余热回收利用理念,利用集中式余热回收方案来实现热量的远距离输送和利用,分布式余热回收方案来实现热量的就近利用,以此保障余热利用效率。
在大会的“算力底座,承载数智未来”主题篇章,UCloud优刻得服务器中心总监丁振雷结合自建数据中心的系统工程经验进行了内容演讲,与大家分享了UCloud优刻得作为中立云计算厂商为AI大模型构建智能算力基础设施的实践与思考。
大模型发展势必需要重资产的投入,同时构建千卡规模的算力集群是一项复杂的系统工程,数据中心高功率机柜的选择、高速算力网络的建立健全、GPU服务器的选型等,都是行业所面临的痛点。而云厂商的价值在于,通过多年成熟的云服务经验和工程实践能力,帮助用户降低大模型的研发门槛和投入成本。
根据“东数西算”国家战略,UCloud优刻得自建了乌兰察布和上海青浦两大高标准、高性价比的数据中心,支持机房模块布置、基础设施配置的灵活部署、深度定制,可提供从数据中心、服务器、到计算、存储、网络、安全、架构设计的一整套AIGC解决方案,将产品能力转化成差异性的服务交付给客户,为企业构建稳定可靠的大模型算力底座。
大会现场,丁振雷从电力功耗、存储、网络等方面介绍了当前大模型发展所面临的挑战。满足大模型训练要求的机房需要以高电机柜支撑高性能GPU算力服务器的运行,同时还需要承担高昂的电费成本。UCloud优刻得乌兰察布数据中心具备电力充分、电费低廉、可自然制冷等优势,相较于北京、上海等同质量数据中心成本可下降40%。数据中心内提供A800/H800等多款适用于模型训练和推理等不同场景的GPU算力资源,可充分满足大模型算力集群的高电需求,实现“训推一体”、“东推西训”,这种“算力租赁”的方式也会极大的降低使用者的成本。
大模型训练依赖于大规模分布式并行集群,且GPU服务器之间需要确保高速网络互联,大模型训练的RDMA网络设计要满足“大规模、高带宽”的要求。基于在公有云大规模使用RoCE网络的工程经验,UCloud优刻得自建大模型训练集群RoCE网络,有效满足算力集群对高速网络的性能需求,支持万张以上的GPU同时接入。
基于大模型训练对存储系统高读写吞吐的要求,UCloud优刻得升级了基于US3对象存储的冷热分离的分布式文件系统。支持本地文件形式挂载,易于适配;GPU节点可使用本地NVMe磁盘作为近端缓存,满足多层次加速需求;此外还提供高性能和容量一体方案,以满足训练数据集的训练数据和CheckPoint数据长期的大容量存储需求,以此实现模型训练效率提升。
在圆桌对话环节,UCloud优刻得混合云业务中心总经理唐立参与探讨了“智算变局下商业模式的转型与创新”。唐立表示,大模型引爆了算力需求,也驱动数据中心向智算中心转变,拥有成熟的算力部署能力,以及从拿到卡到构建整体算力平台的一体化工程交付能力,才能追赶上这一波的浪潮和机遇。UCloud优刻得可以提供GPU算力资源、托管算力底座和部署方案,联动高性能网络、存储系统等一整套的解决方案,为AIGC发展提供智算基础设施支撑。