上海;AI发电厂;防范一粒灰尘

从防范一粒灰尘做起,上海批量布局AI发电厂

预计到2027年,上海算力规模将提升至20万PFLOPS(每秒千万亿次浮点运算)。
上海;AI发电厂;防范一粒灰尘

图片来源:界面图库

界面新闻记者 | 庄键

界面新闻编辑 | 谢灵宁

打开机房大门,映入你眼帘的将是房间内整齐排列的算力服务器,同时出现的持续轰鸣声,则来自于为降低服务器温度而不间断转动的风扇。

界面新闻近日实地探访了坐拥国内首批“万卡集群”的上海松江智算中心。该项目由上海国企仪电集团牵头成立的上海智能算力科技有限公司(下称智算科技)投资。

所谓“万卡集群”,意指通过高速网络与软硬件系统,将一万张甚至数量更多的GPU(图形处理器)连接,形成统一调度的计算中枢,可以将其视为人工智能领域的发电厂。国内目前已建成42个“万卡集群”,数量位居全球前列。

松江智算中心投用后,其算力就处于满负荷使用状态,这背后是人工智能行业需求快速增长所导致的算力资源稀缺。国家数据局的统计称,今年3月,国内日均Token(词元)调用量超过140万亿,相比2024年初增长了1000多倍。

上海已在筹划扩大算力基础设施,明确将围绕浦东、金山、松江、临港和青浦等重点区域,积极部署智能算力、提升集群规模。

预计到2027年,上海算力规模将提升至20万PFLOPS(每秒千万亿次浮点运算)。根据今年1月披露的数据,上海算力规模已突破12万PFLOPS。

智算科技总经理孙跃解释称,上海有诸多垂类人工智能应用,需要就近布局算力资源,从而快速响应这些任务的需求,达到降低网络延时等效果。

上海也集聚了芯片、大模型等大量人工智能上下游企业,在本地布局“万卡集群”,有利于执行技术攻关任务。

对于“万卡集群”而言,算力卡无疑是其中的灵魂。在先进算力卡被限制进口的背景下,设备采购存在一定难度。但在孙跃看来,“建设‘万卡集群’是一个庞大的系统工程,购买算力卡,在整件事情中可能不见得是最难的。”

智算中心需要高效的通讯网络和相应的存储设备,才能让算力卡以集群的形态高效运转。如果将一个“万卡集群”拆解,零部件数量可达到数十万个,种类超过百种。

在智算科技系统工程中心总监胡宝群看来,“万卡集群”建设过程中,一个容易忽略却又极为关键的风险点,来自灰尘。他将其称为“万卡集群”建设的入门第一课。

在组成“万卡集群”的百余种零部件中,光模块是极为重要的一种。通常情况下,一个集群需要配备上万个光模块,但这种火柴盒大小的电子元器件对灰尘极度敏感。

胡宝群告诉界面新闻,光模块只要接触到非常小的灰尘,就会影响对应算力卡的运行,甚至让整个“万卡集群”无法稳定工作。

因此,在松江智算中心建设和运行过程中,智算科技的团队都在想方设法防范灰尘带来的潜在影响。比如在光模块安装环节,就规定其暴露在空气中的时间必须控制在三秒以内。

此外,松江智算中心所在四层建筑的楼道内,也专门安放了有粘性的地毯,用于吸附人走过时鞋底的污物,减少空气中的灰尘来源。

松江智算中心,图片来源:仪电集团

搭建“万卡集群”被认为是一项复杂的系统工程,难度可与卫星发射相比。“在发射卫星过程中,任何一个零部件故障都会导致整个任务失败,‘万卡集群’也类似,对每个环节都有很高的可靠性要求。”孙跃提及。

同样高难度的,是让“万卡集群”能够7*24小时不间断地高效运转,为用户提供算力服务。

在人工智能模型训练过程中,智算中心的故障都可能导致整个任务中断。在一套由数十万个零部件组成的“万卡集群”中,设备故障的发生几乎无可避免。

但通过技术和架构层面的冗余设计,松江项目的“万卡集群”能够实现即使故障发生,也不影响模型训练任务的执行,并且在数分钟甚至数秒内完成故障定位,便于下一步的故障排除。

在人工智能时代,算力被认为会像水和电一样,每个人都能极为方便地取用。“万卡集群”的稳定运行,将是实现这项设想的关键一环。

智算科技系统平台部负责人翟雨佳称,“我们的目标是让‘万卡集群’能够像供水和供电那样稳定,让用户感受不到算力的存在。”

来源:界面新闻

广告等商务合作,请点击这里

未经正式授权严禁转载本文,侵权必究。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开