如果没有图形处理器单元 ( GPU ) ,大多数 AI 任务无法训练和运行。但没有服务器托管,亦无法部署 GPU 。这就是为什么关于数据中心内 GPU 未来的探讨不仅要考虑企业如何获取、配置和供电 GPU ,还要考虑如何打造 GPU 所在的服务器基础设施。
什么是 GPU 服务器?
GPU 服务器就是一台配备了一个或多个 GPU 的服务器。通常,GPU 服务器用于运行需要大量并行计算能力的工作负载。由于 GPU 非常适合并行处理,它们在诸如训练 AI 模型等场景中表现出色,因为这些任务需要同时执行大量操作。
GPU 服务器还包含中央处理器单元 ( CPU ) 。CPU 用于执行传统的计算任务,例如运行控制服务器的操作系统。但 GPU 服务器不仅拥有传统的 CPU ,还提供 GPU 计算资源。
GPU 服务器在数据中心中日益增长的作用
在生成式 AI 兴起之前,数据中心内很少见到 GPU 服务器。大多数数据中心服务器都是传统设备,其计算资源仅由 CPU 提供,而 CPU 非常适合支撑诸如托管网站和数据库等大多数传统负载。
但随着支撑 AI 模型训练和推理的基础设施需求不断增长,数据中心托管 GPU 服务器的能力变得日益重要。
配备先进冷却系统的高密度 GPU 服务器为现代数据中心中的 AI 工作负载提供动力。(图片来源:Alamy)
GPU 服务器与 CPU 服务器的对比
在许多方面,GPU 服务器与仅包含 CPU 的传统服务器类似。它们通常尺寸相同,可适配标准服务器机架,并需要相同类型的网络和电源连接。
然而,GPU 服务器在以下几个重要方面有所区别:
更多扩展槽:传统服务器通常只有较少的扩展槽,供技术人员将 GPU 和其他专用硬件设备连接到服务器主板上,因为大多数传统服务器并不需要大量附加卡。然而,对于 GPU 服务器来说,必须提供插入 GPU 的途径,因此它们需要更多扩展槽——通常比传统服务器拥有更多扩展槽。有些 GPU 服务器甚至配备足够槽位,可容纳多达 10 个独立 GPU 。
更高的电力需求:GPU 消耗大量电力。这意味着 GPU 服务器必须能够提供比典型仅 CPU 服务器更多的电力。GPU 的供电方式可能各不相同,有时电力通过服务器主板传输,而高端企业级 GPU 则可能拥有专用电源接口。不管怎样,GPU 服务器(以及托管它的机架)都必须能够提供足够的总电能以确保 GPU 正常运行。
更强的散热能力:高能耗必然伴随高热输出。因此,GPU 服务器必须特别擅长散热,通常需要比传统风扇更先进的冷却解决方案。
为 GPU 服务器准备数据中心
由于 GPU 服务器通常可以安装在传统服务器机架中,从物理空间角度来看,它们不会给数据中心运营商带来特殊挑战。但数据中心可能需要在其他方面进行调整以适应 GPU 的需求。
最大的挑战可能在于电力供应。如上所述,GPU 服务器通常需要更多能量。对于数据中心运营商来说,这不仅意味着要确保设施能够提供足够的总电力以维持 GPU 服务器运行,还可能需要优先投资可持续能源,以防高耗电的 GPU 影响可持续性承诺。
保持 GPU 服务器良好散热也是运营商的一大重点。将数十台 GPU 服务器装入同一机架,如果没有高效的散热系统来迅速移除热量,可能根本行不通。
另一个问题是数据中心灾难恢复。无论设施中的服务器类型如何,保护数据中心基础设施免受故障影响并迅速恢复都至关重要。但当服务器中包含每台价格高达数万美元的 GPU 时,这一点尤为重要。
此外,当存在 GPU 服务器时,从停电中恢复可能会更具挑战性,因为在这些服务器上运行的工作负载更难迁移到其他服务器上。如果一台标准服务器宕机,通常可以用另一台标准服务器替换,但对于包含专用硬件和特定配置的 GPU 服务器,情况则不尽相同。
最终结论:将数据中心打造成适合 GPU 服务器的理想环境完全可行,但这需要一些特殊规划和投资。虽然 GPU 服务器可以与标准仅 CPU 服务器共置于同一机架内,但这并不意味着在没有专门措施的情况下就能完美运行。
本文链接:http://www.xihao.site/showinfo-1-76832.html理解 GPU 服务器及其在数据中心中的角色