GPU 市场既复杂又充满挑战。如果你花了几小时的时间来寻找关于 H100 市场的信息,你可能已经遇到了无数个类似的信息:与我们的销售交谈。虽然 GPU 基础设施选项可能看起来相似,但你知道它们并非如此——特别是如果你听过关于稳定性问题和管理 GPU 集群的隐性挑战的故事。那么,你该转向何处呢?
如果上面的内容在某处似曾相识,你正位于正确的页面。我们意识到了对图形处理器市场全面指南的缺乏,我们在此分享我们的见解,特别是关于旗舰型号 H100 的信息。截至 2024 年 8 月,这份指南将涵盖的内容包括:
市场上的各种选项的通常价格是多少?
我如何才能确保 GPU 的可靠性?
超越 GPU 的硬件规格是否重要?
GPU 在哪里?位置是否重要?
我们是谁?我们是 caffe、ONNX、PyTorch 和 etcd 的团队。我们现在在 Lepton AI 建设一个 AI 云。我们在所有主要的 IaaS 提供商和客户本地资源上运营了一支 GPU 资源的车队。在我们之前的岗位上,我们为一些全球最大的科技公司运营人工智能基础设施,包括 Meta、Uber 和 Alibaba。 丰富的经验赋予了我们对技术与市场的深入理解,使得我们能为训练和推理提供成本效益最优、可靠性最高的解决方案。
无论您是想购买还是租赁 H100 GPU,可以在这里联系我们。我们期待收到您的来信,并协助您在您的旅程中前行!
获取 GPU:定价
首先,价格。简短的总结是,H100 的价格会保持一段时间,但最终会下调,租赁的条款在变短,这使得容量规划更加灵活。我们将对比租用和购买 GPU 的方式,通过关键参数分解价格。
租赁:短期到长期的预期
市场奖励预测性回报
到目前为止,获取 H100 独显的主要方式是预定计算资源。这是因为独显价格昂贵,厂商不愿看到闲置的独显。预订提供了预测性,而作为用户的你反过来会得到更好的价格奖励。
预订通常需要至少 6 个月的承诺期。对于小型集群(16 到 512 个 GPU 之间),当前的公平基准定价约为每小时$2.60,6 个月期为$2.40,12 个月期为$2.20 以下,长期期价更低。这些价格包括满载配置,包含服务器级的 CPU、2TB 内存、40TB 本地 NVMe 存储和 InfiniBand/RoCE 互连(我们会稍后详细介绍硬件规格)。 在美国以外的地区,定价可能因具体地理位置而异,同一地区,基于当地条件,有可能提供更高或更低的费率。但总的来说,如果看到价格与上述差异显著,你可能需要询问底层原因,以确保你选择的是信誉良好的服务提供商。
对于规模较大的群集(超过 512 卡),定价极其多样且会因多种因素而变化,这使得确立一个基准线变得相当困难。
即时满足正在成为一种趋势
在 2023 年底和 2024 年初,对 GPU 的即需访问几乎成为不可能。虽然 Lambda Labs 提供每小时约 35 美元的即需 H100 GPU,但可用性极其有限,通常需要大量的运气才能获得一台机器。我们看到对即需市场的变化也在酝酿中。目前,即需 H100 GPU 的价格有所缓解,各大提供商的平均价格在 3 美元到 3.5 美元之间,包括 Lambda Labs、Voltage Park、DigitalOcean、Runpod 和 CoreWeave。 然而,这些按需的 H100 GPU 一般会有限制,比如缺乏像 InfiniBand 或 RoCE 这样的高带宽 GPU 链接(如直连布线或 RoCE),以及比正常 CPU 基于的按需资源等待时间更长。
A100 作为 H100 价格趋势的基准
A100 GPU 的历史为我们提供了关于当前 H100 市场趋势的有用洞察。当 A100 在 2020 年首次发布时,每小时租赁价格为 2.4 美元。到 2023 年,这一价格降至每小时 1.8 美元,再后来,到 2024 年,价格进一步降至大约每小时 1.4 美元。在这次降价的同时,可用性显著增加。例如,Azure 现在提供了有合理可用性和引人注目折扣的 A100 闲例。
H100 的价格似乎遵循相似的轨迹,过去一年中下降了约 20%。以前的交货期,长达 6 个月,如今缩短到了几周,甚至更少。然而,H100 的定价仍然不明朗,受到营销策略的 heavily 影响。
展望未来,预测未来 H100 的价格很困难,因为对未来即将推出的 Blackwell GPU 的不确定性和需求变化存在不确定性。即使如此,我们预计供应将持续提升,价格变得越来越清晰。随着可获得性不再成为问题,不同的图形处理器之间,因素如可靠性、支持和软件能力将变得更加重要。
购买:成本构成 breakdown
另一种选择是 upfront 一次性购买机器。“我听说云服务提供商会收取高昂的溢价。我应该自己构建 GPU 集群吗?”如果你想这么做,或者你只想快速查看内部成本 breakdown,继续阅读。
我们将做出一些会计假设:机器和其他部件将在 4 年内按照线性方式逐步降级;我们假设价格在整个 4 年内都是相同的;并且我们忽略财务因素(购买需要更高的起始付款)。当然,这些简化方法显然是粗略的,但它们有助于使数学清晰。我们还将把所有的东西都转换为“每 GPU 每小时”的价格,以便更容易地进行比较。
我们将成本分解到以下部分:计算硬件、网络硬件、电力及其他 IDC 成本,以及备件。
计算硬件:每小时 1.1 美元
硬件成本毫无疑问是主要因素。一个配备 8 块 H100GPU 的戴尔 HGX 系统,通常内存配置为 2TB,NVMe 存储配置为 40TB,定价约为 28 万美元。Supermicro 的类似配置价格稍低,大约 27 万美元。考虑到销售税,这意味着每 GPU 小时成本大约为 1.1 美元。
网络硬件:0.2 美元/小时
通常,当在大型分布式计算中构建小型集群时,人们也希望部署高性能网络。通常,这涉及到服务器上的网络设备和连接服务的交换机/电缆。根据规格和集群大小,预计网络成本将超过机器成本的 20%以上。在本文的后续部分,我们将大致估计其约为$0。每 GPU 小时 2 元。
电力和其他 IDC 成本:0.3 美元/小时。
每块完全启用的 H100 GPU 每千瓦小时的功率消耗约为 800 瓦特。以美国的平均电费和 IDC 租用费为每月 200 美元计算,这导致每月能源成本约为每 GPU160 美元。此外,每个机器的现场维护服务费(有时被称为“智能双手”)通常需要每三个月花费一小时,每小时收费 150 美元。因此,运行一台 H100 GPU 的总每月费用大致为每卡时 0.3 美元。
备件:每小时 $0.1 美元
为了实现 99.9%的 uptime,一般情况下,需要保留 3-5%的备用零件。然而,即使有此预防措施,仍可能因不可避免的硬件或网络问题导致偶尔的进一步 downtime。鉴于此讨论,我们乐观地使用 3%的备用作为我们的基准。我们还考虑了替换备用零件可能带来的潜在 downtime,估算的总成本约为每小时 0.1 美元。
哪些内容没有涵盖
上述成本分解导致在 4 年中约 1.7 美元/小时的总成本。请注意,这仅涉及 BOM 成本,而且很可能为了搭建自己的集群,你将投资一定数量的人力资源。这一范围从“由自身研究团队管理”到“专门设置的高性能服务器团队”,取决于您专用 GPU 集群的规模和复杂性。 肯定会有像一个不高兴的研究团队或非平凡的运营成本这样的复杂性,但这些可能在标准方式下难以分析。
如果你是一家初创企业,你可能想要问 —— 值得吗?这进而引出了下一个问题。
是租还是买?
这是一个难回答的问题,但多年的观察结果让我们略微倾向于租借作为 Lepton 的推荐,原因如下:
价格下跌了。4 年的时间很长。H100 的租赁价格肯定会在持续地逐步下降,所以购买的好处可能会比预期的衰减得更快。
初始投入成本更低:每个 HGX 机器的 cost 约为 6 件特斯拉 Model Y。租用会给您的现金流带来好处,特别是如果你花的是昂贵的 VC(风险投资资金)的话。
更灵活的选择:如果需要根据计算资源的需要调整规模,租用相比在每个租约期结束时更容易实现,至少如此。自己拥有的集群规模扩展会更复杂;很常见的情况是,你的数据中心会用完机柜空间,你得带着自己的集群去另一个数据中心。
当然,有购买的理由,比如:
数据安全及其相关的考虑因素至关重要,你确实需要一个隔离的系统。
你完全承诺为确定的几年使用期内提供固定的计算量。
与纯粹的 GPU 基础设施提供商不同,Lepton 帮助我们的用户高效地运行计算,无论是租用的 GPU 计算能力,还是专有的集群。Lepton 的客户通过拥有一个全面的云原生平台,可以充分管理 GPU、调度训练工作负载和推理服务,以高效的方式运行 AI 工作负载。
使用 GPU:可靠性
GPU 们速度很快,但也很随意。通常情况下,它们比传统的 CPU 服务器出现故障的频率更高。如果你管理着 100 块 GPU 卡,每月至少预计有一块卡出现故障的情况是合理的。在最近一篇介绍 GPUd 的博客中,我们讨论了 GPU 的可靠性与恢复。类似的观点也在领先的 AI 公司中被提出,例如 Meta,在 54 天的 3 405B 大语言模型预训练期间,每天约有 8.6 个中断。
因此,无论你是租用还是购买 GPU,关键在于你是否向提供者询问他们是否提供以下服务:
他们在交付前进行周密的前期准备和 burn-in 测试,这样做对吗?
在集群运行过程中,他们进行广泛的在位主动监控吗?
是否有 IDC 现场的工作人员支持,并且有哪些服务等级协议的保证?
全面的前期准备和烧录测试
当 GPU 主机被开启时,它们的故障率通常会较高。在部署 GPU 主机之前,最 crucial 的一步是消除配置错误和死机组件。不同于仅使用 CPU 的系统,GPU 主机具有更为复杂的组件,需要超过标准的 CPU 基准测试才能进行全面的测试。常见的测试包括 GPU 加热和所有减少测试(NCCL)。这些测试确保了基础的硬件规格得到满足。
在 Lepton,我们进一步迈进了一步。在向客户交付 H100 GPU 机器之前,我们不仅进行标准的启动烧毁测试,还运行流行的训练框架如 torch.distributed 和 DeepSpeed,以验证端到端的训练性能。我们识别隐藏的问题,如潜在的 ECC 错误,由于 GPU 之间的通信导致的减慢, Ethernet 或存储,以及 GPU 集群与外部互联网之间的网络吞吐量。 因此,我们的客户可以在第一天就获得经过完全优化、准备迎接 demanding 工作负载的机器。
全面的主动监控
持续监控至关重要。没有一家公司希望在凌晨 3 点时 GPU 突然断开,随后在早上 9 点时才被识别。从最低要求来看,你的基础设施提供商应配置 IPMI 或其他类似工具,用于跟踪基本的硬件状态和 PCIe 状态。这能检测出常见的问题,如 GPU 脱离 PCIe 总线或 NVMe 磁盘故障。一些高级的 IaaS(基础设施即服务)提供商提供了额外的全面的 GPU-GPU 和数据中心网络监控,但我们发现这种服务的水平相当稀有。 在写这篇文章时,我们还没有看到任何提供者,包括 AWS 或 Google Cloud Platform,它们提供一个全面的、活跃的 GPU 健康监测(ECC 错误、电源问题、NVLink 状态等)。这些通常留给用户处理。
在 Lepton,我们坚信用户有权享受到更好的可靠性。这就是为什么我们开源 GPUd:旨在通过主动监控 GPU 并有效管理 AI/ML 工作负载,来保证 GPU 的高效性和可靠性。
我们在莱顿的每个机器上部署了 GPUd,以确保对 GPU 和相关组件的全面监控。这使得我们能够早期发现潜在问题的迹象,并采用详细诊断方法来确定问题的根本原因。通过这种方式,我们可以确定最有效的方法来使集群恢复到健康状态。这也有助于确保 SLAs 的遵守,并在必要时为您从提供商处获得适当的退款提供支持。
一个典型的例子是 ECC (错误矫正码) 错误:虽然“软件 ECC 错误”通常被视为“可修复的”,但在高强度使用后的几天内,我们发现它们会导致不可修复的硬件故障。因此,我们能够主动污染节点,并进行预测性维护。这消除了我们对客户的不必要的中断,无论是培训还是推理。对于我们的供应商伙伴,这也有助于提高服务级别协议(SLAs)和贯穿整个流程的总体满意度。
IDC 现场员工配置和 SLA 保证
大多数基础设施提供商都会宣称提供 24/7 现场支持,但服务质量因工作人员的可用性而大相径庭。此外,24/7 现场保证并不总是能确保机器故障的快速解决,特别是当问题超越了简单的重启时。数据中心的常用任务包括重置图形处理器卡、更换或重新连接网络线缆,并排除电源设备的问题。然而,识别这些问题可能需要额外的时间。
为应对这一挑战,Lepton 开发了 GPUd,这是一个主动工具,监测机器的状态,并帮助快速定位问题的根源。一旦识别出问题,现场工作人员通常可以在数小时内解决,有效降低了延长停机时间的风险。
服务级别协议(SLA)使提供商对其表现负责,若未达标则提供补偿。然而,重要的是要指出,GPU 集群的 SLA 通常与普通 CPU 集群不同。虽然大多数提供商为控制平面提供了高 SLA 保证,但 GPU 的停机率通常较低,这是因为它们的故障率更高,以及与 CPU 相比,迁移和虚拟化的难度更大。 这些措施 combined 能确保运营的顺畅、问题的及时解决,以及对重大业务中断的保护。
硬件规格:数据中心视角
猜不到吧,显卡没有外围设备是无法工作的,它周围的基础设施相当复杂且不易理解。你并不是购买单一的显卡。这样的外围基础设施与显卡同等重要,以确保获得最佳的系统性能。我们将为你提供更多关于选择显卡服务器、网络、CPU 和内存、存储等的详细信息。
GPU 服务器
Nvidia H100 HGX 系统由多家主要供应商提供,包括但不仅限于戴尔、微星和超微。尽管这些供应商之间的定价相对相似且不是显著的差异化因素,但需要注意各自的供应商特定考虑,比如电源供应系统(PSU)、冷却系统和与硬件相关的其他问题。然而,这些通常通过软件和零件更新随着 H100 平台的成熟得到解决。
我们在与 Supermicro 的合作中,就交货、安装、客户支持和事件响应方面,获得了积极的体验。市场上的其他参与者可能因为其广泛的可用性和支持网络而倾向于选择戴尔。总体而言,GPU 服务器本身是一款相对标准化的产品,随着 H100 的成熟。这随着新 Nvidia NVL36/NVL72 与黑贝尔 GPU 的出现,可能会改变,所以我们会持续关注这些产品。 此外,如果你正在构建一个集群,你可能想要与系统集成商合作,如 AMAX,他们将提供除单个服务器外的更完整的解决方案。
GPU 网络
GPU 网络专注于高性能、低延迟的 GPU 之间的互联,这样你就可以高效地进行分布式训练。通常有两种选择:InfiniBand(有时称为 IB)和远程直接内存访问 over 集成以太网(RoCE)。两者都可以提供高网络带宽,InfiniBand 提供稍低的端口到端口延迟(约 200 ns) ,而 RoCE 更多是一个开放的行业标准。
一个常见的误解是 InfiniBand 对训练来说是必不可少的。然而,RoCE 已经过了数年的成熟发展,其能力通过如 LLAMA 3.1 这样的领先模型的超大规模训练基础设施得到了展示。总的来说,InfiniBand 更加稳定,附带成熟的商业网络管理解决方案,如 NVidia UFM。RoCE 通常提供更好的可用性,并被认为在某些情况下更为可扩展,尽管这需要专业知识。
根据我们的经验,在训练集群中,数量少于 1,000 个 GPU 之间,RoCE 和 InfiniBand 之间的差异可能微乎其微。如果你自己负责构建和管理集群,InfiniBand 可能有一些操作上的优势。然而,RoCE 也是一个可行的选择,通常更具竞争力的价格点。
在两种情况下,可用带宽都是设计因素值得提及。一个流行的选择是八通 InfiniBand 或 RoCE 网络卡,每张卡提供 400GB 的带宽。这就是为什么你在供应商那里经常听到“3.2T 互联”这样的说法。在实践中,你可能也会将其缩减至 4 通道或 2 通道,但仍能高效地训练大多数模型。我们确实发现许多提供商确实出于前瞻性考虑,提供 8 通道。
CPU/内存
考虑到 H100 GPU 的高昂成本,CPU 和内存的成本在总成本中变得相对较小的一部分,通常占整个机器成本的 10% 左右。大多数供应商都会在系统中完全配备 CPU 和内存,以最大限度地提高性能。对于配备 8 个 H100 GPU 的机器,通常可以看到超过 96 个物理核心或 192 vCPUs 的配置,经常使用 Intel Xeon Platinum Sapphire Rapids 或 AMD 9004 系列处理器。 内存配置通常包括 2TB,尽管 1TB 也是一个可行的选择。
Lepton 建议充分利用可用的 CPU 和内存资源,以确保它们不会在训练或推断过程中成为瓶颈。
存储
在人工智能工作负载中,快速本地存储对于训练和推断任务都是必不可少的。理想情况下,一台机器应该配备至少 20 TB 的 NVMe 存储,尽管高性能系统往往提供更大量的存储。本地磁盘应该足够大,以容纳服务器在训练或推断过程中所需的整个数据集,从而减少网络依赖并最大限度地提高本地 GPU 的性能。
然而,在涉及大量数据集的任务,如图像、视频和音频训练,存储需求往往超过本地容量,需要使用远程存储解决方案。最常见的方法是使用 NFS,同时也包括像 Lustre、VAST 和 Weka 这样的商业替代方案。此外,对象存储选项如 S3、Minio 或 Ceph 也是可行的,尽管 POSIX 文件系统通常更被研究者们所熟悉。 至少,每块 GPU 应该有 200MB/s 的读取吞吐量,系统支持全局机器写入吞吐量为 1GB/s 的检查点操作。
除了存储容量之外,其他挑战往往随之出现,比如处理大量小文件。例如,每个小型图像或视频可能只有几 kilobytes,而研究人员通常更倾向于从无服务器存储直接进行随机访问。
为满足这些需求,我们莱顿(Lepton)开发了一种针对人工智能训练的通用存储解决方案。我们的 POSIX 兼容的分布式文件系统可以在远程存储或对象存储上持久化数据,同时在本地 NVMe 硬盘上进行缓存,采用对等、无服务器的方式。这种方法提供的是远程存储的扩展性,同时保持了本地磁盘访问的性能和简单性。
位置,位置,位置
GPU 的供应商今天在全球各地都有分布。北美因其较低的能耗成本、合理的网络费率以及更广泛的配件供应,是 hosting 的首选之地。欧洲排名第二,而亚太地区通常带宽和能源成本较高。但是,GPU 出租价格也取决于需求,所以价格并不呈线性关系。
对于训练,位置并不是关键,只要你能够一次性地将训练数据的块(通常在十亿美元或低十亿美元级别)移动到和移出集群。对于推理,延迟和可靠性是关键因素。将你的基础设施定位在主要客户群体附近,并且将你的能力分布在多个地点有助于防止单点故障,并增强网络的可靠性。 一个大致的规则是:从美国东部到美国西部增加了大约 60 毫秒的延迟,从美国到亚洲太平洋地区大约增加了 150 毫秒。
Lepton 运营一个全球供应链,以最大化 GPU 的可用性。我们还采用大量接入点(POP)节点,这样 GPU 与客户端之间的延迟就可以最小化。
结论
无论是自己搭建一个集群,还是从 IaaS 提供商租用 GPU,从原始计算能力到一个运行完全、高性能训练任务的完全可用的集群之间,还有很长的路要走。涉及计算、存储、网络和针对特定模型的优化等多个方面,以确保一切都能高效运行。
文章只是 GPU 市场庞大复杂性的冰山一角。莱顿团队在 10,000 个 GPU 规模下构建软件和硬件解决方案的经验十分丰富。在我们的职业生涯中,我们为自动驾驶、科学 AI 和自然语言处理服务,当然,还有大规模的LLM和其他通用人工智能的训练和推理。因此,我们投入了大量精力来理解 GPU 供应 landscape,与大多数主要的 GPU 供应商保持合作关系。
作为您 AI 需求的全方位解决方案:我们不仅帮助您找到 GPU 资源,还为您构建一个完整的 AI 云平台,以便您的工程师和研究人员可以最大化工作效率。并非所有 GPU 都相同,我们确保它们最适合您的需求:关于操作 GPU 集群的专业知识,一个可靠的操作软件栈,以及训练和部署自己 AI 模型的效率?
无论你是想租还是买 H100 GPU,你可以在这里联系我们,或者直接发送电子邮件至 info@lepton.ai。我们期待收到你的来信,并助你一臂之力,踏上你的 AI 道路!