英伟达选择甲骨文OCI云技术提供大规模AI超级计算服务

更新时间：2023-03-28 17:48:32作者：reslond

3 月 28 日消息，甲骨文宣布与英伟达（NVIDIA）进一步扩大合作。在全新的 Oracle 云基础设施远程软件服务 (注：全称 Oracle Cloud Infrastructure，简称 OCI) Supercluster 上运行战略性 NVIDIA AI 应用。英伟达选择 OCI 作为该企业的超大规模云技术提供商，提供大规模的 AI 超级计算服务 NVIDIA DGX Cloud。此外，英伟达正在运行其生成式 AI 云服务 NVIDIA AI Foundations，该服务通过基于 OCI 的 DGX Cloud 提供。

NVIDIA DGX Cloud 和在基于其运行的 NVIDIA AI Foundations 服务利用英伟达认证的 OCI Supercluster 来确保其符合 DGX Cloud 的高标准。

OCI Supercluster 包含了 OCI Compute Bare Metal、基于 NVIDIA 网络的超低延迟 RoCE 集群，以及 HPC 存储的选件。英伟达已部署并验证该超级集群，以支持数千个 OCI Compute Bare Metal 实例高效处理大规模并行应用。OCI Supercluster 网络现在可以使用 32,768 个 A100 GPU，扩展至 4,096 个 OCI Compute Bare Metal 实例。现在，配备 NVIDIA H100 GPU 的 OCI Compute Bare Metal 实例已限量供应。

此外，英伟达宣布，甲骨文公司正在将 NVIDIA BlueField-3 DPU 添加到其网络堆栈中。

NVIDIA AI Foundations 建模服务涵盖语言、图像、视频和 3D 以及生物学。企业可以使用 NVIDIA NeMo 语言服务和 NVIDIA Picasso 图像、视频和 3D 服务，构建专有的、特定领域的生成式 AI 应用，从而实现智能聊天和客户支持、专业内容创建、数字模拟等。对于生物 AI 模型训练和推断，NVIDIA BioNeMo 云服务提供了用于快速定制和部署生成式 AI 应用的工具。

在 OCI 上，使用 NVIDIA AI Foundations 的定制模型和像 GPT-3 一样的模型系列可从 OCI Supercluster 中受益，其中包括专门构建的 RDMA 网络。该网络可提供近线速的性能和微秒延迟，并消除有关依赖 RDMA 的工作负载的障碍。