数据中心使用的不同GPU-博客科技的专栏

数据中心使用的不同GPU

2022-10-05 23:38:26栏目：默认栏目 IP属地：北京市

来源：半导体产业纵横（ID:ICVIEWS）编译自nextplatform

在半导体行业中，体积比架构更加重要。如果设计中的IP不能分散到大量客户以解决更广泛的工作负载，那么出色的设计并不能带来什么。

英特尔对 GPU 业务一点也不陌生。仅在最近十年就见证了基于“Larrabee”X86 的 GPU 的兴起，它没有与Nvidia和AMD（ATI）替代产品竞争的性能，并且作为HPC计算的许多核心处理器的“Knights”系列被回收，英特尔在仅仅两代人之后就将其作为计算引擎淘汰。

用于Core i5、i7或i9 PC处理器的Iris系列集成图形电路，后者重新打包为Xeon E3服务器CPU系列，集成GPU用于视频流和VDI工作负载。英特尔尽其所能忽略这些 Iris 增强型服务器 CPU 中固有的相当强大的 GPU 计算能力。

英特尔正在用基于Xe架构的离散 GPU 家族来解决这个问题，该公司最终致力于拥有一个广泛而深入的 GPU 计算平台，主要是英特尔意识到，如果他们不在数据中心吃掉自己的 CPU 计算份额，那么其他两家主要的 GPU 加速器制造商—— AMD 和 Nvidia 都会推出相应的CPU。

好久不见

这种Xe GPU 策略是其 Gen11 Iris PC 显卡的演变，并在 2018 年 12 月的英特尔创新日上首次详细介绍，当时英特尔表示将创建一个新架构，该架构将具有独立 CPU 和集成 GPU，所有这些都基于相同的Xe架构将跨越“从 teraflops 到 petaflops”，范围从针对 PC 客户端优化的低端 GPU 一直到针对运行 AI 和 HPC 工作负载的数据中心系统优化的大型计算引擎。

近两年后，在 Hot Chips 上，英特尔详细阐述了这一新 GPU 系列的设计，并谈到针对特定工作负载调整Xe GPU 微架构，并使用不同的工艺、封装，有时甚至是小芯片组合。Xe LP 是一种低功耗 GPU，最初在“Tiger Lake”CPU 中销售，然后在用于服务器工作负载的离散 SG1 和 DG1 GPU 中免费使用；英特尔服务器 XG310 GPU 加速器于 2020 年 11 月宣布并与中国系统制造商 H3C 共同设计，使用Xe LP SG1 变体。

XeHPG 系列针对高性能游戏和数据中心流媒体和图形计算工作负载。Xe HP 将 HBM2e 内存添加到 GPU 复合体中，并在单个封装上扩展到四个小芯片，旨在实现更强大的媒体处理和 AI 工作负载。最后，Xe HPC 系列的目标是浮点和混合精度计算，用于 AI 训练和 HPC 模拟和建模工作负载，而 Knights 系列则留下了一个漏洞。

Xe HPC 系列包括“Ponte Vecchio”离散 GPU，英特尔上周表示，它已开始向阿贡国家实验室发货，作为“Aurora”百亿亿级超级计算机的第二个设计中的主要计算引擎。

英特尔详细介绍的 Flex 系列 140 和 170 GPU 加速器属于Xe HPG 系列，也称为 Artic Sound-M 系列。这些 Flex 系列卡于 8 月推出，但这些设备的许多架构细节并未透露。

不要被这些独立 GPU 卡的相对大小误导。Flex 系列 140 基于一对 DG2-128 GPU，其中八个Xe图形内核运行在 1.95 GHz、两个媒体引擎和八个共享 12 GB GDDR6 内存的光线追踪单元。

Flex 系列 170 具有单个 DG2-512 GPU，具有 32 个运行频率为 2.05 GHz 的Xe内核、两个媒体引擎和 32 个共享 16 GB GDDR6 内存的光线追踪单元。

Xe HPG 内核具有 16 个 256 位向量引擎和 16 个 1,024 位 XMX 矩阵数学引擎，这两个引擎都对 AI 推理很有用，具有 192 KB 的共享 L1 缓存。这两个引擎是我们关心 Flex 系列的原因。

重点关注媒体转码和云游戏，因为在数据中心很好地支持这种工作负载意味着英特尔可以与 Nvidia 竞争在 GPU 领域的工作数据中心。如果英特尔GPU领域竞争，那么它也有能力构建更好的Xe HPC GPU 加速器，比如“Rialto Bridge”离散 GPU 踢球器到 Ponte Vecchio 和“Falcon Shores”混合 CPU-GPU 设备。

Xe HPC 内核上的向量引擎每个时钟可以处理 16 次 FP32、32 次 FP16 和 64 次 INT8 运算，并具有一个专用的浮点执行端口和另一个用于整数和扩展数学函数处理的端口。

XMX 矩阵引擎是一个四深脉动阵列，类似于 Google 的 TPU 和 Amazon Web Services 的 Inferentia 芯片。Xe HPC 内核上的矩阵引擎每个时钟可以处理 128 个 FP16 或 BF16 浮点、256 个 INT8 或 512 个 INT4 运算。GPU 可以同时将工作分派给向量和矩阵引擎。

配备两个 DG2-128 GPU 的 Flex 系列 140 在媒体处理方面将比配备一个 DG2-512 GPU 的 Flex 系列 170 高出近 2 倍，但其运算能力仅为 Flex 系列 170 的 41%。

预计 Flex 系列 140 比 Flex 系列 170 便宜得多，因此 AI 的性价比差距两个设备之间的推断可能没有媒体处理那么大。这个想法是让数据中心 GPU 既可以用于媒体处理，也可以用于云游戏，但在 AI 推理方面也做得相当好，这不仅越来越成为数据中心的工作负载，

英伟达数据中心GPU

Nvidia 刚刚推出了具有光线追踪、视频编码和 AI 推理处理功能的“Lovelace”AD102 数据中心 GPU，而英特尔对新的 Nvidia L40 GPU 加速器的了解还不够，无法与 Flex 系列 140 和 150 卡进行比较。但英特尔确实将其数据中心 GPU 与 Nvidia A2 和 A10 设备进行了对比，

人工智能如何嵌入应用程序的一个很好的例子是在流视频中使用人工智能推理进行对象分类和对象检测。英特尔有一个名为 DLStreamer 的新工具，可以优化 Xeon SP CPU 和 Flex 系列 GPU 的使用，以在视频流输入中进行对象识别，如下所示：

正如在该框图底部看到的那样，当 DLStreamer 在 CPU 和 GPU 上运行部分代码时，解码视频并在流上运行 Yolov5 对象检测模型的流的数量增加了 67%。机箱中的 Flex 系列 GPU 通过 CPU-GPU 组合驱动 150 个流来驱动 90 个流。

我们真正想要做的是直接比较 Nvidia 加速器和 Flex 系列在这些工作负载上的比较，英特尔不得不使用 Resnet50 进行对象分类，使用 SSD-MobileNet 进行对象检测：

Flex 系列 170 在视频流中的对象分类方面的性能比 Nvidia A10 高 35.4%，在视频流中的对象检测方面的性能提高 33.3%。

Nvidia A10在惠普（Hewlett Packard Enterprise）和CDW的售价约为8,400美元，在戴尔（Dell）的售价则低至5,700美元。为了在视频推理方面提供同样的价格，英特尔可能会对Flex系列170收取11,200美元的价格。如果Flex系列170的售价为8400美元，英特尔的性价比将提高25%，而售价为6400美元的价格/性能将提高43%。

作为GPU计算市场的新手，英特尔可能降低价格，同时提供更高的性能。