GPU，正式迈入Chiplet时代

发布于：2022/6/24 10:33:56 | 2257 次阅读

[转载]原文链接：https://mp.weixin.qq.com/s/dOcBfFQGS5NbNADaHP97wA

最近，外媒tomshardware与 AMD 高级副总裁、企业研究员兼产品技术架构师 Sam Naffziger 就过去几年 Radeon 显卡的发展情况以及对未来的预测进行了交谈。AMD 最近提供了有关其即将推出的RDNA 3 GPU 架构的一些诱人细节，该架构计划在今年年底前推出，采用基于Chiplet的设计，并为我们的采访和问答环节提供了背景。我们已经进行了讨论并将其提炼为关键点，因此我们不会以采访的形式呈现。
Naffziger 已经在 AMD 工作了 16 年，负责多个产品领域，专注于推动更高的每瓦性能以及提高 AMD CPU 和 GPU 的整体竞争力。他也是 AMD Chiplet架构背后的主要人物之一，该架构已在 Ryzen 和 EPYC CPU 系列中证明非常成功，现在将以某种形式出现在 AMD RDNA 3 显卡中。
Naffziger 在本次采访中概述了公司面临的挑战，以及他认为创新技术（如基于Chiplet的 GPU 架构）如何提高性能和能效。
撞上电源墙
在现代微处理器设计的核心，功耗和效率正变得越来越成问题，没有一家公司能逃避这个副作用带来的影响。所有的迹象也都表明，下一代 GPU 的功耗会增加：PCIe 5.0 电源接口和即将推出的支持它的电源可以通过单个 16 针连接器提供高达 600W 的功率，预示着更广泛的行业需求将转向更高功率的 GPU。
众所周知，Nvidia 的 Ada 架构将推动比我们过去看到的更高的功率限制——目前的传言表明，我们可能会看到 450W TBP（典型的板卡功率），甚至可能会看到顶级 RTX 40 系列的 600W TBP GPU。目前还没有关于 AMD RDNA 3 的 TBP 的消息，但公平地说，我认为他们可以遵循同样的趋势。
因此，虽然我们的谈话集中在 AMD 提高效率的方法上，但总体功耗问题仍然存在。Naffziger也证实我们可以预期下一代 GPU 的总功耗会增加，但解释了关注效率如何可以最大限度地提高性能。
Naffziger 解释说：“这确实是物理学的基本原理推动了这一点。” “如果有的话，对游戏和计算性能的需求正在加速，与此同时，底层工艺技术以及改进速度正在显著放缓。所以功率水平只会继续上升。现在，我们有一个多年的路线图，利用非常显著的效率改进来抵消这条曲线，但趋势就在那里。”
AMD 声称 RDNA 和 RDNA 2 的每瓦性能提高了 50%，并且它的目标是使用 RDNA 3 将每瓦性能再提高 50%。这可能意味着很多不同的事情：在相同功率下性能提高 50% , 相同的性能，同时减少 33% 的功耗，或者沿着性能和功率曲线的其他位置。另请注意，与 Nvidia 和 Intel 一样，AMD 只需要有一个特定的场景，它可以说每瓦特的性能提高了 50% 即可获得此类收益。
Naffziger 解释了 AMD 在其先前的 RDNA 2 架构中看到的一些改进。例如，如果它可以在 2.5 GHz 和 1.0V 而不是 1.2V 下运行，则后者需要多 40% 的功率。Naffziger 表示，通过利用其 CPU 设计团队的专业知识，AMD 能够通过 RDNA 3 驱动更高的时钟频率，同时保持高效。AMD 长期以来一直在讨论其“cross-pollinating”CPU 和 GPU 设计团队的战略，将双方最好的技术带到每个新的 CPU 和 GPU 设计中。Naffziger 表示，当前的 GPU 内核“本质上更节能”，但仍需要做出商业决策。
“性能为王，”Naffziger 说，“但即使我们的设计更节能，这并不意味着如果竞争对手做同样的事情，你就不会提高功率水平。只是他们会有把他们推得比我们要高得多。”
换句话说，如果与 Nvidia 类似的 AMD 最终增加其顶级 RDNA 3 显卡的 TBP，请不要感到惊讶。
功率效率和每瓦性能
摩尔定律的改进速度放缓的根本挑战必须通过巧妙的工程和对功率效率的关注来抵消，而 AMD 在这一领域已经证明了自己。
目前，AMD 的 Zen 3 CPU 在效率和每瓦性能方面通常领先于英特尔，不过我们必须看看Zen 4和Ryzen 7000的变化。此外，AMD 的 RDNA 2 GPU 在效率上也倾向于击败竞争对手 Nvidia 的 GPU，具体取决于您比较的具体型号。这一点至关重要，因为近年来我们已经看到更高功率的 CPU 和 GPU 迅速升级，从而驱动更多热量和昂贵的冷却解决方案。
具体来看 AMD 过去两代的图形部件，与上一代 Vega 和 Polaris 架构相比，RDNA 在 2019 年的每瓦性能明显提高了 50% 或更多。例如，我们自己的GPU 基准测试结果表明，RX 5700 XT 在我们的 1080p 测试套件中平均帧率为 74 fps，同时消耗 214W，而 RX Vega 64 的 57 fps 消耗 298W ，这实际上是将这两个部分的每瓦性能提高了 80%。
与 RDNA 相比，2020 年的 RDNA 2 能够再次提供高达 50% 的每瓦性能。需要强调一下的是，这里说的是最多。例如，RX 6600 在 1080p 超分辨率下平均 67 fps，消耗 137W，比 RX 5700 XT 效率高 41%。同时，RX 6700 XT 在使用 215W 时提供 96 fps，仅提升 30% 的纯效率，而 RX 6800 XT 达到 124 fps 并使用 303W，仅提升 18% 的效率。然而，RX 5500 XT 8GB 的平均速度为 40 fps，功率为 126W，因此 RX 6600 至少在某些情况下效率提高了 54%——而且使用了类似的 128 位内存接口。
更令人印象深刻的是，这些收益都是在工艺节点没有变化的情况下实现的，因为 RDNA 和 RDNA 2 都使用了台积电的 7nm N7 技术（尽管一些较新的 GPU，如 Navi 24 现在使用 N6）。
AMD 在其财务分析师日宣布，它再次承诺通过利用一组新功能，通过 RDNA 3 将每瓦性能提高 50%。我们知道Chiplet尤其将成为其中的重要组成部分。Naffziger 还暗示将进一步优化 Infinity Cache 设计，以提高其有效带宽和命中率。不过，确切的细节仍在保密中。
在 CPU 方面，随着 Zen 2 和后来的 Zen 3，AMD 将内存控制器和 PCIe 通道放在称为 I/O 芯片的中央Chiplet上，以及用于与封装内的其他Chiplet通信的高带宽接口——称为 Infinity Fabric。到目前为止，这些其他Chiplet包括 CPU 内核及其关联的缓存，以及Chiplet的共享 L3 缓存。
对于消费类 CPU，AMD 发布了带有一个或两个 CPU Chiplet的处理器，每个Chiplet最多可以启用八个 CPU 内核。然而，AMD 不仅仅创建了一个 I/O Chiplet，它还希望扩展到多达 8 个 CPU Chiplet。消费类 I/O 芯片只有两个 CPU Chiplet的 Infinity Fabric 链接，EPYC 和 Threadripper 变体可以链接多达八个 CPU Chiplet，提供多达 64 核 CPU，如 Threadripper Pro 5995WX 和 EPYC 7763。
因此在图形解决方案中，您可以说 AMD 自 Fiji 架构和 R9 Fury X 以来一直在玩Chiplet封装技术。但这是第一款使用 HBM（高带宽内存）的产品，其硅中介层有助于将主GPU 核心和 HBM 堆栈。
我们想澄清 GPU 的“Chiplet方法”的定义，以确保 AMD 不再谈论 HBM。Naffziger 证实确实会有单独的Chiplet（不是内存芯片），尽管他没有具体确定 AMD 将如何进行拆分。
Naffziger 并没有对下一代 RDNA 3 架构进行更多的披露，但我们最好的猜测是 AMD 的 GPU Chiplet设计最终可能看起来至少有点像当前的 CPU 设计，它将拥有容纳计算的 GPU Chiplet单元 (CU)、着色器核心和一些 Infinity Cache。然后将至少有两种 I/O Chiplet设计，一种可以通过更宽的内存接口扩展到更高的Chiplet数量，另一种可能只支持最多两个具有更窄接口的 GPU Chiplet。AMD 将通过更新的 Infinity Fabric 链接Chiplet，并且它可能会在 I/O Chiplet上拥有适度的缓存块，以帮助优化内存访问。
用于 CPU 的Chiplet方法的伟大之处在于它实现了出色的规模经济。例如，Zen 3 的基本 CPU 计算Chiplet包含八个 CPU 内核和一个统一的 32MB 三级缓存，它的大小仍然只有 84 平方毫米——不到英特尔 i9-12900K 中使用的约 215 平方毫米 Alder Lake 芯片大小的一半，几乎是估计为 163 平方毫米的较小的六个 P 核 Alder Lake-S 大小的一半。然后，AMD 可以在其顶级解决方案中放置多达 8 个这样的Chiplet，考虑到芯片尺寸，良率还非常好。它还允许 AMD 在最重要的地方使用最新的工艺节点；例如，在 Zen 3 中，CPU Chiplet使用台积电的 7nm 节点，而 I/O Chiplet仍然使用 GlobalFoundries 便宜得多的 12nm 工艺。
对于 GPU，如果 AMD 抽出所有显示接口功能、视频编解码器、内存接口和其他通用硬件，只专注于计算单元，不难想象 AMD 会创建一个具有 40 CU 芯片的构建块2560（可能是 5120）着色器内核和 32–64MB 的 L3 缓存，以及 Infinity Fabric 接口。基本上，取 Navi 22 (RX 6700 XT)，这是一个 335 毫米见方的芯片，然后拉出大约一半的大小，然后将其放入 I/O Chiplet中。然后通过台积电的 5nm N5P 节点缩小剩余的 CU，AMD 可以拥有一个小于 100 平方毫米的Chiplet。同样，良率也会很高，对于消费领域，AMD 可能拥有多达四个这样的Chiplet的解决方案。
I/O Chiplet将是一个完全不同的野兽。它将容纳外部存储器接口，因此，它实际上可以通过不在领先节点上而受益，这意味着 AMD 可以在 N7 或 N6 上而不是 N5 上制造它。I/O 接口往往不能很好地扩展到更小的节点，而外部接口通常需要更高的电压，这会给更新节点带来设计挑战。AMD 不必在基于稍旧工艺的 I/O 芯片上处理那么多问题，而且它已经拥有来自各种 RDNA 2 设计的现有 GDDR6 接口，这些接口经过测试并在台积电的 7nm 工艺上工作。
I/O Chiplet的主要症结在于扩展到不同的目标市场。具有 8 个Chiplet的服务器的最大配置似乎是合理的，但 AMD 已将其消费者和数据中心设计分别分为 RDNA 和 CDNA。我们已经知道CDNA 3 和即将推出的 Instinct MI300 APU 的一些内容，它们也将与 Zen 4 CPU 一起用于El Capitan 超级计算机。RDNA 3 将完全不同，就像 RDNA 2 和 CDNA 2 一样。简而言之，我们预计 AMD 不会像计划 RDNA 3 那样为 CDNA 3 使用相同的Chiplet，因此可能不需要扩展到八个 GPU Chiplet。
相反，AMD 可以创建两个 I/O Chiplet，一个用于预算和中端行业，另一个用于高端和超高性能显卡。同时，所有 GPU Chiplet都将采用相同的核心设计。这仍然是当前 RDNA 2 阵容的简化，AMD 已经拥有四个独立的芯片（Navi 21、22、23 和 24），更不用说所有集成的 RDNA 2 解决方案，如 Rembrandt 和 Van Gogh（Steam Deck 处理器） .
AMD 可以在较小的 I/O Chiplet上放置一个 128 位内存接口，为低层产品提供 64 位或 96 位变体，并能够链接到两个 GPU 计算Chiplet。更大的高端解决方案可能具有 256 位内存接口（甚至可能高达 384 位），具有针对较低产品层的缩减选项，以及连接四个甚至更多 GPU Chiplet的能力。
这听起来可能更复杂，而不是更简单，但会有一些很大的优势。首先，I/O Chiplet可能是领先优势之后的一个节点，这将降低成本，而 AMD 已经非常熟悉 N7 和 N6 产品的设计。较小的 I/O Chiplet最终可能具有大约 150 平方毫米的裸片尺寸（给或取），仍然比 Navi 23 小，然后它可以根据需要连接一个或两个 GPU Chiplet。更大的 I/O 芯片可能约为 225 平方毫米，并且可以使用三个或四个相同的 GPU Chiplet。
在任何一种情况下，总的组合芯片面积不会比单片设计差多少，但良率要高得多。AMD 将把其 5nm 生产集中在一个单一的设计上，即 GPU Chiplet，并使用较便宜的 N6 或 N7 晶圆作为 I/O Chiplet。唯一的诀窍就是让它们一起正常工作，并通过更多的 GPU Chiplet来扩展性能。
其他 RDNA 3 架构细节
图片
除了Chiplet架构之外，我们还从与 Naffziger 的对话中收集了有关 RDNA 3 的其他一些细节。我们询问 AMD 是否会在架构中包含某种形式的张量核心或矩阵核心，类似于 Nvidia 和英特尔在其 GPU 上所做的事情。他回应说，RDNA 和 CDNA 之间的分离意味着将一堆专用矩阵内核塞入消费图形产品对于目标市场来说确实不是必需的，而且以前 RDNA 架构中已经存在的 FP16 支持应该足以满足推理类型的工作负载。我们将看看这是否被证明是正确的，但 AMD 似乎满足于将机器学习留给其 CDNA 芯片。
我们遇到的另一个问题是关于 Infinity Cache 的大小。RDNA 2 的缓存大小从 Navi 21 上的 128MB 到 Navi 24 上的低至 16MB 不等，即使使用较小的缓存大小，由此带来的性能提升仍然令人印象深刻。对于标准 GPU Chiplet，AMD 最终可能会放弃 16MB 缓存并使用 32MB 增量，或者它可能会使用更大的缓存大小——或者在 I/O Chiplet和 GPU Chiplet中都有缓存。无论采用何种方法，Naffziger 都暗示 AMD 已经学会了优化缓存使用的更好方法的设计决策，包括排除某些不会从缓存中受益的东西（Naffziger 提到显示界面、多媒体处理和音频处理是也许不要
最终，在像 RDNA 3 这样的架构中需要平衡很多因素。迁移到Chiplet在规模经济方面具有优势，并且允许 AMD 比其他方式更快地迁移到更密集的节点，但也有缺点对四处移动的数据有更高的功率要求。在 Infinity Fabric 上移动数据并不是免费的，并且在所有其他因素相同的情况下，与单片设计相比，基于Chiplet的架构在数据遍历期间会损失一些效率。因此，必须注意确保平衡设计。AMD 一直处于Chiplet设计的最前沿，Ryzen CPU 在过去三年中一直在使用它们，而 EPYC 和 Threadripper 从 2017 年开始使用Chiplet。每一代都带来了性能和效率的提升，
我们还要明确一点，虽然我们已经对 AMD 可能对 RDNA 3 做些什么做出了一些有根据的猜测，但 Naffziger 对分享具体细节肯定有点谨慎。我们曾一度询问这些Chiplet是否类似于 Aldebaran（两个大型芯片，具有连接它们的快速接口），或者更像具有 I/O Chiplet和多个计算Chiplet的 Ryzen CPU。我们能从他那里得到的最好的结论是，后一种方法是“合理的推断”，并且 AMD 将以“一种非常特定于图形的方式”来开发其基于Chiplet的 GPU 架构。
无论最终实施的具体细节如何，我们都期待在今年晚些时候看到 RDNA 3 投入使用。谣言工厂仍然充满想法和可能性，包括每个计算单元的 FP32 管道数量可能翻倍。我们还想看看 AMD 是否仍然可以从最大 256 位内存接口中获得所需的带宽，以及下一代 Infinity Cache 的表现如何。
但最重要的是，我们希望看到代际表现的又一次大飞跃。AMD 专注于电源效率的方法，然后允许它在电压/频率曲线的较高端提取更多性能，这是一个合理的设计原则。当然，每种类型的基本设计理念都有其优点和缺点，我们知道 Nvidia 也没有坐以待毙——当 RDNA 3 和 40 系列面对时，你可以期待性能和效率两个王冠的激烈争夺关闭，大概是今年晚些时候。

参与讨论

登录后参与讨论

//评论区

推荐阅读

关于印发《四川省推进电动汽车充电基础设施建设工作实施方案》的通知

四川省发改委印发关于《四川省推进电动汽车充电基础设施建设工作方案》的通知，明确到2025年，全省建成充电设施20万个，基本实现电动汽车充电站“县县全覆盖”、电动汽车充电桩“乡乡全覆盖”。以成都为代表的充电基础设施示范地区，公（专）用充电设施与电动汽车比例不低于1：6，居住社区充电设施与私人电动汽车比例不低于1：5，城市he心区公共充电设施服务半径不大于1公里。以德阳、绵阳、南充、宜宾、眉山

0215jiejie | 发布于：2022-11-28 0评论 0赞

长鑫存储技术有限公司董事长兼首席执行官朱一明：集成电路产业全球化发展“润物细无声”

由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。长鑫存储技术有限公司董事长兼首席执行官朱一明在主旨演讲中表示，在“润物细无声”的全球化发展驱动下，集成电路实现了持续发展。朱一明在演讲中首先回顾了集成电路产业链的全球化发展历程。20世纪60年代，集成电路得以发明，集成电路产业总体销售规模较小，数额尚不及5亿美元。经过数十年来的发展，现阶段，参与

0215jiejie | 发布于：2022-11-21 0评论 0赞

Flex Power Modules推出8:1非隔离式总线转换器

FlexPowerModules现已推出BMR320，这是一款非隔离、非稳压的DC-DC中间总线转换器，具有固定8:1输入/输出电压比，外形紧凑。该产品在40-60VDC输入电压范围下运行，产生5至7.5VDC输出电压，非常适宜在较低中间总线电压下为负载点转换器供电，以优化系统效率。在输入电压为54V时，BMR320额定为400W/60A，可以在27x18x6.4mm的小尺寸下出

0215jiejie | 发布于：2022-11-17 0评论 0赞

三大处理器巨头迎战“内存墙”

在最近推出的96核EpycGenoaCPU的发布会期间，AMD谈到了现代计算面临的最大挑战之一。在过去的几年里，处理器变得更强大的速度已经超过了为这些内核提供数据的内存子系统的速度。 “任何使用非常大内存占用的东西都需要大量带宽来驱动内核，”Gartner分析师蒂姆哈维告诉TheRegister。“如果你随机访问这些数据，那么你会丢失很多缓存，因此能够非常快速地提取数据将非常有用。” 这绝不是

0215jiejie | 发布于：2022-11-15 0评论 0赞

苹果CEO库克：招聘将会很谨慎制造产品需要员工回归

据报道，经济前景不确定，硅谷出现裁员潮。苹果CEO蒂姆?库克（TimCook）透露道，苹果已经放缓了招聘节奏。库克在苹果总部接受采访时表示：“在这个非常时间，我们对招聘变得更加谨慎。我们会继续招人，但并不是公司的每个地方都会招。” 美国经济正在趋向疲软，Lyft、亚马逊等美国科技企业要么开始裁员，要么冻结招聘。Meta上周也说要裁员11000人，这是Meta历史上规模zui大的裁员。库克

0215jiejie | 发布于：2022-11-15 0评论 0赞

长扬科技汪义舟：以高质量服务工业现场，保障国家关键信息基础设施安全

世界互联网大会会员代表座谈会在浙江乌镇举行。中国联通董事长刘烈宏作为参会企业代表之一，与来自特斯拉、高通、诺基亚、卡巴斯基、京东、搜狐、网易、360、快手、大唐西市等10家企业的负责人，围绕全球互联网发展机遇与挑战、世界互联网大会未来发展等议题深度交流。座谈会上，刘烈宏表示，“5G+工业互联网”作为实现工业化与数字化、网络化、智能化“融合”的粘合剂和催化剂，为加速中国新型工业化进程提供了新的工

0215jiejie | 发布于：2022-11-15 0评论 0赞

京东方入主华灿光电，唱响MLED“二重协奏曲”

在新型显示产业，两家企业强强联合，会擦出怎样的新火花？ 11月6日，全球半导体显示龙头企业京东方发布公告称，拟以不超过21亿元的自筹资金认购华灿光电股份有限公司（以下简称“华灿光电”）向特定对象发行的A股股票，认购完成后将以23.08%持股比例成为该公司第一大股东。消息一出，迅速引发了行业的广泛关注。那么，作为产业链主导企业的京东方，为何选择控股上游芯片企业？又为何要加速布局MLED产业生态

0215jiejie | 发布于：2022-11-09 0评论 0赞

SEMI：预计今年全球硅晶圆出货量同比增长4.8%

国际半导体产业协会SEMI今天（7日）在其半导体行业年度硅出货量预测报告中指出，今年全球硅晶圆出货量将同比增长4.8%，达到近14700百万平方英寸的历史新高。 SEMI预计，明年硅出货量增速将放缓。但未来几年，随着数据中心、汽车和工业应用对半导体需求强劲，硅晶圆出货量增速将反弹。

0215jiejie | 发布于：2022-11-08 0评论 0赞

宁德时代限制理想汽车使用第二供应商？理想汽车、宁德时代双方回应：纯属谣言

近日，有消息称，宁德时代为保持自己行业龙头老大的位置，对合作车企作出种种限制条款，其中，与理想合作时，宁德时代限制其选择其他电池供应商。若选择其他企业作为第二供应商，宁德时代就停止对其供货。针对此传言，《证券日报》记者独家向宁德时代和理想汽车求证。作为当事方，宁德时代回应称，该消息不属实。理想方面则表示，理想汽车和宁德时代合作不断深化，将有好消息与大家分享，所谓“限制第二供应商”的“霸王条款”

0215jiejie | 发布于：2022-11-07 0评论 0赞

“细品”：从全球十个运营商五年数据，看5G对ARPU影响

近日，市场研究公司Omdia的最新报告称，从2022年到2027年，移动服务和固定宽带服务的收入将增长14%，但ARPU值将下降4.2%。此报告在业内引发5G是否陷入增长困境的讨论。商用5G后，运营商ARPU值呈现怎样的变动?原因有哪些?在全球5G发展不平衡的情况下，5G的价值在哪? ARPU值变动：三类情况截至2022年10月，全球已有230多家运营商推出了5G商用服务，共部署了300

0215jiejie | 发布于：2022-11-07 0评论 0赞

holle

外面的声音太嘈杂，听自己的心就好

关注