GPU,正式迈入Chiplet时代

发布于:2022/6/24 10:33:56 | 2023 次阅读

    最近,外媒tomshardware与 AMD 高级副总裁、企业研究员兼产品技术架构师 Sam Naffziger 就过去几年 Radeon 显卡的发展情况以及对未来的预测进行了交谈。AMD 最近提供了有关其即将推出的RDNA 3 GPU 架构的一些诱人细节,该架构计划在今年年底前推出,采用基于Chiplet的设计,并为我们的采访和问答环节提供了背景。我们已经进行了讨论并将其提炼为关键点,因此我们不会以采访的形式呈现。
    Naffziger 已经在 AMD 工作了 16 年,负责多个产品领域,专注于推动更高的每瓦性能以及提高 AMD CPU 和 GPU 的整体竞争力。他也是 AMD Chiplet架构背后的主要人物之一,该架构已在 Ryzen 和 EPYC CPU 系列中证明非常成功,现在将以某种形式出现在 AMD RDNA 3 显卡中。
    Naffziger 在本次采访中概述了公司面临的挑战,以及他认为创新技术(如基于Chiplet的 GPU 架构)如何提高性能和能效。
    撞上电源墙
    在现代微处理器设计的核心,功耗和效率正变得越来越成问题,没有一家公司能逃避这个副作用带来的影响。所有的迹象也都表明,下一代 GPU 的功耗会增加:PCIe 5.0 电源接口和即将推出的支持它的电源可以通过单个 16 针连接器提供高达 600W 的功率,预示着更广泛的行业需求将转向更高功率的 GPU。
    众所周知,Nvidia 的 Ada 架构将推动比我们过去看到的更高的功率限制——目前的传言表明,我们可能会看到 450W TBP(典型的板卡功率),甚至可能会看到顶级 RTX 40 系列的 600W TBP GPU。目前还没有关于 AMD RDNA 3 的 TBP 的消息,但公平地说,我认为他们可以遵循同样的趋势。
    因此,虽然我们的谈话集中在 AMD 提高效率的方法上,但总体功耗问题仍然存在。Naffziger也 证实我们可以预期下一代 GPU 的总功耗会增加,但解释了关注效率如何可以最大限度地提高性能。
    Naffziger 解释说:“这确实是物理学的基本原理推动了这一点。” “如果有的话,对游戏和计算性能的需求正在加速,与此同时,底层工艺技术以及改进速度正在显著放缓 。所以功率水平只会继续上升。现在,我们有一个多年的路线图,利用非常显著的效率改进来抵消这条曲线,但趋势就在那里。”
    AMD 声称 RDNA 和 RDNA 2 的每瓦性能提高了 50%,并且它的目标是使用 RDNA 3 将每瓦性能再提高 50%。这可能意味着很多不同的事情:在相同功率下性能提高 50% , 相同的性能,同时减少 33% 的功耗,或者沿着性能和功率曲线的其他位置。另请注意,与 Nvidia 和 Intel 一样,AMD 只需要有一个特定的场景,它可以说每瓦特的性能提高了 50% 即可获得此类收益。
    Naffziger 解释了 AMD 在其先前的 RDNA 2 架构中看到的一些改进。例如,如果它可以在 2.5 GHz 和 1.0V 而不是 1.2V 下运行,则后者需要多 40% 的功率。Naffziger 表示,通过利用其 CPU 设计团队的专业知识,AMD 能够通过 RDNA 3 驱动更高的时钟频率,同时保持高效。AMD 长期以来一直在讨论其“cross-pollinating”CPU 和 GPU 设计团队的战略,将双方最好的技术带到每个新的 CPU 和 GPU 设计中。Naffziger 表示,当前的 GPU 内核“本质上更节能”,但仍需要做出商业决策。
    “性能为王,”Naffziger 说,“但即使我们的设计更节能,这并不意味着如果竞争对手做同样的事情,你就不会提高功率水平。只是他们会有把他们推得比我们要高得多。”
    换句话说,如果与 Nvidia 类似的 AMD 最终增加其顶级 RDNA 3 显卡的 TBP,请不要感到惊讶。
    功率效率和每瓦性能
    摩尔定律的改进速度放缓的根本挑战必须通过巧妙的工程和对功率效率的关注来抵消,而 AMD 在这一领域已经证明了自己。
    目前,AMD 的 Zen 3 CPU 在效率和每瓦性能方面通常领先于英特尔,不过我们必须看看Zen 4和Ryzen 7000的变化。此外,AMD 的 RDNA 2 GPU 在效率上也倾向于击败竞争对手 Nvidia 的 GPU,具体取决于您比较的具体型号。这一点至关重要,因为近年来我们已经看到更高功率的 CPU 和 GPU 迅速升级,从而驱动更多热量和昂贵的冷却解决方案。
    具体来看 AMD 过去两代的图形部件,与上一代 Vega 和 Polaris 架构相比,RDNA 在 2019 年的每瓦性能明显提高了 50% 或更多。例如,我们自己的GPU 基准测试结果表明,RX 5700 XT 在我们的 1080p 测试套件中平均帧率为 74 fps,同时消耗 214W,而 RX Vega 64 的 57 fps 消耗 298W ,这实际上是将这两个部分的每瓦性能提高了 80%。
    与 RDNA 相比,2020 年的 RDNA 2 能够再次提供高达 50% 的每瓦性能。需要强调一下的是,这里说的是最多。例如,RX 6600 在 1080p 超分辨率下平均 67 fps,消耗 137W,比 RX 5700 XT 效率高 41%。同时,RX 6700 XT 在使用 215W 时提供 96 fps,仅提升 30% 的纯效率,而 RX 6800 XT 达到 124 fps 并使用 303W,仅提升 18% 的效率。然而,RX 5500 XT 8GB 的平均速度为 40 fps,功率为 126W,因此 RX 6600 至少在某些情况下效率提高了 54%——而且使用了类似的 128 位内存接口。
    更令人印象深刻的是,这些收益都是在工艺节点没有变化的情况下实现的,因为 RDNA 和 RDNA 2 都使用了台积电的 7nm N7 技术(尽管一些较新的 GPU,如 Navi 24 现在使用 N6)。
    AMD 在其财务分析师日宣布,它再次承诺通过利用一组新功能,通过 RDNA 3 将每瓦性能提高 50%。我们知道Chiplet尤其将成为其中的重要组成部分。Naffziger 还暗示将进一步优化 Infinity Cache 设计,以提高其有效带宽和命中率。不过,确切的细节仍在保密中。
    在 CPU 方面,随着 Zen 2 和后来的 Zen 3,AMD 将内存控制器和 PCIe 通道放在称为 I/O 芯片的中央Chiplet上,以及用于与封装内的其他Chiplet通信的高带宽接口——称为 Infinity Fabric。到目前为止,这些其他Chiplet包括 CPU 内核及其关联的缓存,以及Chiplet的共享 L3 缓存。
    对于消费类 CPU,AMD 发布了带有一个或两个 CPU Chiplet的处理器,每个Chiplet最多可以启用八个 CPU 内核。然而,AMD 不仅仅创建了一个 I/O Chiplet,它还希望扩展到多达 8 个 CPU Chiplet。消费类 I/O 芯片只有两个 CPU Chiplet的 Infinity Fabric 链接,EPYC 和 Threadripper 变体可以链接多达八个 CPU Chiplet,提供多达 64 核 CPU,如 Threadripper Pro 5995WX 和 EPYC 7763。
    因此在图形解决方案中,您可以说 AMD 自 Fiji 架构和 R9 Fury X 以来一直在玩Chiplet封装技术。但这是第一款使用 HBM(高带宽内存)的产品,其硅中介层有助于将主GPU 核心和 HBM 堆栈。
    我们想澄清 GPU 的“Chiplet方法”的定义,以确保 AMD 不再谈论 HBM。Naffziger 证实确实会有单独的Chiplet(不是内存芯片),尽管他没有具体确定 AMD 将如何进行拆分。
    Naffziger 并没有对下一代 RDNA 3 架构进行更多的披露,但我们最好的猜测是 AMD 的 GPU Chiplet设计最终可能看起来至少有点像当前的 CPU 设计,它将拥有容纳计算的 GPU Chiplet单元 (CU)、着色器核心和一些 Infinity Cache。然后将至少有两种 I/O Chiplet设计,一种可以通过更宽的内存接口扩展到更高的Chiplet数量,另一种可能只支持最多两个具有更窄接口的 GPU Chiplet。AMD 将通过更新的 Infinity Fabric 链接Chiplet,并且它可能会在 I/O Chiplet上拥有适度的缓存块,以帮助优化内存访问。
    用于 CPU 的Chiplet方法的伟大之处在于它实现了出色的规模经济。例如,Zen 3 的基本 CPU 计算Chiplet包含八个 CPU 内核和一个统一的 32MB 三级缓存,它的大小仍然只有 84 平方毫米——不到英特尔 i9-12900K 中使用的约 215 平方毫米 Alder Lake 芯片大小的一半,几乎是估计为 163 平方毫米的较小的六个 P 核 Alder Lake-S 大小的一半。然后,AMD 可以在其顶级解决方案中放置多达 8 个这样的Chiplet,考虑到芯片尺寸,良率还非常好。它还允许 AMD 在最重要的地方使用最新的工艺节点;例如,在 Zen 3 中,CPU Chiplet使用台积电的 7nm 节点,而 I/O Chiplet仍然使用 GlobalFoundries 便宜得多的 12nm 工艺。
    对于 GPU,如果 AMD 抽出所有显示接口功能、视频编解码器、内存接口和其他通用硬件,只专注于计算单元,不难想象 AMD 会创建一个具有 40 CU 芯片的构建块2560(可能是 5120)着色器内核和 32–64MB 的 L3 缓存,以及 Infinity Fabric 接口。基本上,取 Navi 22 (RX 6700 XT),这是一个 335 毫米见方的芯片,然后拉出大约一半的大小,然后将其放入 I/O Chiplet中。然后通过台积电的 5nm N5P 节点缩小剩余的 CU,AMD 可以拥有一个小于 100 平方毫米的Chiplet。同样,良率也会很高,对于消费领域,AMD 可能拥有多达四个这样的Chiplet的解决方案。
    I/O Chiplet将是一个完全不同的野兽。它将容纳外部存储器接口,因此,它实际上可以通过不在领先节点上而受益,这意味着 AMD 可以在 N7 或 N6 上而不是 N5 上制造它。I/O 接口往往不能很好地扩展到更小的节点,而外部接口通常需要更高的电压,这会给更新节点带来设计挑战。AMD 不必在基于稍旧工艺的 I/O 芯片上处理那么多问题,而且它已经拥有来自各种 RDNA 2 设计的现有 GDDR6 接口,这些接口经过测试并在台积电的 7nm 工艺上工作。
    I/O Chiplet的主要症结在于扩展到不同的目标市场。具有 8 个Chiplet的服务器的最大配置似乎是合理的,但 AMD 已将其消费者和数据中心设计分别分为 RDNA 和 CDNA。我们已经知道CDNA 3 和即将推出的 Instinct MI300 APU 的一些内容,它们也将与 Zen 4 CPU 一起用于El Capitan 超级计算机。RDNA 3 将完全不同,就像 RDNA 2 和 CDNA 2 一样。简而言之,我们预计 AMD 不会像计划 RDNA 3 那样为 CDNA 3 使用相同的Chiplet,因此可能不需要扩展到八个 GPU Chiplet。
    相反,AMD 可以创建两个 I/O Chiplet,一个用于预算和中端行业,另一个用于高端和超高性能显卡。同时,所有 GPU Chiplet都将采用相同的核心设计。这仍然是当前 RDNA 2 阵容的简化,AMD 已经拥有四个独立的芯片(Navi 21、22、23 和 24),更不用说所有集成的 RDNA 2 解决方案,如 Rembrandt 和 Van Gogh(Steam Deck 处理器) .
    AMD 可以在较小的 I/O Chiplet上放置一个 128 位内存接口,为低层产品提供 64 位或 96 位变体,并能够链接到两个 GPU 计算Chiplet。更大的高端解决方案可能具有 256 位内存接口(甚至可能高达 384 位),具有针对较低产品层的缩减选项,以及连接四个甚至更多 GPU Chiplet的能力。
    这听起来可能更复杂,而不是更简单,但会有一些很大的优势。首先,I/O Chiplet可能是领先优势之后的一个节点,这将降低成本,而 AMD 已经非常熟悉 N7 和 N6 产品的设计。较小的 I/O Chiplet最终可能具有大约 150 平方毫米的裸片尺寸(给或取),仍然比 Navi 23 小,然后它可以根据需要连接一个或两个 GPU Chiplet。更大的 I/O 芯片可能约为 225 平方毫米,并且可以使用三个或四个相同的 GPU Chiplet。
    在任何一种情况下,总的组合芯片面积不会比单片设计差多少,但良率要高得多。AMD 将把其 5nm 生产集中在一个单一的设计上,即 GPU Chiplet,并使用较便宜的 N6 或 N7 晶圆作为 I/O Chiplet。唯一的诀窍就是让它们一起正常工作,并通过更多的 GPU Chiplet来扩展性能。
    其他 RDNA 3 架构细节
    图片
    除了Chiplet架构之外,我们还从与 Naffziger 的对话中收集了有关 RDNA 3 的其他一些细节。我们询问 AMD 是否会在架构中包含某种形式的张量核心或矩阵核心,类似于 Nvidia 和英特尔在其 GPU 上所做的事情。他回应说,RDNA 和 CDNA 之间的分离意味着将一堆专用矩阵内核塞入消费图形产品对于目标市场来说确实不是必需的,而且以前 RDNA 架构中已经存在的 FP16 支持应该足以满足推理类型的工作负载。我们将看看这是否被证明是正确的,但 AMD 似乎满足于将机器学习留给其 CDNA 芯片。
    我们遇到的另一个问题是关于 Infinity Cache 的大小。RDNA 2 的缓存大小从 Navi 21 上的 128MB 到 Navi 24 上的低至 16MB 不等,即使使用较小的缓存大小,由此带来的性能提升仍然令人印象深刻。对于标准 GPU Chiplet,AMD 最终可能会放弃 16MB 缓存并使用 32MB 增量,或者它可能会使用更大的缓存大小——或者在 I/O Chiplet和 GPU Chiplet中都有缓存。无论采用何种方法,Naffziger 都暗示 AMD 已经学会了优化缓存使用的更好方法的设计决策,包括排除某些不会从缓存中受益的东西(Naffziger 提到显示界面、多媒体处理和音频处理是也许不要
    最终,在像 RDNA 3 这样的架构中需要平衡很多因素。迁移到Chiplet在规模经济方面具有优势,并且允许 AMD 比其他方式更快地迁移到更密集的节点,但也有缺点对四处移动的数据有更高的功率要求。在 Infinity Fabric 上移动数据并不是免费的,并且在所有其他因素相同的情况下,与单片设计相比,基于Chiplet的架构在数据遍历期间会损失一些效率。因此,必须注意确保平衡设计。AMD 一直处于Chiplet设计的最前沿,Ryzen CPU 在过去三年中一直在使用它们,而 EPYC 和 Threadripper 从 2017 年开始使用Chiplet。每一代都带来了性能和效率的提升,
    我们还要明确一点,虽然我们已经对 AMD 可能对 RDNA 3 做些什么做出了一些有根据的猜测,但 Naffziger 对分享具体细节肯定有点谨慎。我们曾一度询问这些Chiplet是否类似于 Aldebaran(两个大型芯片,具有连接它们的快速接口),或者更像具有 I/O Chiplet和多个计算Chiplet的 Ryzen CPU。我们能从他那里得到的最好的结论是,后一种方法是“合理的推断”,并且 AMD 将以“一种非常特定于图形的方式”来开发其基于Chiplet的 GPU 架构。
    无论最终实施的具体细节如何,我们都期待在今年晚些时候看到 RDNA 3 投入使用。谣言工厂仍然充满想法和可能性,包括每个计算单元的 FP32 管道数量可能翻倍。我们还想看看 AMD 是否仍然可以从最大 256 位内存接口中获得所需的带宽,以及下一代 Infinity Cache 的表现如何。
    但最重要的是,我们希望看到代际表现的又一次大飞跃。AMD 专注于电源效率的方法,然后允许它在电压/频率曲线的较高端提取更多性能,这是一个合理的设计原则。当然,每种类型的基本设计理念都有其优点和缺点,我们知道 Nvidia 也没有坐以待毙——当 RDNA 3 和 40 系列面对时,你可以期待性能和效率两个王冠的激烈争夺关闭,大概是今年晚些时候。
参与讨论
后参与讨论

//评论区

推荐阅读

深圳目标2500亿,第三代半导体或成重要助力

集成电路被称为电子产品的“心脏”,尽管只有指甲盖大小,但里面却可以集成上百亿个晶体管。 作为中国IC产业重镇之一,经过多年的攻坚克难,深圳IC产业已经形成了设计、制造、封测、设备和材料为重点的特色产业群。 例如,在设计领域,深圳汇集了海思半导体、中兴微电子、汇顶科技、比亚迪半导体、国微电子、华大北斗等一批知名企业;在制造业领域更是吸引了在全球排名第五的的晶圆代工厂商中芯国际的建厂投资。此外,华

holle | 发布于:3天前 0评论 0赞

马斯克证实特斯拉Cybertruck设计已完成 计划明年年中投产

据国外媒体报道,在最近的一次采访中,特斯拉首席执行官(CEO)埃隆·马斯克证实,特斯拉已经完成了Cybertruck电动皮卡的设计,并计划于2023年年中生产这款车。 据悉,特斯拉是在2019年11月份在美国发布其Cybertruck电动皮卡的。自发布以来,这款车进行了多次修改。 如今,马斯克证实,这款皮卡的设计已敲定。他表示,特斯拉过于沉迷于功能,导致车辆设计的最终敲定和生产被延迟。 不过

holle | 发布于:3天前 0评论 0赞

灰飞烟灭!美国电子烟巨头遭遇灭顶之灾

最近,外媒tomshardware与AMD高级副总裁、企业研究员兼产品技术架构师SamNaffziger就过去几年Radeon显卡的发展情况以及对未来的预测进行了交谈。AMD最近提供了有关其即将推出的RDNA3GPU架构的一些诱人细节,该架构计划在今年年底前推出,采用基于Chiplet的设计,并为我们的采访和问答环节提供了背景。我们已经进行了讨论并将其提炼为关键点,因此我们不会以采访的形式呈现。

holle | 发布于:6天前 0评论 0赞

GPU,正式迈入Chiplet时代

最近,外媒tomshardware与AMD高级副总裁、企业研究员兼产品技术架构师SamNaffziger就过去几年Radeon显卡的发展情况以及对未来的预测进行了交谈。AMD最近提供了有关其即将推出的RDNA3GPU架构的一些诱人细节,该架构计划在今年年底前推出,采用基于Chiplet的设计,并为我们的采访和问答环节提供了背景。我们已经进行了讨论并将其提炼为关键点,因此我们不会以采访的形式呈现。

holle | 发布于:6天前 0评论 0赞

面向未来的新一代互连解决方案——USB Type-C连接器

USBType-C接口是一种USB接口外形标准。自2013年推出以来迅速应用于各类高端消费电子中,并逐步发展至工业设备。 TXGA的工业级Type-C连接器支持USB3.1传输协议。拥有更纤薄的设计、更快的数据传输速度以及更强悍的电流输出能力。产品性能卓越,坚固耐用,是面向未来的新一代电子设备互连解决方案。 性能参数 每触点最大电流5.00A 电压-最大30V 接触电阻40

holle | 发布于:2022-06-20 0评论 0赞

前5个月江苏省集成电路出口1083.9亿元,同比增长23.7%

南京海关统计,2022年前5个月江苏省外贸进出口总值2.13万亿元,同比(下同)增长8.5%,较全国整体增速高0.2个百分点,占全国进出口总值的13.3%。其中,出口1.32万亿元,增长9%;进口8070.3亿元,增长7.6%。 据悉,机电产品和劳动密集型产品出口占比超八成,集成电路、太阳能电池、手机等产品出口增势强劲。前5个月,江苏省机电产品出口8677.6亿元,增长7.3%,占同期江苏省出口

holle | 发布于:2022-06-17 0评论 0赞

工信部:将尽快研究明确新能源汽车车辆购置税优惠延续政策

今日中共中央宣传部举行了党的十八大以来工业和信息化发展成就发布会。 据中国网报道,会上,工业和信息化部副部长辛国斌表示,下一步,我们将尽快研究予以解决,比如要尽快研究明确新能源汽车车辆购置税优惠延续政策,这个政策是到今年年底结束,现在正在会同有关部门研究是否延续这个政策。同时,我们还将优化“双积分”管理办法,加大新体系电池、车用操作系统等的攻关突破,启动公共领域车辆全面电动化城市试点。还要

holle | 发布于:2022-06-15 0评论 0赞

我国迎来从“制造大国”“网络大国”向“制造强国”“网络强国”的历史性跨越

6月14日,中共中央宣传部举行“中国这十年”系列主题新闻发布会,工业和信息化部副部长辛国斌、徐晓兰,工业和信息化部总工程师韩夏介绍党的十八大以来工业和信息化发展成就。辛国斌表示,我国迎来从“制造大国”“网络大国”向“制造强国”“网络强国”的历史性跨越,为全面建成小康社会,开启全面建设社会主义现代化国家新征程奠定了坚实基础。 辛国斌指出,党的十八大以来,以习近平同志为核心的党中央高度重视实体经济特

holle | 发布于:2022-06-15 0评论 0赞

大众电动 SUV 将于明年登陆印度市场,但投放数量有限

当地时间周四大众汽车表示,计划明年在印度开始销售ID.4电动SUV,但数量有限。 目前印度正在推动清洁能源汽车行业的发展。大众汽车印度乘用车部门品牌总监古普塔(AshishGupta)周四接受采访时说,大众将在今年9月份左右开始测试ID.4的技术性能,确定是否需要根据当地的天气条件和环境状况进行调整。他说,一旦测试结束,公司将于明年在印度市场投放数量有限的电动汽车。 古普塔说,由于印度政府只允

holle | 发布于:2022-06-13 0评论 0赞

硅片厂,二季度将至少涨价4%

硅晶圆供不应求,台胜科、环球晶产能满载,经营层释出正向展望。 台胜科日前召开法说会,公司经营层指出,目前8、12吋硅晶圆需求强劲,其中,12吋供需缺口持续扩大,将无法供应给长约(LTA)以外的客户。 针对未来展望,受惠5G、车用、PMIC等需求强劲,目前逻辑、记忆体客户硅晶圆库存持续下降,经营层预估,2022年12吋全球供需缺口将达3%,而2023年缺口进一步扩大至10%以上。 台胜科先前宣

holle | 发布于:2022-06-09 0评论 0赞