三大处理器巨头迎战“内存墙”

发布于:2022/11/15 10:22:56 | 22720 次阅读

    在最近推出的96 核 Epyc Genoa CPU 的发布会期间,AMD 谈到了现代计算面临的最大挑战之一。在过去的几年里,处理器变得更强大的速度已经超过了为这些内核提供数据的内存子系统的速度。
    “任何使用非常大内存占用的东西都需要大量带宽来驱动内核,”Gartner分析师蒂姆哈维告诉The Register。“如果你随机访问这些数据,那么你会丢失很多缓存,因此能够非常快速地提取数据将非常有用。”
    这绝不是一个新现象,尤其是在高性能计算 (HPC) 工作负载中。The Next Platform一段时间以来一直在跟踪计算能力与内存带宽的增长比例。
    但是,虽然转向 DDR5 4,800MTps DIMM 将使带宽比最快的 DDR4 提高 50%,但这本身并不足以满足AMD 的 96 核 Epycs。AMD 工程师不得不通过增加内存控制器的数量来弥补差异,从而将通道增加到 12 个。结合更快的 DDR5,Genoa 提供的内存带宽是 Milan 的两倍多。
    该方法并非没有妥协。其一,添加更多通道需要为内存控制器分配更多芯片空间。还必须考虑一些信号注意事项,以支持连接到这些通道的更多 DIMM。然后是将所有这些 DIMM 物理安装到传统机箱中的挑战,尤其是在双插槽配置中。
    正因如此,AMD 至少在接下来的几代产品中很可能会保持在 12 通道,转而依靠提高 DDR5 内存速度来提升带宽。
    美光预计内存速度在 DDR5 的生命周期内可达到 8,800MTps。在 12 通道系统中,内存带宽约为 840GBps。
    “DDR5 的性能会随着时间的推移而提高,但我们仍然会在可用内核和内存带宽之间存在巨大差异,并且很难满足它们的需求,”Harvey 说。
    傲腾继续存在
    虽然 AMD 解决该问题的方法包括将更多内存控制器物理地塞入其芯片中,并将更快的 DDR5 内存塞入系统中,但英特尔对Xeon Max CPU采取了不同的方法,它将为美国能源部长期延迟的 Aurora 超级计算机提供动力。
    这些芯片以前称为 Sapphire Rapids HBM,在 56 核第四代 Xeon 可扩展处理器中封装了 64GB 的 HBM2e 内存,能够提供 1TBps 的带宽。
    虽然技术上你可以完全脱离 HBM 运行芯片,但对于那些需要大量内存来处理大型自然语言模型的人来说,英特尔支持两种配置的分层内存,这让人联想到其最近被裁掉的Optane业务部门。
    在英特尔的 HBM 平面模式下,任何外部 DDR5 都充当可单独访问的内存池。同时在缓存模式下,HBM 更像是 DDR5 的 4 级缓存。
    尽管后者对于某些用例可能具有吸引力,因为它是透明的并且不需要任何软件更改,但 Harvey 认为,如果它的行为类似于英特尔的 Optane 持久内存,则 HBM 可能得不到充分利用。
    “大多数时候,CPU 擅长在指令级别进行缓存;它们不太擅长在应用程序级别进行缓存,”他补充说,在平面模式下运行芯片可能很有希望,尽管这需要软件供应商的特殊考虑。
    “如果你有一个大的 HBM 缓存有效地用于主内存,那么操作系统供应商,虚拟机管理程序供应商将比 CPU 更好地管理它,”他说。“CPU 看不到指令级别,而管理程序知道我将要在这个应用程序和那个应用程序之间切换,因此我可以将该应用程序预加载到 HBM 中。”
    合封装 LPDDR
    为了为其第一个数据中心 CPU 实现类似的高带宽,Nvidia 还将内存转移到了 CPU 上。但与 Intel 的 Xeon Max 不同,Nvidia 并不依赖昂贵的低容量 HBM 内存,而是使用 LPDDR5x 模块。
    每个Grace Superchip都融合了两个 Grace CPU 芯片——每个芯片都有 72 个 Arm Neoverse V2 内核——通过芯片制造商的 900GB/s NVLink-C2C 互连连接。这些芯片的两侧是成排的 LPDDR5 内存模块,可提供 TB 的带宽和容量。
    虽然很难确定,但我们最好的猜测是每个 Grace CPU die 都连接到八个 64GB LPDDR5x 内存模块,运行速度大约为 8,533MTps。这将为两个 CPU 芯片中的每一个计算出 546GBps 的带宽。
    苹果实际上采用了类似的方法,尽管使用速度较慢的 LPDDR5 6,400MTps 内存,以在今年早些时候在 Mac Studio 中推出的M1 Ultra 处理器上实现 800GBps 的内存带宽。然而,Apple 这样做的原因与每核内存带宽的关系不大,而与为芯片的集成 GPU 供电有关。
    对于 Nvidia 而言,与使用 HBM 之类的方法相比,该方法提供了一些明显的优势,最大的优势在于容量和成本。美光等供应商提供的 HBM2e 容量最高可达 16GB。这意味着您需要四倍于 LPDDR 的模块。
    但根据哈维的说法,即使是这种方法也不是没有妥协。将内存靠近 CPU 封装上意味着您放弃了灵活性。如果你需要超过 1TB 的系统内存,你不能只是添加更多的 DIMM 到组合中——至少不是 Nvidia 的实现方式。
    然而,对于英伟达这些芯片的目标市场来说,这可能仍然有意义,Harvey 解释说。“Nvidia 非常专注于具有特定需求的 AI/ML 工作负载,而英特尔则更专注于通用工作负载。”
    CXL 还不是答案
    AMD 的 Genoa 和英特尔的第 4 代 Xeon 可扩展处理器都增加了对 CXL 1.1 互连标准的支持。
    Astera Labs和三星等公司早期实施该技术将允许新颖的内存配置,包括内存扩展和内存分层。
    然而,目前,这些设备可用的带宽有限,这意味着它们在解决 CPU 和内存性能不匹配方面的作用有限。
    AMD 的实施具有专用于 CXL 设备的 64 条通道。但是,由于这些通道的分叉方式,CXL 设备一次只能访问其中的四个通道。由于 CXL 1.1 基于 PCIe 5.0,这意味着每个设备的带宽限制为 16GBps。
    “随着时间的推移,它可能会为内存带宽打开一些东西,但我认为最初的实现可能不够快,”Harvey 说。
    随着未来几代 PCIe 的出现,这种情况可能会改变。互连技术的带宽通常会在每一代之后加倍。因此,通过 PCIe Gen 7.0,单个 CXL 4x 设备将拥有接近 64GBps 的可用带宽。
    就目前而言,Harvey 认为 CXL 对于内存需求量大的应用程序最有价值,这些应用程序不一定对带宽或分层内存配置敏感。
参与讨论
后参与讨论

//评论区

推荐阅读

关于印发《四川省推进电动汽车充电基础设施建设工作实施方案》的通知

四川省发改委印发关于《四川省推进电动汽车充电基础设施建设工作方案》的通知,明确到2025年,全省建成充电设施20万个,基本实现电动汽车充电站“县县全覆盖”、电动汽车充电桩“乡乡全覆盖”。 以成都为代表的充电基础设施示范地区,公(专)用充电设施与电动汽车比例不低于1:6,居住社区充电设施与私人电动汽车比例不低于1:5,城市he心区公共充电设施服务半径不大于1公里。 以德阳、绵阳、南充、宜宾、眉山

0215jiejie | 发布于:2022-11-28 0评论 0赞

长鑫存储技术有限公司董事长兼首席执行官朱一明:集成电路产业全球化发展“润物细无声”

由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。长鑫存储技术有限公司董事长兼首席执行官朱一明在主旨演讲中表示,在“润物细无声”的全球化发展驱动下,集成电路实现了持续发展。 朱一明在演讲中首先回顾了集成电路产业链的全球化发展历程。20世纪60年代,集成电路得以发明,集成电路产业总体销售规模较小,数额尚不及5亿美元。经过数十年来的发展,现阶段,参与

0215jiejie | 发布于:2022-11-21 0评论 0赞

Flex Power Modules推出8:1非隔离式总线转换器

FlexPowerModules现已推出BMR320,这是一款非隔离、非稳压的DC-DC中间总线转换器,具有固定8:1输入/输出电压比,外形紧凑。 该产品在40-60VDC输入电压范围下运行,产生5至7.5VDC输出电压,非常适宜在较低中间总线电压下为负载点转换器供电,以优化系统效率。在输入电压为54V时,BMR320额定为400W/60A,可以在27x18x6.4mm的小尺寸下出

0215jiejie | 发布于:2022-11-17 0评论 0赞

三大处理器巨头迎战“内存墙”

在最近推出的96核EpycGenoaCPU的发布会期间,AMD谈到了现代计算面临的最大挑战之一。在过去的几年里,处理器变得更强大的速度已经超过了为这些内核提供数据的内存子系统的速度。 “任何使用非常大内存占用的东西都需要大量带宽来驱动内核,”Gartner分析师蒂姆哈维告诉TheRegister。“如果你随机访问这些数据,那么你会丢失很多缓存,因此能够非常快速地提取数据将非常有用。” 这绝不是

0215jiejie | 发布于:2022-11-15 0评论 0赞

苹果CEO库克:招聘将会很谨慎 制造产品需要员工回归

据报道,经济前景不确定,硅谷出现裁员潮。苹果CEO蒂姆?库克(TimCook)透露道,苹果已经放缓了招聘节奏。 库克在苹果总部接受采访时表示:“在这个非常时间,我们对招聘变得更加谨慎。我们会继续招人,但并不是公司的每个地方都会招。” 美国经济正在趋向疲软,Lyft、亚马逊等美国科技企业要么开始裁员,要么冻结招聘。Meta上周也说要裁员11000人,这是Meta历史上规模zui大的裁员。 库克

0215jiejie | 发布于:2022-11-15 0评论 0赞

长扬科技汪义舟:以高质量服务工业现场,保障国家关键信息基础设施安全

世界互联网大会会员代表座谈会在浙江乌镇举行。中国联通董事长刘烈宏作为参会企业代表之一,与来自特斯拉、高通、诺基亚、卡巴斯基、京东、搜狐、网易、360、快手、大唐西市等10家企业的负责人,围绕全球互联网发展机遇与挑战、世界互联网大会未来发展等议题深度交流。 座谈会上,刘烈宏表示,“5G+工业互联网”作为实现工业化与数字化、网络化、智能化“融合”的粘合剂和催化剂,为加速中国新型工业化进程提供了新的工

0215jiejie | 发布于:2022-11-15 0评论 0赞

京东方入主华灿光电,唱响MLED“二重协奏曲”

在新型显示产业,两家企业强强联合,会擦出怎样的新火花? 11月6日,全球半导体显示龙头企业京东方发布公告称,拟以不超过21亿元的自筹资金认购华灿光电股份有限公司(以下简称“华灿光电”)向特定对象发行的A股股票,认购完成后将以23.08%持股比例成为该公司第一大股东。 消息一出,迅速引发了行业的广泛关注。那么,作为产业链主导企业的京东方,为何选择控股上游芯片企业?又为何要加速布局MLED产业生态

0215jiejie | 发布于:2022-11-09 0评论 0赞

SEMI:预计今年全球硅晶圆出货量同比增长4.8%

国际半导体产业协会SEMI今天(7日)在其半导体行业年度硅出货量预测报告中指出,今年全球硅晶圆出货量将同比增长4.8%,达到近14700百万平方英寸的历史新高。 SEMI预计,明年硅出货量增速将放缓。但未来几年,随着数据中心、汽车和工业应用对半导体需求强劲,硅晶圆出货量增速将反弹。

0215jiejie | 发布于:2022-11-08 0评论 0赞

宁德时代限制理想汽车使用第二供应商? 理想汽车、宁德时代双方回应:纯属谣言

近日,有消息称,宁德时代为保持自己行业龙头老大的位置,对合作车企作出种种限制条款,其中,与理想合作时,宁德时代限制其选择其他电池供应商。若选择其他企业作为第二供应商,宁德时代就停止对其供货。 针对此传言,《证券日报》记者独家向宁德时代和理想汽车求证。作为当事方,宁德时代回应称,该消息不属实。理想方面则表示,理想汽车和宁德时代合作不断深化,将有好消息与大家分享,所谓“限制第二供应商”的“霸王条款”

0215jiejie | 发布于:2022-11-07 0评论 0赞

“细品”:从全球十个运营商五年数据,看5G对ARPU影响

近日,市场研究公司Omdia的最新报告称,从2022年到2027年,移动服务和固定宽带服务的收入将增长14%,但ARPU值将下降4.2%。此报告在业内引发5G是否陷入增长困境的讨论。 商用5G后,运营商ARPU值呈现怎样的变动?原因有哪些?在全球5G发展不平衡的情况下,5G的价值在哪? ARPU值变动:三类情况 截至2022年10月,全球已有230多家运营商推出了5G商用服务,共部署了300

0215jiejie | 发布于:2022-11-07 0评论 0赞