英特尔重申：将CPU和GPU整合到一个芯片里

发布于：2022/6/2 10:11:10 | 11362 次阅读

[转载]原文链接：https://mp.weixin.qq.com/s/xi6uc5HrzK9OjNahJ9a0RA

英特尔重申，随着未来几年转向更新的制造工艺和封装技术，它正在整合其高性能 CPU 和 GPU 的路线图。
据介绍，该公司正在将 CPU 和 GPU 阵容合并成一个芯片（代号为 Falcon Shores），英特尔将其称为 XPU。英特尔超级计算事业部副总裁兼总经理 Jeff McVeigh 在 ISC High 之前的新闻发布会上表示，Falcon Shores 是一项“更大的架构”变化，它将 x86 和 Xe 图形核心整合到一个封装中。
英特尔今年早些时候提出了 Falcon Shores 将于 2024 年晚些时候推出的路线图，并表示将显着提高带宽、每瓦性能、计算密度和内存容量。
Falcon Shores 架构将使用小芯片方法，在这种方法中，采用不同制造工艺制造的多个芯片和不同的处理器模块可以紧密地塞在一个芯片封装中。这使得英特尔可以在其可以放入其芯片的 CPU、GPU、I/O、内存类型、电源管理和其他电路类型上进行更高级别的定制。

Falcon Shores 提供了“在单个封装中将紧密耦合的tile彼此相邻的所有好处，”McVeigh 说，他同时还补充说，“该芯片将能够通过先进的封装、IO 功能、共享内存和跨这些组件的单一编程模型。”
然而，McVeigh 说，它还不能定制到客户可能想要的水平。
“这不像你设计自己的 XPU，我们会生产它。我们将设置它的版本。但它使我们能够根据市场需求的工作负载在设计过程的后期更灵活，如果有一些新技术，比如人工智能在过去五年中变得如此流行，随着新趋势的出现，我们可以更轻松地适应和将它们放在设计中，”McVeigh 说。
McVeigh 指出，Falcon Shores 将拥有一个更“类似 CPU”的编程模型，并具有共享内存环境。
“当您使用 PCI Express 上的独立GPU 时，您不必处理所有相关的卸载特性和延迟，”McVeigh 说。
图片
Falcon Shores 距离 CPU 和 GPU 芯片升级还有两个距离。今年下半年，该公司将出货代号为 Sapphire Rapids 和 Sapphire Rapids 的 Xeon 芯片与 HBM。今年晚些时候，该公司还将推出一款代号为 Ponte Vecchio 的超级计算 GPU，面向的是人工智能和高性能计算市场。
Ponte Vecchio 之后将是一个代号为 Rialto Bridge 的继任者，它将是可升级的。Rialto Bridge 将是一个增量架构升级，并将包含更多 Xe 图形内核。McVeigh 表示，英特尔的目标是针对某些工作负载将性能提升 30%。
图片
McVeigh 表示，Falcon Shores 将是公司“tick tock”芯片开发周期中的“tick”升级，这意味着它将采用全新的架构和新技术。英特尔将采用先进的制造工艺和封装技术来支持 Falcon Shores 的小芯片设计。
Falcon Shores 也代表了英特尔在Ponte Vecchio 向 exascale 性能迈进，并最终向 zettascale 计算迈进了一步。该公司将在此类芯片中集成光学 I/O 以解决带宽和能源效率问题，这可能是 GPU 和 Falcon Shore XPU 的一部分。
McVeigh 还谈到了其他 HPC 主题，包括内存层次结构，以及使用其代号为 Bonanza Mine 的比特币芯片实现的性能和能源效率，这是高性能计算环境中所需的低压时钟方案的一个示例。
图片
由 Jeff McVeigh 在 ISC 2022 上提出
英特尔 HPC 路线图
英特尔在国际超级计算大会上的主题演讲附带了一个新的路线图，以实现其在 2027 年之前提供 Zettascale 级性能的艰巨目标。正如您在上面的英特尔超级计算芯片路线图中看到的那样，今天的公告包括英特尔 Rialto Bridge 的第一个细节GPU 是其尚未推出的 Ponte Vecchio GPU 的下一代产品。Rialto Bridge 数据中心 GPU 将在较新的工艺节点上运行多达 160 个内核，具有明显经过大量改造的架构，以高达 800W 的功率运行，在应用程序中提供高达 30% 的性能，并在2023 年中期开始提供样品。
此外，英特尔还分享了有关 Falcon Shores XPU 的更多详细信息，该芯片将具有不同数量的 x86 内核、GPU 内核和内存，具有令人眼花缭乱的可能配置。英特尔计划将其 CPU 和 GPU 产品线合并到这个单一的可组合产品中，并在 2024 年将这两个产品线合并为一个产品线。
我们现在还拥有英特尔配备 HBM 的 Sapphire Rapids 服务器芯片的第一个基准测试，它们正在进入市场以与 AMD 抗衡Milan-X处理器。英特尔声称，这些芯片在内存吞吐量受限的应用中提供的性能是其 Ice Lake Xeon 前代产品的三倍。
实现英特尔的 Zettascale 目标需要一系列进步，其中许多是革命性的，今天，该公司还分享了一些近期目标，同时还通过 Zettascale 构建模块路线图勾勒出更广泛的长期计划。让我们深入了解该公告。
英特尔坚持以意大利桥梁命名其企业级 GPU，他们当前一代的产品是Ponte Vecchio，紧随其后的是 Rialto Bridge，这是英特尔的下一代数据中心 GPU，将于 2023 年上市。英特尔透露，这款芯片的拥有高达160 个 Xe 内核，比 Ponte Vecchio 上的 128 个内核大幅增加。
正如我们在上面看到的，虽然 Ponte Vecchio 设计由 16 个计算块（tile）组成，这些块排列在芯片中心的两个库中，每个块有 8 个内核，而 Rialto Bridge 只有 8 个较长的块（大概）有 20 个 Xe 内核每一个都标志着重大的设计转变。
我们还看到，Ponte Vecchio 的 Rambo Cache tiles已被移除，但内核两侧仍有 8 个未知flavor的 HBM tiles，而芯片封装的相对角落则排列了两个 Xe Link tiles。为了帮助说明差异，上述相册中的最后六张图片包括当前一代 Ponte Vecchio 设计的框图。
Rialto Bridge 带有一个较新的未指定的工艺节点，但英特尔尚未指定哪些组件将得到升级（推测，所有组件都将迁移到较新的节点）。目前，英特尔将其“Intel 7”节点用于 Ponte Vecchio 的基本块和缓存，台积电 5nm 用于计算块，台积电 7nm 用于 Xe Link 块。
Rialto Bridge 还带有未指定的架构增强功能，类似于“tick”，与 Ponte Vecchio 相比，应用程序的性能提升高达 30%。英特尔尚未提供任何基准来支持这些说法，我们不确定如果这些改进是在相同的时钟/功率范围内。但是，30% 的预测与核心数量增加 25% 密切相关，这意味着我们不会看到实质性的 IPC 改进。
英特尔列出了 Rialto Bridge 的峰值功耗为 800W，比Ponte Vecchio的 600W 峰值有所增加，并将以开放式加速器模块 (OAM) 形式提供。英特尔表示将采用 OAM 2.0 规范，不过它还将继续提供其他形式的 GPU。Rialto Bridge 将与 Ponte Vecchio 封装兼容，因此可以直接升级。
此外，该公司将很快推出其 XPU Manager，这是一款适用于其数据中心 GPU 的开源监控和管理软件，可在本地和远程使用。否则，英特尔只会分享有关这款新 GPU 的模糊细节，使用诸如“更多 FLOPs”、“增加 I/O 带宽”和“更多 GT/s”之类的声明，这些声明并没有让我们对新设计有任何了解。然而，该公司确实在幻灯片中包含了 IDM 2.0 列表，表明它将继续使用代工合作伙伴来生产一些 Rialto Bridge tiles。不过，我们肯定会很快了解更多信息——英特尔表示，Rialto Bridge 将于 2023 年问世。
英特尔的 Falcon Shores XPU 代表了公司异构架构设计弧的延续，其最终目标是提供 5 倍的每瓦性能、5 倍 x86 插槽中的计算密度以及 5 倍的内存容量和现有服务器芯片的带宽。英特尔的 CPU 和 GPU 路线图与 Falcon Shores 融合，表明这些芯片将在未来同时扮演这两个角色。这是一场令人难以置信的赌博，但英特尔多年来一直在为这种范式转变建立技术基础，因此它拥有工具。
这种分解的芯片设计将具有单独的 x86 计算和 GPU 内核块，但英特尔可以使用这些块来创建这两种添加剂的任何混合物，例如全 CPU 模型、全 GPU 模型或两者的混合比例. 英特尔没有具体说明，但期望 x86 核心块可以有自己的性能核心 (P-core) 和效率核心 (E-core) 的混合也是可行的，或者我们可以看到 P- 和 E 集群-核心部署为自己的完整瓷砖。英特尔指出，这些tile将在未指定的Angstrom 时代工艺节点上制造，尽管英特尔的 20A 似乎符合它自己可以制造的tile的要求。
Falcon Shores 将配备更小的tile，用于各种flavor的 HBM 内存和网络additives。CPU、GPU、内存和网络功能的灵活比例将使英特尔能够在设计过程后期针对特定或新兴工作负载快速调整其 Falcon Shores SKU，这是一个重要的考虑因素，因为 AI/ML 领域的格局瞬息万变. 英特尔尚未具体说明是否允许客户混合和匹配以创建他们自己喜欢的tile混合，但这将非常适合该公司的英特尔代工服务 (IFS) 方法，该方法将看到它许可自己的 IP 并且还为其他公司制造芯片。不难想象，如果资金合适，其他类型的块，如 FPGA 或 ASIC，会在设计中发挥作用。
上述幻灯片展示了四tile设计与 x86 计算核心和 Xe GPU 核心的各种组合，以及四个可能容纳内存和网络芯片的较小块。
自然地，这种设计将允许英特尔利用其 IDM 2.0 模型，从而为某些功能生产一些自己的块，同时还与第三方晶圆厂和 IP 供应商签订合同，以混合和匹配的方式提供一些块，可以回避任何其自身的埃级工艺节点技术或其供应商的潜在制造问题。此外，在这里利用小芯片的UCIe 生态系统可能被证明是一个基石，使英特尔能够访问业界必须提供的最佳内存和网络添加剂。
英特尔将利用下一代先进封装在将融合成一个有凝聚力的单元的块之间提供“极端”带宽。然而，目前尚不清楚这些芯片是否会在下面有一个（活动的？）中介层，就像我们在 3D 堆叠的 Foveros 芯片中看到的那样，或者英特尔将使用哪种风格的互连技术来连接这些tile。英特尔在封装技术上投入巨资，并希望能在这里获得回报。
Falcon Shores 将拥有一个简化的编程模型，英特尔称该模型将创建一种“类似 CPU”的编程体验，大概基于该公司的 OneAPI 产品组合。英特尔预计该产品将于 2024 年上市。
英特尔共享其配备 HBM2 的第四代 Sapphire Rapids Xeon处理器的基准测试，我们知道该处理器配备高达 64GB 的 HBM2e 内存，以提高内存吞吐量受限工作负载的性能。与所有供应商提供的基准一样，请多加注意。我们在上述专辑的末尾包含了测试笔记。英特尔声称其在 WRF 中的 Ice Lake Xeon 8380 芯片的性能提高了 2 倍以上，这是Nvidia 最近用来宣传其Grace CPU优于英特尔的天气预报模型基准。
其他亮点包括声称在 YASK 能源基准中提高了 3 倍以上，OpenFOAM 提高了 2 倍，CloverLeaf Euler 求解器提高了 3 倍以上。英特尔还声称 Ansys 的 Fluent 软件速度提高了 2 倍，ParSeNet 提高了 2 倍。
英特尔表示，其配备 HBM 的 Sapphire Rapids 将于今年上市。标准的 Sapphie Rapids 模型尚未进入一般市场，所以这可能是冒险的。
鉴于其雄心勃勃的 2027 年目标，英特尔从刚刚诞生的 Exascale 时代迈向 Zettascale 时代的探索充满挑战，尤其是在该公司尚未推出自己的 Exascale 级Aurora 超级计算机的情况下。目前，百亿亿级的王冠是 AMD 的Frontier 超级计算机。迁移到 Zettascale 需要将性能提高 1000 倍，并需要新的工艺节点技术、架构、存储器和封装技术，更不用说将它们联系在一起的网络技术了。
英特尔列出了它认为达到下一个计算水平所需的一些进步，即通用芯片互连高速 (UCIe)规格是其中最主要的。UCIe 旨在通过开源设计标准化小芯片之间的芯片到芯片互连，从而降低成本并培育更广泛的经过验证的小芯片生态系统。此外，UCIe 标准旨在与其他连接标准（如 USB、PCIe 和 NVMe）一样普遍，同时为小芯片连接提供卓越的功率和性能指标。这种互连使英特尔能够访问业界必须提供的最佳 IP，无论是在网络、内存或其他添加剂方面。
一些未来的超级计算机可能需要模块化核反应堆来满足他们对电力的巨大需求，因此说功耗是一个问题是一种严重的轻描淡写。英特尔还计划扩展其超低电压技术，该技术在其比特币挖矿 Blockscale ASIC可将时钟负载电压降低 50%，从而大幅降低功耗。这将降低高性能芯片的功耗，最终降低热负荷并简化冷却。英特尔的 PowerVia 技术为晶体管提供背面供电，是另一项重大进步。
英特尔正在探索新的存储器，以在更小的封装中提供更高的吞吐量，并设想将光学互连引入封装以帮助应对带宽增加。光网络可用于芯片到芯片和芯片到芯片的链路，更不用说在联网场景中开箱即用了。英特尔的 Xe Link 可以转向光互连，以提高带宽、带宽密度并降低功耗。英特尔要实现到 2027 年提供 Zettascale 计算能力的目标，需要所有这些因素以及更多因素。

参与讨论

登录后参与讨论

//评论区

推荐阅读

英特尔重申：将CPU和GPU整合到一个芯片里

holle | 发布于：2022-06-02 0评论 0赞

定制AR设备之“芯”

有关苹果增强现实（AR）头显的消息是当前电子信息与消费领域，人们zui为关注的行业热点之一。此前曾有消息称，其将于2022年底发布。海通国际证券在近日发布一份报告中预计，该设备或被推迟到2023年di一季度。尽管再被推迟，苹果AR头显的关注度依然不减。业界普遍期待，凭借苹果强大的定制化自研芯片能力，这款产品或将为AR设备市场打开一条上升通道。而这一情况亦从另一侧面显示出，定制化芯片对于AR设备发展

holle | 发布于：2022-04-29 0评论 0赞

瑞萨电子推出用于RZ/G2L、RZ/V2L的完整电源解决方案

新产品可提升系统可靠性，降低整体成本，支持四层PCB板 2021年8月6日，日本东京讯-全球半导体解决方案供应商瑞萨电子集团（TSE：6723）今日宣布，推出RAA215300PMIC（电源管理IC），该产品是针对人工智能（AI）应用RZ/G2L、RZ/V2L微处理器（MPU）的完整电源解决方案，主要功能包括九个电源输出通道、一个内置充电器和一个实时时钟；其高集成度可降低设计复杂

Electronic135 | 发布于：2021-08-06 0评论 0赞

艾迈斯欧司朗通过光谱传感器为COVID-19提供分子检测解决方案

·新型BiologyWorksk(now)?设备提供高准确的COVID-19检测或其他分子测定，重新定义了医疗保健的检测标准； ·艾迈斯欧司朗的多光谱传感器能够通过分析鼻拭子样本实现病毒分子检测； ·灵活的光谱传感器针对所有光波长进行标准化，使BiologyWorks?能够使用不同的测定法来识别COVID-19、甲型/乙型流感、血糖水平和STD等信息。

Electronic135 | 发布于：2021-07-09 0评论 0赞

科锐GaN-on-SiC功率放大器结合MaxLinear线性化技术，高效赋能新型超宽带5G

新型GaN-on-SiC线性化解决方案赋能5G基站，支持更多移动通信用户并提供高速数据传输 2021年7月5日，美国北卡罗莱纳州达勒姆讯––全球碳化硅技术领先企业科锐Cree,Inc.（美国纳斯达克上市代码：CREE）于近日宣布了与MaxLinear,Inc.（美国纽约证券交易所上市代码：MXL）的成功合作。MaxLinear是射频（RF）、模拟、数字和混合信号集成电路的领先供应

Electronic135 | 发布于：2021-07-06 0评论 0赞

全性能升级|思特威SmartClarity?-2新品登场

2021年6月22日，中国上海—技术先进的CMOS图像传感器供应商思特威科技（SmartSensTechnology）今日宣布，正式推出基于其全性能升级技术SmartClarity?-2的三款图像传感器新品——SC230AI/SC430AI/SC530AI。伴随5G与AI智能化的发展，安防监控行业已逐渐进入全新的智能安防时代，而其中CMOS图像传感器对成像质量起着关键性作用

Electronic135 | 发布于：2021-06-22 0评论 0赞

大联大品佳集团推出基于NXP i.MX8QM的AI影像辨识与车辆识别方案

2021年5月13日，致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布，其旗下品佳推出基于恩智浦（NXP）i.MX8QM的AI影像辨识与车辆识别方案。当今社会正逐渐发展成为一个以多媒体为中心，并且高度依赖数据和自动化的经济体系。而汽车产业作为体系中重要的一环，在众多科技的推进下，也正经历着前所未有的智能化升级。随着自动驾驶和辅助驾驶技术愈发成熟，如何

Electronic135 | 发布于：2021-05-14 0评论 0赞

Melexis 推出面向消费类应用的紧凑型低压 3D 磁力计

MLX90392将荣获专利的Triaxis?霍尔磁感应技术应用到注重节省成本的白色家电、智能仪表、游戏和住宅安保等领域 2021年5月7日，比利时泰森德洛-全球微电子工程公司Melexis宣布推出面向白色家电、消费类电子产品和智能仪表应用的三轴磁场传感器芯片MLX90392，可与其他组件（如逻辑器件）共享1.8V的电源轨工作。 MLX903

Electronic135 | 发布于：2021-05-11 0评论 0赞

holle

外面的声音太嘈杂，听自己的心就好

关注