高带宽存储器(HBM)简介
什么是HBM?
高带宽内存(HBM)是一种先进的内存技术,利用3D堆叠DRAM架构提供卓越的数据带宽和效率。与依赖更宽总线和更高时钟速度的传统内存模块不同,HBM垂直堆叠多个内存芯片,并将它们与处理器紧密集成。这种方法支持更宽的通信接口,同时降低延迟和功耗。HBM由JEDEC标准化,最初由三星、AMD和SK海力士共同开发,于2015年在AMD的斐济GPU中首次实现商业应用。从那时起,HBM已经成为高性能应用的关键推动者,包括GPU、AI加速器、网络设备,甚至需要高带宽高速缓存或主存储器的CPU。
存储技术的发展
HBM的兴起源于“内存墙”的持续挑战——处理器速度和内存带宽之间的差距越来越大。随着CPU和GPU的发展,DDR和GDDR等传统DRAM解决方案难以跟上步伐。早期弥合这一差距的尝试包括提高时钟速度和总线宽度,但功率和信号完整性的限制使得进一步扩展不切实际。这导致了创新的解决方案,如3D堆叠内存。在HBM之前,JEDEC在2011年推出了用于移动设备的宽I/O DRAM,Micron开发了混合内存立方体(HMC),这是另一种堆叠式DRAM概念。这些早期设计为HBM铺平了道路,HBM于2013年正式标准化,两年后首次实现商业部署。从那以后,多代HBM提高了内存带宽和效率,巩固了其作为高性能计算中的基本组件的角色。
HBM在现代计算中的关键作用
随着现代工作负载要求巨大的数据吞吐量,内存带宽已成为主要瓶颈,而不是处理能力。人工智能培训、科学模拟和高性能计算(HPC)依赖于快速数据传输以保持效率。“内存墙”挑战意味着,如果没有足够的数据带宽,即使是最强大的处理器也无法满负荷运行。HBM通过将内存与处理单元放在一起直接解决了这一问题,显著提高了数据传输速度,同时降低了功耗。一个主要的例子是谷歌的TPU架构——早期版本由于内存带宽限制而面临性能约束,导致在后来的迭代中采用HBM。这种转变使数据吞吐量大幅增加,使大规模人工智能和实时数据处理成为可能。随着计算不断推动性能极限,HBM在释放AI、HPC和下一代处理器的全部潜力方面仍然至关重要。
第一个知道。
获取我们的 人工智能 摘要
堆叠DRAM和硅通孔(tsv)
高带宽存储器(HBM)的核心是其革命性的3D堆叠设计,其中多个DRAM芯片垂直堆叠,以提高存储器密度并拓宽数据总线。单个HBM器件通常被称为堆叠或立方体,通常包括4、8甚至12+层DRAM芯片,通过硅通孔(tsv)的创新使用进行键合和互连。硅通孔是穿透硅芯片的微小铜柱,使信号和功率能够垂直通过堆栈。这种垂直互连允许数百个信号并行传输,促进了定义HBM高性能能力的宽数据接口。
例如,在HBM2堆叠中,八个DRAM裸片通过数千个tsv连接到基础逻辑裸片,每个DRAM层包含多个128位通道。当这些层组合在一起时,每个堆栈形成一个巨大的1024位总线宽度(8通道× 128位)。相比之下,GDDR6内存芯片仅提供32位接口,这意味着需要32个这样的芯片才能匹配单个HBM堆栈的带宽。同时处理如此多信号的能力是HBM卓越带宽的主要因素。此外,由于信号只需在堆栈内传输几毫米,因此延迟和功耗降至最低,使HBM远比传统的内存解决方案更高效。
从本质上讲,HBM的堆叠式DRAM设计,加上tsv,将内存转变为直接位于处理器旁边的“数据立方体”,实现了快速和高带宽的通信。
存储器立方体互连和逻辑管芯
每个HBM堆栈还包括一个称为逻辑芯片(或基础芯片)的关键组件。该管芯不是传统的DRAM管芯,而是包含基本的接口电路、路由逻辑,并且有时包含缓冲器/高速缓存或测试逻辑,以管理其上的存储器堆栈。逻辑管芯经由tsv连接到DRAM层,并且充当到主机处理器(例如,CPU、GPU)的桥梁。
HBM通常使用非常宽的接口连接到处理器,通常通过2.5D封装配置中的硅内插器。在这种设置中,处理器芯片和一个或多个HBM堆栈并排安装在硅内插器上,该内插器充当具有嵌入式路由层的基板,将HBM的1024位总线分配给处理器的内存控制器。这种内插器布置是必不可少的,因为在常规PCB上布线1024位总线是不切实际的。内插器在处理器和HBM之间提供了一个短而高密度的连接,确保了最小的功耗和高速通信。
虽然一些实验设计已经探索了在3D配置中将HBM堆栈直接集成在处理器芯片的顶部,但是大多数实施都使用插入器方法。将逻辑芯片与内存集成的概念也在早期技术中进行了探索,如混合内存立方体(HMC),但HBM的实现和接口是截然不同的,与HMC不兼容。
最终,逻辑芯片和内插器的结合将HBM转变为一个封装上的内存池,与处理器无缝集成,提供比传统封装外DRAM更高的带宽和能效。
延迟、能效和带宽优势
HBM的架构设计释放了多项关键优势,可提升内存密集型应用的性能。
极限带宽:HBM性能的核心是其超宽内存接口和与处理器的紧密集成。单个HBM2堆栈(8层)可以提供大约256–307 GB/s的带宽,大大超过传统的内存技术(Xilinx,2021)。对于利用多个堆栈的GPU,如具有四个HBM2堆栈的GPU,总带宽达到1 TB/s以上,这是一个显著的性能飞跃。作为背景,高端DDR4内存通道提供约25 GB/s,即使是最快的GDDR6解决方案也最多约500-800 GB/s。这一差异说明了HBM以前所未有的速度向处理器提供数据的能力,这对人工智能和深度学习等高性能计算任务至关重要。例如,Fugaku超级计算机中使用的富士通A64FX处理器使用四个HBM2堆栈实现了令人印象深刻的1 TB/s内存带宽,直接促成了该系统在科学和工程模拟中的卓越性能。
低延迟:HBM与处理器的物理距离极大地降低了内存访问延迟。2.5D封装将内存芯片放置在距离计算芯片仅几毫米的地方,其集成设计消除了内存系统中传统所需的长PCB走线和外部连接器。因此,HBM可以最大限度地减少延迟,使数据能够在处理器和内存之间快速传输。在某些配置中,HBM的功能类似于大型高速三级高速缓存,与非板载RAM相比,显著减少了内存往返时间。虽然不断增加的存储器密度带来了一些延迟挑战,但HBM的延迟仍然大大低于传统的存储器类型,有利于需要实时数据处理的系统。
高能效:HBM最引人注目的优势之一是其卓越的能效。与依赖高频时钟速度来实现带宽的GDDR不同,HBM利用宽内存总线来减少引脚的高速切换需求。这种设计大大降低了每位的功耗。HBM中使用的短互连和低压差分信号进一步降低了功耗。因此,在提供类似或更大带宽的同时,HBM的功耗远远低于GDDR。例如,三星报告称,HBM可以提供高达三倍于基于GDDR5的系统的吞吐量,同时功耗降低高达80%(Xilinx,2021)。这种能效在数据中心和高性能计算环境中尤为重要,在这些环境中,能源成本是一个重要问题。以皮焦/位衡量,HBM的效率明显更高,与传统存储技术的更高值相比,HBM Gen2的数据约为7 pJ/位。
紧凑的外形:堆叠内存并将其直接与处理器集成的能力使HBM节省了宝贵的电路板空间。在传统系统中,需要大量内存芯片来提供足够的带宽,每个芯片都有自己的互连。借助HBM,只需几个堆栈就可以取代数十个分立存储模块,从而简化PCB布局。这种紧凑的外形不仅减少了物理尺寸,还有助于减少与较长互连相关的电气损耗和延迟。通过在封装上集成多个HBM堆栈,可以构建更小、更高效的高性能GPU和加速器,同时仍能提供巨大的带宽。
HBM与传统内存:DDR、GDDR和LPDDR
内存技术对现代计算至关重要,影响着性能、能效和成本。高带宽内存(HBM)是一种领先的解决方案,可与更传统的内存类型竞争,如DDR(用于系统内存)、GDDR(用于图形处理)和LPDDR(针对移动设备优化)。本文从带宽、功耗、成本和典型使用案例等方面对这些内存类型进行了详细比较。