近日,USENIX Annual Technical Conference (USENIX ATC)公布了2024年论文最终录用结果,厦门市智能存储与计算重点实验室2篇论文被录用。USENIX ATC始办于1992年,是由USENIX组织的计算机系统领域的著名学术会议,也是中国计算机学会推荐的A类存储系统会议,计算机系统领域中Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响力的研究成果都在USENIX ATC发表或公布。2024年投稿488篇,录用77篇,录用率为15.8%。
1. Removing Obstacles before Breaking Through the Memory Wall: A Close Look at HBM Errors in the Field
随着新兴计算应用对内存带宽需求的急剧增长,高带宽内存(High Bandwidth Memory, HBM)被视为克服内存墙限制的有力解决方案。然而,HBM也面临着不容忽视的可靠性挑战。HBM不仅继承了传统DRAM的错误和故障模式,而且由于其独特的3D堆叠DRAM架构,还引入了新的错误和故障模式。
实验室与华为中央软院合作,对19个数据中心在过去两年中超过4.6亿次的错误事件进行了深入的分析。这项研究首次系统性地探讨了HBM故障的时空特征及其与功耗和温度等属性之间的关联,揭示了一系列针对HBM故障模式的重要观测,发现HBM与DRAM在故障模式、空间关联、时序关联等方面都存在着明显区别。鉴于这种明显的差异,将传统的DRAM故障预测模型直接应用于HBM可能效果不佳。因此,构建一个专门针对HBM特性和需求的故障预测模型尤为重要。
基于上述的分析和深入的研究,实验提出了多层次HBM故障预测框架。该框架整合了空间、时间和传感器等属性作为故障的输入,并针对HBM的故障特性在不同层次上的差异,分别提出行、列、Bank和服务器层级的预测器,以实现对HBM故障的精准预测。
论文第一作者是计算机科学与技术系2021级硕士生吴镕龙,通讯作者是沈志荣副教授,由计算机科学与技术系2022级博士生周书悦、人工智能研究院2024级硕士生卢佳豪、计算机科学与技术系2022级硕士生徐子康、舒继武教授、杨昆霖(华为技术有限公司)、林飞龙(华为技术有限公司)以及张一鸣教授合作完成。
2. UniMem: Redesigning Disaggregated Memory within A Unified Local-Remote Memory Hierarchy
分离式内存(Disaggregated memory,DM)因其高可扩展性和高资源利用率而受到广泛关注。现有的分离式内存系统包括基于对象的分离式内存系统、基于页面的分离式内存系统和基于缓存一致性的分离式内存系统。其中,基于缓存一致性的分离式内存系统将远端内存视为伪物理内存空间(fake physical memory space)暴露给计算节点,作为计算节点主机本地内存(device-attached memory)的一部分,从而实现透明和细粒度的远端内存访问。然而通过伪内存访问远端内存的机制存在一次额外的地址转换,增加了远端内存的访问延迟。同时,现有的本地缓存策略忽视了分离式内存系统中的缓存抖动和污染问题。实验室分析发现,扩展操作系统的内存热插拔特性可以实现灵活的远端内存管理。为消除远端内存访问路径中的地址转换中间层,该论文提出了UniMem,这是第一个将远端内存池直接暴露给计算节点物理内存空间的基于缓存一致性的分离式内存系统。UniMem通过Shadow-Region将整个远端内存池映射到计算节点系统物理空间,使得计算节点能够像利用本地物理内存一样利用远端内存,并使用Remote-Balloon管理内存资源。其次,为防止缓存污染,提高本地内存利用率,UniMem提出了一种本地缓存机制 Filter-Cache,它用大部分缓存空间保留频繁访问的页面,并迅速驱逐很少或不重用的页面。最后,UniMem设计了一个全面的充分利用页面迁移机制,将本地内存中被频繁访问的页面迁移到主机内存中,从而能够利用更快速的主机内存并绕过高速缓存一致性互连。与现有的方案相比,UniMem降低了33.4%的平均内存访问时间,并减少了7.9倍的数据放大。
论文第一作者是计算机科学与技术系2021级博士生钟一捷,通讯作者是沈志荣副教授,由计算机科学与技术系2023级硕士生周敏强、舒继武教授合作完成。
投稿:沈志荣