2023年2月21日,bwin必赢张一鸣教授、舒继武教授与上海交通大学、阿里巴巴公司合作的学术论文《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》获计算机存储领域顶级会议USENIX Conference on File and Storage Technologies (USENIX FAST 2023)最佳论文奖(Best Paper Award),这是国内首次获得该奖项,张一鸣教授为该论文的通讯作者。
硬盘的fail-slow故障状态与正常情况下的高负载状态具有相似的性能下降表现,因此难以发现和修复。为了克服此难题,论文提出一种适用于云存储系统的fail-slow故障检测框架Perseus,其基本思想是建立延迟-吞吐(LvT)分布的多项式回归模型,自适应地获得每个存储节点的fail-slow阈值,进而利用性能监测指标进行非侵入式的细粒度fail-slow慢盘检测。Perseus已经部署于阿里大规模云存储系统,在24.8万块硬盘中准确检测到304块fail-slow慢盘,使存储系统的I/O尾延迟降低48%。
FAST会议是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,是存储系统领域最高水平会议,是中国计算机学会推荐的A类(CCF-A)会议。USENIX FAST 2023共录用28篇论文,录用率23%。