西湖大学278篇论文致谢藏“玄机”

3次浏览

文|《中国科学报》记者 赵广立H2Y知多少教育网-记录每日最新科研教育资讯

在近期一次会议上,西湖大学高性能计算中心高级工程师郑焕波分享了一个西湖大学学术成果接连不断产出的“秘密”。H2Y知多少教育网-记录每日最新科研教育资讯

“西湖大学于2018年2月获教育部批准成立,随之一同建立并投入运行的还有西湖大学的科学工程计算集群。”郑焕波介绍说,次年6月,西湖大学高性能计算中心成立;1个月后,冷冻电镜集群(GPU算力)投入运行;2年后,人工智能集群(AI算力)投入运行。目前,西湖大学支撑科学研究的算力规模在国内高校中名列前茅。H2Y知多少教育网-记录每日最新科研教育资讯

算力坚实地支撑了科学家们的探索发现。据郑焕波统计,仅2019年—2023年,西湖大学共有278篇各类期刊论文向高性能计算中心提出致谢,其中14篇发表在《科学》《自然》《细胞》等知名期刊;同期,西湖大学还发表了130多篇人工智能会议文章。他透露,西湖大学高性能计算中心(以下简称“西湖计算”)现拥有超过1000个校内用户,提供的计算服务覆盖该校140多个课题组。H2Y知多少教育网-记录每日最新科研教育资讯

许多人不知道的是,能出色支持如此多的团队潜心科研,西湖计算还有一条锦囊妙计,那就是在存储系统上下功夫。H2Y知多少教育网-记录每日最新科研教育资讯

存储系统是“大后方”H2Y知多少教育网-记录每日最新科研教育资讯

算力之于科学研究的作用不言自明。谈及算力之于当前科学研究的重要性,西湖大学高性能计算中心主任李男一语道破:“科研团队永远在一个高度竞争的环境下,在国际前沿热点竞争,就是争分夺秒。早一秒得出结果,意味着离成功更近一步。”H2Y知多少教育网-记录每日最新科研教育资讯

也正因此,作为保障科研成果不断产出的得力助手,各大计算集群在科研一线的稳健运行事关重大。而存储系统,更是计算集群的“大后方”,它的“健康”攸关计算集群能力能否高效发挥。H2Y知多少教育网-记录每日最新科研教育资讯

“存储的稳定性是整个集群的重中之重。”郑焕波说,“如果存储不稳定,整个计算集群就无法使用。”H2Y知多少教育网-记录每日最新科研教育资讯

与单节点计算系统不同,大规模计算集群在数十甚至数百个节点同时运转时,需要存储系统的高效支撑——如果把计算集群的算力比作“生产线”,存储系统就是“原材料仓库”和“自动输送管道”。作为“计算工厂运转的“物料根基”,仓库库存既要足够大(对应数据分布式存储),生产管线的输送还要足够快(对应存储带宽),这样才能保障生产线不“堵料”、不“断料”,保障计算集群的效率。H2Y知多少教育网-记录每日最新科研教育资讯

对此,西湖计算的专家们自然清楚。他们在构建算力集群之初,就对国内外许多存储厂商的产品做过各种各样的评测,并综合性价比等因素,将西湖计算的存储带宽构建在百GB/s级别——这在理论上是“够用”的。H2Y知多少教育网-记录每日最新科研教育资讯

然而,科学家们还是抛出了难题:各课题组的算力应用以服务科学计算为主,这些应用对数据吞吐量、传输效率等的要求比训练推理应用高很多;而当科学家们提出的计算任务量越来越多、数据体量越来越庞大,即便是在存储不断增加的情况下仍然不能满足需求,“半年就把存储带宽占满了”。H2Y知多少教育网-记录每日最新科研教育资讯

西湖计算的一次招标H2Y知多少教育网-记录每日最新科研教育资讯

为应对这一情况,西湖计算起初的策略是“扩”。存储带宽100GB/s不够,就扩到400GB/s、500GB/s。然而他们发现,即便如此,也不能很好地满足科学家们不断提出的性能需求。H2Y知多少教育网-记录每日最新科研教育资讯

这样下去不是办法,西湖计算决定招标。他们希望能有人可以“玩转”存储系统,使其能够完美匹配科学计算和人工智能(AI)计算任务的需要。H2Y知多少教育网-记录每日最新科研教育资讯

正在此时,曙光存储进入视野。在投标西湖计算的标书中,曙光存储不仅提供了一份为AI研发、科学计算和信息化平台等提供存力支持方案,还提出了单节点超过100 GB/s的高标准交付目标。H2Y知多少教育网-记录每日最新科研教育资讯

中科曙光存储公司副总裁杨志雷至今记得,当时很多用户都在场,大家对这样的高标准交付“不能用‘震惊’这个词,感觉大家更多是在皱眉头”。杨志雷知道,大家有点不敢相信,曙光存储能够把计算集群的单节点存储性能做到这么高。H2Y知多少教育网-记录每日最新科研教育资讯

“大家可能觉得,花钱(性价比)是一回事,但如果你说得这么好,最后达不到这个水平,就会影响科研效率和成果的产出。”杨志雷对记者表示。H2Y知多少教育网-记录每日最新科研教育资讯

双方耐心持续的沟通交流,以及后续共同开展的许多测试和验证性工作,让西湖计算最终认可了曙光存储。其呈现出的存储访问模式、特点及利用技术手段对算力的释放优势,证明了它的价值。H2Y知多少教育网-记录每日最新科研教育资讯

同时,杨志雷表示,曙光存储提供的不仅是通用存储,还包括部件更新、运维保障等后续服务能力。“用户也非常看重我们可以配合他们做深入的功能研发、流程和性能上的优化和治理,这是西湖计算的用户感触非常深的。”H2Y知多少教育网-记录每日最新科研教育资讯

另外,曙光存储交付的产品性能实测显示,该系统单节点带宽可达150GB/s,是国际友商的近4倍,充分满足AI、科学计算需求,超额完成交付目标。H2Y知多少教育网-记录每日最新科研教育资讯

曙光存储的“超低阻”H2Y知多少教育网-记录每日最新科研教育资讯

“没有金刚钻,揽不了瓷器活。”能中标西湖计算这样的用户,曙光存储“有两把刷子”。H2Y知多少教育网-记录每日最新科研教育资讯

中科曙光存储公司总裁何振介绍说,数据作为新时代的“石油”,其存储、访问、处理和流动的效率,直接决定了AI智能体的“智商”与“效能”。然而,传统的存储架构在应对海量非结构化数据、超高通量并发访问和极致低延迟需求时,已日益显得力不从心,“存不下、取不快、流不动”成为制约AI产业释放更大潜力的瓶颈。为此,曙光存储专门创新架构,构建“超低阻”数据基础设施。H2Y知多少教育网-记录每日最新科研教育资讯

据介绍,曙光存储构建“超低阻”数据基础设施的关键,在于其首创的“超级隧道”技术。该技术理念旨在通过硬件与软件的深度协同优化,构建高效、低时延的数据传输路径。据何振介绍,“超级隧道”基于无锁架构、极简交互及软硬件协同等核心设计,是当前业内唯一能够充分释放PCIe 5.0性能的存储技术。目前,“超级隧道”支持的集中式全闪存储产品实现亿级IOPS性能、202微秒级时延,并通过“五级加速+三级协同”技术,可将GPU利用率从30%~40%提高至70%~80%。H2Y知多少教育网-记录每日最新科研教育资讯

“我们发现,在存储技术上的一些调整,可以把整个计算过程加快大概30%。”何振说,目前,曙光存储已支持西湖计算部署完成全新存储系统,为AI技术研发、科学数据处理等带来了可靠的存力保障。H2Y知多少教育网-记录每日最新科研教育资讯

“我们认为在AI时代,‘超低阻’已不再是存储系统的可选项,而是必然要求。”何振表示,这意味着数据从生成、存储到服务于计算的全链路中,需要实现极致的顺畅与高效,最大限度地降低“数据摩擦力”,让算力得以无阻塞地充分释放,真正成为赋能千行百业的强大引擎。H2Y知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-1-13342.html西湖大学278篇论文致谢藏“玄机”

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

热点精选

最新推荐

您可能感兴趣