|
面对E级超算系统的可扩展性和效率挑战:神威E级原型系统并行支撑环境的实践
何晓斌, 陈鑫, 郭恒, 刘鑫, 陈德训, 杨雨灵, 高洁, 冯赟龙, 陈龙得, 刁晓娜, 陈左宁
Frontiers of Information Technology & Electronic Engineering. 2023, 24 (1): 41-58.
https://doi.org/10.1631/FITEE.2200412
随着超级计算机性能不断提高,人工智能与传统科学计算的进一步融合,应用的并行规模逐渐增加,从数百万个计算核心到数千万个计算核心,这对超大规模系统上实现并行应用的高可扩展性和高效率提出巨大挑战。本文首先以神威E级原型系统为例,分析了E级时代并行应用的高可扩展性和高效率面临的挑战。为克服这些挑战,重点介绍了神威E级原型系统上并行支撑环境软件的优化技术,包括并行操作系统、I/O优化技术、超大规模并行调试技术、千万核心并行算法、混合精度方法等。并行操作系统和I/O优化技术主要支持大规模系统扩展,而超大规模并行调试技术、千万核心并行算法和混合精度方法主要提升大规模应用的效率。最后,介绍了运行在神威E级原型系统上的应用程序取得的重要成果,从而验证了并行支撑环境设计的有效性。
参考文献 |
补充材料 |
相关文章 |
多维度评价
|
12篇文章
|