高校如何建设高性能计算平台?2023年高算与科研融合新趋势
目前,高性能计算(称为“高计算”)加深了其与大数据和人工智能等新兴技术的集成,并且其应用程序场景不断富集。它们不再限于专业计算领域,而是扩展到业务领域和日常生活,影响越来越深。作为科学研究和人才培训的关键位置,大学特别迫切需要高计算机。 2021年,工业和信息技术部发布了“新数据中心开发的三年行动计划(2021-2023)”,该计划清楚地提出了加速高性能和智能计算中心的部署并促进该中心的部署新数据中心的计算电源的多元化。
在这种背景下,高校和大学在建设学校级别的高估平台上的投资趋势变得越来越明显。但是,高计算机所需的技术与大学信息部门的现有技能储备之间存在很大差异,并且团队有一定的门槛开始参与施工。
学校级高计算平台的定位和目标是补充科学研究工作和高计算平台的建设,以便科学研究团队将专注于科学研究和创新,以便计算电力服务可以完全支持教学和科学研究,支持学科的交集以及支持大型团队和大型项目的产出。伟大的成就满足了大规模数据处理和大规模科学计算的各个学科的需求。
经过超过半年的建筑勘探和试验运营,中国农业大学级别的高计算平台于2022年6月正式启动。现在,它取得了初步的建筑业绩,资源利用率从70%到95%不等。 。一些主要的研究小组所有计算都已转移到校园平台,教师和学生的总体满意度很高。
学校级高性能计算平台的运营结果
满足教师和学生的科学研究和计算需求
帮助结果输出
专注于“创造高价值,实现低成本并提供优质服务”的建设概念,中国农业大学高估平台的第一阶段的总建筑基金为400万元人民币,这很小,但是在建筑设计,设备组合选择以及软件功能设计和工作计划管理方面已取得了重大结果。
如图1-2所示,截至目前,该平台为15所大学和141个帐户提供了服务,完成了家庭作业,时间验证和时间卡的计算任务。平台CPU资源在工作日期的平均利用率超过70%,高峰期高达95%。高毛已成为校园科学研究的最繁忙的公共服务平台。
图1高计算帐户分布
图2高计算平台计算量
高计算平台已成为教师和学生科学研究工作的重要支持。根据不完整的统计数据,自该平台启动以来,已经生产了有关“自然”,“细胞”和“科学”的下job期刊的4篇论文,还有11篇SCI论文(不完整的统计数据)以及数十种国家科学的科学论文。研究项目已经生产。运行计算任务。
平台采用高级设计概念
具有一定的优势
目前,农业大学的大学级高计算平台是中国第一个使用Intel Ice Lake CPU的平台。在第一阶段,总共部署了35个计算节点,总计算能力为每秒(数万亿个浮点操作),就计算速度,网络速度而言,它在水平和垂直扩展方面具有某些优势功能,统一计划和节能。同时,该平台还支持人工智能计算能力并采用AI人工深度学习算法框架,因此计算模型不受传统架构的限制,并且可以应对人工智能带来的许多复杂挑战。
自发布以来,该平台一直供不应求。为了解决计算能力不足的问题,该平台在第二阶段正在构建(图3-4)。预计将在2023年下半年完成。预计计算能力将提高到总体增长3.5倍,这可以为教师和学生提供更大的科学研究工作范围。 。
图3学校级高计平台的发展时间表
https://img0.baidu.com/it/u=1301510631,291932868&fm=253&fmt=JPEG&app=120&f=JPEG?w=500&h=707
图4:学校级高计算平台的计算功率量表
建立学校级高性能计算平台的经验
初步调查
在施工的早期阶段,项目团队研究了学校中教师和学生的高计算需求,并在兄弟大学中调查了高计算机的建设,并积极地与高计算,存储和GPU等制造商进行了技术交流。在此基础上,它分析并总结了学校高性能计算平台的总体建设思想。此外,考虑到信息技术的快速发展,该项目团队就关键设备系统的选择进行了足够的研究,以确保施工计划具有一定的发达和兼容性。
校园研究。我们第一次建立了一个学校级别的高计算平台,以满足校园高估的需求。研究重点包括:学校中哪些主要的研究团队需要使用计算能力,所需的支持软件,计算字段,计算能力和存储要求是什么; CPU计算,GPU计算和脂肪节点要求;研究团队解决计算和每年的近似计算成本;部门和研究小组已经建立了自己的高计算集群,等等。
该调查可以通过在线调查表,通过有针对性的电子邮件,电话,大学访问和对话等进行和总结。这些数据对后编程计划,申请安装和有针对性的精制服务有很大帮助。
校外大学的调查。向高级大学学习成功的建筑和管理经验,通常会导致结果的两倍。您可以在招标机构网站上搜索和下载学校级高计平台的竞标技术要求,或直接致电相关教师。
基于上述两种方法,项目团队从北京大学,中国科学技术大学,北京航空与星际大学,北京北京大学,香港大学(香港大学)(北京大学航空与星际大学)获得了北京大学,中国科学技术大学,中国科学技术大学,中国科学技术大学,香港大学(北京大学航空大学)获得了高计算项目。深圳)和其他大学于2021年。需要文件。通过阅读和理解多个文档,我们快速,深入理解并掌握关键信息,例如高计算平台体系结构,核心技术,各种模块类别,相互关联以及相关的主流制造商。
制造商研究。与主流高计算服务器制造商,CPU和GPU制造商,存储制造商,高速网络制造商,软件制造商等进行技术通信以及优势和缺点,并形成自己的知识系统,选择适合学校应用程序方案的最佳产品。例如,在CPU通用芯片选择调查中,英特尔和AMD特别关键。调查主要确定生态环境和使用情况,适用于高计算芯片模型,芯片性能,芯片价格等。
高速网络设计
数据传输是高性能计算方案中的重要链接。为了解决高带宽的数据传输要求,高效率计算方案中的高并发性和低潜伏期,项目团队特别购买了RDMA技术(远程直接内存访问),而不是TCP/IP以太网技术来构建计算和存储网络。主要目的是这样,CPU被发布以执行运行程序和处理数据的工作。
在高计算领域,大约有两种类型的RDMA网络,即(简称IB)和ROCE。 IB是一个硬件级别,可确保RDMA的可靠传输,并具有先进的技术,但成本昂贵。 ROCE是一项封装在以太网上的RDMA技术。它的稳定性比IB稍弱,其配置和管理相对复杂,但具有一定的价格优势。目前,使用IB专用网络的集群比例很大,但是一些大学集群已经开始使用ROCE网络,并且可以根据自己的情况选择IB或ROCE。
存储架构设计
磁盘读取速度远远落后于CPU和GPU的计算速度,因此文件存储系统的性能是影响整个高计算集群性能的重要因素。以下几点是关于农业大学采购存储的相关想法:
存储架构是通用的。尝试选择通用存储系统,架构可以支持多制造商硬件平台,以确保随后的扩展不限于一个制造商。在计划中,很明显,计算节点访问存储采用了基于RDMA网络的POSIX通信协议,而不是效率较低的NFS通信协议。
按需购买存储系统容量。电子产品具有寿命,最稳定的运行期为3至5年。存储系统计划的总容量基于有关应用程序方案和用户数据增长的历史数据。并行存储具有强大的水平可扩展性。建议根据阶段性能和容量估算,以水平扩展为基于阶段的性能和容量估算,以批量购买。
澄清存储性能要求。在存储系统中,有必要定义其数据容错方法,可用容量(客户端DF-H可见容量),并定义整个存储系统的单线程读取/写入带宽以及汇总的读取/编写多个客户的带宽。以上三个数据最终可以确定存储容量和性能参数,并且与最终实际价格密切相关。同时,存储系统还应阐明支撑元数据的最小数量以及裸露容量元数据检索的性能(例如每秒创建的最大文件数量,每秒文件定位的数量,等等)。
清楚地购买了SAS硬盘驱动器。 SAS硬盘比SATA具有更高的稳定性和可靠性。存储制造商提供的大多数高性能存储系统都使用企业级SAS硬盘。
家庭思维
目前,信息创新平台可用于某些具有特定精度的教学场景和计算场景。科学计算和研究具有及时的要求,一般计算能力仍然是学校级高计算公共平台的第一条要求。大多数学生将选择有效的一般计算平台。适应和生态问题阻碍了国内系统的大规模使用。另一个主要原因。
如果将教师和学生在通用平台上申请的程序移植到国内平台,则需要额外的时间和精力来重新编译,并且仍然不适用于某些封闭的专业商业计算软件。因此,首次构建学校级别的高性能计算平台时,建议专注于一般体系结构。在资金支持下,还建议分批购买一定比例的家用产品。
实用的解决方案设计
https://img2.baidu.com/it/u=3122298502,1589838504&fm=253&fmt=JPEG&app=120&f=JPEG?w=500&h=559
一些与高计算平台是否实用且易于使用有关的参考文献:
CPU和GPU比率。不同学校的HPC和AI计算存在很大差异,需要根据早期的研究数据来设计适当的比例。例如:具有基本的HPC计算和大量计算机和航空AI智能计算。也许1:1的设计是合理的; 大学和媒体的需求相对集中,例如AI计算和动画专业图形渲染。因此,基本上倾向于GPU需求。尽管农业大学生命科学和化学等学科中的CPU计算远高于计算机科学中的GPU计算要求,因此根据4:1的设计设计更合理。
软件易用性。除了通过传统命令提交家庭作业的模型外,我们还应考虑从用户的角度使用互联网思维,对用户体验进行整理和优化,并最终实施图形任务提交和自动化性能监视,从而减少了使用普通的困难教师和学生,并高速促进计算平台并提高运营效率。
高计算平台体系结构是高级的。异质HPC和AI操作的统一调度和资源分配是在同一平台上执行的,管理和调度更有效。解决方案设计应该能够在CPU,GPU,并行存储和高速网络之间实现全线速度转发,这是影响平台有效操作的前提。
计算机设施部署
根据计划的计算功率量表来估计高计算集群的总功率,并根据现有的计算机室条件确定是否需要支撑装修的计算机室环境。每个学校的计算机室的状况不同,因此购买的机器也不同。液冷计算机室的能源效率水平高于气冷计算机房间,但其初始投资成本和以后的维护成本相对较高,因此它适用于大型计算机房间;气冷计算机室适用于较小的计算机房间,或者不方便地部署水冷却。计算机室的设施。液冷机房中单个橱柜的功率可以达到65kW,而气冷机房中单个橱柜的功率可以设计为25〜35kW。
对于行级空调的冷却能力,应将全面考虑与回流气温相结合,以确保人员在维护和调试中的舒适性。此外,功耗,UPS备份时间,消防和灭火系统,布线安全,计算机室环境控制和电池安全都需要全面考虑。一般而言,学校计算机房可以根据B级标准设计。
管理系统构建
在启动高计算平台之前,学校应根据其自身的实际条件来制定学校级高性能计算平台的操作管理措施,以加强平台的标准化管理,澄清责任的划分,维持可持续的运营和发展,并确保其支持和公众用于教学,科学研究。性游戏。
管理措施通常包括组织结构和责任划分,资源分配和使用,培训和交流,奖励和惩罚,费用规则等。农业大学发布了管理措施的初稿后,对学校的政策和奖励政策收费 - 级别的高计算平台,它邀请了高计算用户代表尽快讨论,并在完全聆听修订意见的基础上,然后将其提交给校长的办公室会议进行审议。
完全免费试用
为了促进教师和学生熟悉高性能计算平台,建议大学为校园的教师和学生提供免费试验。免费试验有几个好处。首先,让教师和学生尽快熟悉该平台的使用,并根据教师和学生的使用状态和反馈问题提供针对性的使用培训和系统改进功能;其次,它可以在提供细致的服务时将潜在的关键用户掌握到,它还使用其口头宣传来增加平台的普及;第三,它为正式推出该平台提供了良好的宣传材料,并获得了教师和学生的支持。
在线宣传和培训
农业大学高中将在4个月的全面免费试验中正式启动。平台老师亲自制作了一个5分钟的促销视频,其中“收集我们的思想,赋予我们智能计算的能力以及为双重一流的建设服务”,该视频分为建筑历史,高计算资源,高计算试验操作代表性结果,用户代表性消息等,宣传可实现预期的结果。
此外,管理员通过腾讯视频会议仔细地进行了多次特殊培训会议,并在培训前发布了图片和文字的公告和微信推文;建立了学校级高性能计算微信服务小组,并尽快发布各种通知和公告;通过服务去学院,在学院进行高计算宣传。通过上述方法,已经开发了一组高计算用户。
团队管理经验
高计算任务的操作是一个复杂的调度项目。高计算需要一个专业的团队。您不仅需要与计算机相关的专业背景管理员了解网络,安全性,计算机室,系统和脚本,而且还需要具有专业背景的计算科学背景的才能,以充当应用的“计算机纪律”纪律和计算机纪律。翻译”。
对于普通大学和大学,最好设立特殊职位并为管理人员提供相关的培训机会。对于农业大学,互联网技术中心仍然有兼职教师。为了允许教师尽快独立解决问题,将邀请制造商进行管理培训。此外,农业大学通过“出门”和“邀请”方法,从成功的经验中学习并帮助文档,并提高其自身的管理能力,从而学习了姊妹大学超级计算中心的高级管理经验。
页:
[1]