解决方案

银河麒麟云平台解决方案 - 超算

方案背景

Programme background

国家超级计算中心旨在助推战略性新兴产业发展,是支撑国家创新型城市和智慧城市建设的重大战略性基础设施,致力于打造集高性能计算、海量数据处理、信息管理服务于一体的世界一流超算中心,为社会和经济发展提供强大引擎。

客户需求

Customer demand

客户需要通过云计算技术对大规模计算节点进行统一管理,满足用户按需使用计算资源的基本需求,包括能够承载用户的电子政务应用服务、动漫渲染类应用和高性能计算应用等多种应用稳定运行。 承载电子政务类应用:需要解决涉及迁移已有多系统的平台软件、第三方软件移植、专线接入、不同应用和服务的物理/逻辑隔离、数据灾备,业务服务稳定性和持续性等需求。 动漫渲染类应用:需要满足复杂场景和特效所需的高计算能力需求,完成高质量的渲染任务和高分辨率的真实感渲染,缩短场景的渲染周期,提高制作效率。 高性能计算应用:需要解决物理机的性能、资源的统一管理、资源共享与隔离、弹性资源使用需求、用户自助资源申请、以及可定制化的应用软件等需求。

方案概述

Overview of the solution

针对电子政务类应用需求,麒麟团队基于银河麒麟云平台制定了一套完备的解决方案,如下图所示: 该方案从以下方面解决电子政务类应用的需求: · 提供P2V、V2V 镜像转换方案,使得系统快速上云 · 虚拟机业务网经过防火墙接入对方专线,虚拟机启动后用户可直接从局域网访问虚拟机 · 负载感知虚拟机规模,提供自动伸缩 · 网站类和信息系统类应用定向优化 · 完善的虚拟机高可用机制,保证业务持续性 · 基于CEPH的卷设备,实现虚拟机硬盘的每天一次增备 针对动漫渲染类应用需求,银河麒麟云平台进行了大量优化,形成了基于动漫渲染类的云解决方案,主要优化如下: · 限制渲染集群的规模,减轻共享读写带来的IO瓶颈 · 通过KSM降低内存消耗 · 物理机超线技术(HT) · 根据实际效果调整内存超售比例 · 优化渲染过程中(小)文件的读写 · 优化虚拟机的网络参数,提高带宽 · 对渲染结果及时备份 针对高性能计算应用需求,将云计算的优势引入到传统的高性能计算领域,使用容器技术为用户提供可定制、隔离性强、可弹性伸缩、界面友好的HPC集群,应用模式如下图所示:   其特点在于: · 使用基于Docker的轻量级虚拟化 o 基于现有HPC环境制作镜像,整合HPC软件栈 o 虚拟机以主机模式访问TH-NI高速网 o 虚拟机直接访问MIC加速器 o 主机挂载Lustre共享存储 · 全系统计算资源的混合调度 o 根据任务属性判断Host o 计算节点角色的按需切换

客户收益

Customer income

目前国家超算中心基于麒麟云的生产环境最大部署规模达到6400 节点,其中正在稳定运营有近3000个节点,主要为电子政务、教育、动漫渲染等多个行业和应用提供资源服务。