青云 AI 智算平台
算力中心建设的新模式,像管理本地资源一样管理 AI 基础设施,对 AI 算力进行动态监控调整,以满足不同业务的需求,提高 AI 算力的整体使用效率和管理效率。

面临的挑战

多元资源统一平台管理瓶颈

GPU 算力、高性能计算(HPC)算力、多存储系统、模型资源以及数据资源的管理极具挑战性

高速网络瓶颈

面对数百甚至数千张 GPU 卡的同时运行,网络带宽的性能问题逐渐浮现,成为阻碍计算效率的一大难题

环境搭建繁琐

在处理大型语言模型、影视渲染、图片处理、药物研发等任务时,环境搭建的复杂性往往令人望而却步,需要投入大量的时间和精力

多业务整合瓶颈

在跨平台应用场景下,如 AI 推理平台、AI 训练平台、科学计算平台、容器计算平台难以整合

缺乏运营服务

在面向多租户的运营服务方面存在缺失,导致无法实现从计量、计费到客户服务的全业务运营流程,这无疑对业务的发展带来了阻碍

产品优势

多元算力统一调度

AI 智算平台能够对多元算力进行统一调度管理,包括 AI 计算多样显卡、高速计算网路 InfiniBand 以及 RoCE、本地 NVME 与并行文件存储支持,实现算力资源按应用、按需求随时匹配,自动切换

智能化算力调度与管理

AI 智算平台具备分布式调度与管理能力,能够自动分配和管理算力资源,大幅缩短任务执行时间,提高工作效率。这使得用户能够更加专注于业务创新和应用开发。

国产芯片异构支持

AI 智算平台能够统一纳管多种异构服务器、存储、安全等设备,提供多厂商的 GPU 统一管理分发,为上层不同的应用提供蓬勃算力。

智简运营 精细运维

通过统一平台实现资源规范化、可视化管理及高效运维,助力精确资源分配与标准化服务运营,并通过多维监控提升算力效率。

智能生态支撑应用

AI 智算平台提供开放的应用框架和模型服务,提供丰富的 AI 计算环境、集成行业内多家厂商生态应用,打造丰富的 SaaS 应用服务,助力用户全场景的 AI 业务实现落地。

产品架构

AI 智算平台是一款具备统一算力管理、多种 AIGC 模型一站式交付以及支持多种应用模式的强大算力产品,旨在提高资源利用率,简化部署流程,满足各类复杂任务需求。

产品能力

多区多业务资源整合
整合不同区域、业务、部门的 IT 资源,实现资源的高效利用和跨区域的灵活部署,提高了算力利用率和业务灵活性
分布式调度与管理
可自动分配和管理算力资源,优化算法和任务的调度效率,提高工作效率和任务完成率
多样异构算力支持
统一管理 NVIDIA GPU 及多类型 GPU、NPU 等资源,构建可灵活调度的算力池,满足业务需求。支持多样交付方案及 GPU 虚拟化技术,适应各类计算场景。
混合组网
灵活部署多种网络架构和拓扑结构,提供稳定可靠的网络环境,保障数据传输和任务运行的稳定性
一站式 AI 计算全流程服务
提供算法开发到模型部署全流程服务支持,内置常用工具镜像,集成主流深度学习框架及自定义镜像仓库
模型仓库能力
提供模型仓库(MaaS)和多种 AI 大模型一键部署交付,简化模型的管理和部署流程,提高模型应用的便捷性和效率

合作生态

案例实践

助力济南超算中心打造山河云服务模式

基于青云 AI 智算平台,济南超算中心实现算力的统一调度与运营,打造超算云服务模式。提高超算中心自身资源的利用率和运行效率,为超算中心用户提供更灵活和高效的计算服务。