青云 AI 算力调度平台
算力中心建设的新模式,像管理本地资源一样管理 AI 基础设施,对 AI 算力进行动态监控调整,以满足不同业务的需求,提高 AI 算力的整体使用效率和管理效率。

面临的挑战

多元资源统一平台管理瓶颈

GPU 算力、高性能计算(HPC)算力、多存储系统、模型资源以及数据资源的管理极具挑战性

高速网络瓶颈

面对数百甚至数千张 GPU 卡的同时运行,网络带宽的性能问题逐渐浮现,成为阻碍计算效率的一大难题

环境搭建繁琐

在处理大型语言模型、影视渲染、图片处理、药物研发等任务时,环境搭建的复杂性往往令人望而却步,需要投入大量的时间和精力

多业务整合瓶颈

在跨平台应用场景下,如 AI 推理平台、AI 训练平台、科学计算平台、容器计算平台难以整合

缺乏运营服务

在面向多租户的运营服务方面存在缺失,导致无法实现从计量、计费到客户服务的全业务运营流程,这无疑对业务的发展带来了阻碍

产品优势

提供多元算力统一调度

AI 算力调度平台能够对多种算力平台,如通用云计算平台、容器平台、高性能计算平台、AI 智算等进行统一调度管理,实现算力平台的自动切换,让算力资源得到高效利用。

智能化算力调度与管理

AI 算力调度平台具备分布式调度与管理能力,能够自动分配和管理算力资源,大幅缩短任务执行时间,提高工作效率。这使得用户能够更加专注于业务创新和应用开发。

芯片国产替代

AI 算力调度平台能够统一纳管多种异构服务器、存储、安全等设备,包括国产芯片,提供全栈信创云计算能力,为上层应用提供强大的算力支持。

智简运营运维

通过统一的运营和运维管理平台,AI 算力调度平台能够实现多种服务场景的运营化服务,同时进行规范化、高效的运维,帮助用户实现精细化运营。

建设智能生态打造丰富应用

AI 算力调度平台提供开放的应用框架和模型服务,支持丰富的云原生、边缘、AI 等应用,打造丰富的 PaaS、SaaS 应用生态,助力用户快速搭建业务场景的落地。

产品架构

AI 算力调度平台是一款具备统一算力管理、多种 AIGC 模型一站式交付以及支持多种应用模式的强大算力产品,旨在提高资源利用率,简化部署流程,满足各类复杂任务需求。

产品能力

多区多业务资源整合
整合不同区域、业务、部门的资源,实现资源的高效利用和跨区域的灵活部署,提高了算力利用率和业务灵活性
分布式调度与管理
可自动分配和管理算力资源,优化算法和任务的调度效率,提高工作效率和任务完成率
资源调度
支持 GPU、k8s、slurm 资源调度,能够满足高性能计算和大规模数据处理的需求,提供强大的计算能力和加速运算速度
混合组网
灵活部署多种网络架构和拓扑结构,提供稳定可靠的网络环境,保障数据传输和任务运行的稳定性
算法开发支持
通过提供算法开发、部署调试、代码管理、多种算力支持等,帮助客户高效地开发、部署和管理算法
AI 训练
支持各种算法和模型的训练任务,提供全面的模型训练、调试和优化功能,助力用户实现高质量的模型训练结果
容器推理服务平台
一键部署Kubernetes 集群,轻松高效地在运行 Kubernetes 容器推理环境,支持可视化界面、多集群管理、自动伸缩、运维监控、CI/CD 等
模型仓库 (MaaS)
提供模型仓库(MaaS)和一键部署交付,简化模型的管理和部署流程,提高模型应用的便捷性和效率
高速并行存储
支持 AIGC 数据存储场景,满足大规模数据的高效存储和访问需求,提升数据处理速度

合作生态

案例实践

助力济南超算中心打造山河云服务模式

基于青云 AI 算力调度平台,济南超算中心实现算力的统一调度与运营,打造超算云服务模式。提高超算中心自身资源的利用率和运行效率,为超算中心用户提供更灵活和高效的计算服务。