近日,北京趋动科技有限公司(以下简称“趋动科技”)与深信服正式推出联合解决方案。联合解决方案将深信服EDS的高性能存储与趋动科技OrionX AI算力资源池化软件、以及Gemini AI训练平台有机结合,整合存力与算力资源的同时,帮助用户建好AI平台、管好AI资源、用好AI服务。
具体来说,联合解决方案的推出将为AI领域用户的基础设施建设带来以下改变。
高性能联合方案就绪
打造更高效的训练平台
随着AI大模型建设进度的加快,用户对AI模型训练效率的要求也越来越高。但由于GPU算力资源不足和底层存储小文件读写性能不足等问题,训练平台内大量的训练任务不得不排队等待。算力和存力上的能力缺失,拖慢了整个AI训练平台的训练效率。
针对此种情况,联合解决方案自上而下做了全面优化。针对上层训练平台的效率问题,趋动科技OrionX AI算力资源池化软件通过打造算力资源池,帮助用户根据任务情况灵活分配GPU资源,实现资源的切分、聚合、远程调用、超分、任务排队、动态挂载和释放、以及国产芯片异构池化等能力,充分满足各项训练任务的算力开销,加速任务开展。同时,Gemini AI训练平台提供的调度能力优化了训练平台的管理机制,统一调度下,AI模型的训练更加高效。
针对底层存储的性能问题,通过EDS自研的启发式预读机制和多活元数据服务,可有效解决小文件性能难题,百亿数据集规模下也可提供高速的读写能力,从而减少GPU的等待时间,提高短期循环训练的吞吐能力和训练效率。
方案全景图
容量与性能同步扩展
打造高性价比的存储方案
在日常的AI数据集训练过程中,为了让模型更加精准,常常需要用海量的图像、文本等数据对AI模型进行训练。飞速增长的数据给底层存储的容量和性能带来了巨大的压力,传统存储高成本、低效率的扩容模式愈发难以满足性能和容量的需求。
凭借矩阵式存储算法等全自研技术,EDS在存储图文、视频等小文件的过程中,可有效解决小文件写放大导致的空间浪费问题,最大化利用存储空间,三节点组成的集群即可满足一个中等规模的AI训练团队的存储需求。在性能的扩容方面,也得益于软件定义存储的架构优势,EDS在进行扩容时可实现容量与性能地同步扩展,灵活应对AI业务快速增长的性能需求。
统一管理
深度挖掘数据价值
在方案发布前,EDS已经通过NFS CSI、S3等协议与趋动科技的Gemini AI训练平台实现了无缝对接。深度适配下,Kubernetes容器编排平台可更快完成存储资源的动态分配,用户在部署时可直接跳过针对方案的可行性研究环节,快速上线AI训练任务。同时,EDS还支持多协议间的数据互通,多类型客户端可共用一套存储,各阶段成果数据无须跨存储拷贝即可实现高效流转,确保用户在任何训练阶段都可有效调用数据成果,更便捷地挖掘数据价值。
未来,双方还将在技术领域加强合作,以更高存储性能的联合方案助力用户加速完成AI训练平台的升级建设,帮助更多用户在AI训练的道路上走得更快更稳。
关于趋动科技:趋动科技致力于为用户提供全球领先的数据中心级AI算力虚拟化和资源池化解决方案,目前已有多家人工智能、互联网、运营商、金融、汽车及自动驾驶、教育等行业的头部企业和用户使用OrionX AI算力资源池化解决方案。