网易数帆小助手

个人签名

225篇博客

网易有数机器学习平台批调度与k8s调度系统的深度解析

网易数帆小助手2021-08-09 17:40
近几年来,AI和大数据异常火热,伴随着AI经常出现的一个词就是机器学习平台,作为一个机器学习平台,平台提供训练所需要的硬件资源,平台支持使用tfjob分布式训练任务训练模型,由于平台部署在私有集群,所以集群内项目的资源是有限的,在项目初期,项目训练任务不多的时候,每个任务都能获取足够的资源进行训练。随着项目里的训练任务越来越多,逐渐暴露出了一些在任务调度上的问题: