liwenlong
正在加载热图...

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

  • b3a3b876f9 schnet图表数据量更改;X轴最多展示到1
  • 98c6f4d5ae 选择'机器学习原子势'后,提交任务时可以不用选择视觉算法库;schnet任务数据集修改
  • 比较 2 提交 »

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

3 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

  • b96343ca42 调整提交任务按钮样式;所有选项全部选中后,提交按钮才可用

4 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

  • 02272912a7 调整内容顺序,选中后再次点击取消选择

4 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

4 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

  • 2277527c28 调整概览页面格式,更改运行任务参数;

4 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

4 周前

liwenlong 推送了 npu-train 分支的代码到 openioctopus/octopus

1 个月前

liwenlong 评论了任务 OpenI/octopus#520

用户GPU等使用资源限制

### 管理端-资源管理模块 1.增加“用户资源配额”子页面: 1)“添加资源配额”:设置具体配额信息; 2)“编辑”:可修改GPU、CPU、内存等信息,可添加或删除用户,可远程搜索用户; 3)“删除”:删除资源配额中的资源配置及用户; 如图所示: ![image](/attachments/486bdfe4-0d41-487e-910d-973d2f299e5f) ### 用户端-概览模块 1.增加“资源配额”页面:展示用户可使用“资源上限”及“已用资源”信息,如图所示: ![image](/attachments/09c2898f-edd7-4151-aaa7-bdf68705b76a) ### 用户端-模型开发模块及训练管理模块 1.创建任务时,校验资源配额,如果用户资源超限,则不能提交任务,并提示用户相关资源信息,如图所示: ![image](/attachments/d27a435b-da6d-42fd-9bbd-fa8774f40f67) ![image](/attachments/e207e558-07b8-4f28-ac9d-e600709d4daf)

2 个月前

liwenlong 评论了任务 OpenI/octopus#548

英伟达GPU拓扑感知调度

调研腾讯、阿里、字节跳动等公司在GPU拓扑感知方面的工作后,初步确定四种方案,分别是:Koordinator 开源云原生混部项目、KubeDLPro组件、KubeDLPro组件、Blink。 进一步研究后,排除 Koordinator 开源云原生混部项目,以下是各种方案的说明: # **KubeDLPro** **1.介绍**:通过通信、计算、资源调度以及整套的监控相应的优化,解决上下两层之间,去弥合计算任务特性以及跟底层硬件相关间隙的问题 **2.与GPU拓扑调度相关的方面**:KubeDLPro 上面实现的一个能力,叫拓扑感知调度,会优先选择NVLINK进行通信 **3.可能存在的问题**: 1)KubeDLPro集成在云原生深度学习平台DLC架构中,是根据其中KubeDL组件发展而来,在KubeDL基础上,改动了Scheduler Framework中的Scheduler以及在Enhanced整个的NVIDIA Device Plugin,未查到这些改动的相关代码,可能要自己重新开发 **4.其他说明**:KubeDLPro无github或官方网站,目前只有KubeDL相关信息: **5.相关资料**: KubeDL github地址:https://github.com/kubedl-io/kubedl KubeDL官网网址:https://kubedl.io/docs/intro DLC架构、KubeDL以及KubeDLPro介绍:https://developer.aliyun.com/article/780406 # **GPU Manager** **1.介绍**:GPU Manager 提供一个 All-in-One 的 GPU 管理器,基于 Kubernetes DevicePlugin 插件系统实现,该管理器提供了分配并共享 GPU、GPU 指标查询、容器运行前的 GPU 相关设备准备等功能,支持用户在 Kubernetes 集群中使用 GPU 设备。 **2.与GPU拓扑调度相关的方面**:GPU Manager的有三个主要组件功能,“拓扑分配”、“GPU共享”、“应用GPU指标的查询”,其中“拓扑分配”可以提供基于GPU拓扑分配功能,用户分配超过1张GPU卡的应用,可以选择拓扑连接最快的方式分配GPU设备。实现GPU拓扑感知的是gpu-manager-daemonset,一个标准的k8s device plugin **3.可能存在的问题**: 1)GPU Manager的定位与目前使用的volcano调度器存在冲突,如图: ![image](/attachments/9a352081-70b6-4c24-a558-461e6b4d5af2) **4.相关资料**: github地址:https://github.com/tkestack/gpu-manager 官方文档:https://cloud.tencent.com/document/product/457/39052 GPU Manager功能的具体说明:https://cloud.tencent.com/developer/article/1685122 # **Blink** **1.介绍**:由微软研究院 (Microsoft Research),加州大学伯克利分校 (UC Berkeley),以及威斯康星大学麦迪逊分校 (University of Wisconsin-Madison) 的研究团队共同推出,在任意网络结构下,实现最优解的 GPU 间通信库 Blink。 **2.与GPU拓扑调度相关的方面**:首先,对于由于机器版本不同,或被分配在单个机器内的 GPU 间任意拓扑结构的情况,Blink 打破了传统的 GPU 间环状(ring)通信通道的构建协议,提出了使用生成树(spanning tree)的通信通道构建协议。相比于环状通信通道,生成树通信通道可以更好的利用所有的网络链接线路(例如:图 2(b),4(c)所示)。其次,针对异构通信线路(如 NVLink 和 PCIe),Blink 可以根据线路的带宽不同,调整在其上传输数据的比例划分,从而充分利用异构通信线路(例如图 2(a))。最后,Blink 提供了与 NCCL 一致的 API,所以可以直接无缝应用于流行的机器学习平台上,如 TensorFlow、Pytorch 等。 **3.可能存在的问题**: 1)未查到Blink与kubernetes结合的相关信息,可能需要自己开发; **4.相关资料**: 论文地址:https://arxiv.org/abs/1910.04940 详情介绍:https://www.infoq.cn/article/8N5rWvUSR1W6ss4AtgXi # **废弃方案:Koordinator 开源云原生混部项目** **1.介绍**:Koordinator 是完全基于 Kubernetes 标准能力扩展而来,致力于解决多样工作负载混部在一个集群、节点场景下的调度、运行时性能以及稳定性挑战。项目包含了混合工作负载编排的一套完整解决方案,包括精细化资源调度、任务调度、差异化 SLO 三大块。 有两个“零侵入”特性:第一,对应用的工作负载管理零侵入,第二,对kubernetes没有侵入,完全兼容上游标准的kubernetes,无需做任何侵入式修改 **2.与GPU拓扑调度相关的方面**:包含三个核心能力,“差异化SLO保障”、“资源精细化调度”、“任务调度”,其中“资源精细化调度”:包括 CPU、GPU 拓扑感知、资源预留、交互式抢占、碎片整理、资源画像、热点打散等精细调度能力; **3.废弃原因**: 经查阅资料,该功能尚未实现,“精细化 GPU 调度是我们未来期望提供的一种能力”,原文见:https://blog.csdn.net/alisystemsoftware/article/details/125432519 **4.相关资料**: github地址:https://github.com/koordinator-sh/koordinator 官方文档:https://koordinator.sh/

2 个月前

liwenlong 推送了 master 分支的代码到 openioctopus/octopus

2 个月前

liwenlong 创建了合并请求 OpenI/octopus#546

清除数据集后,数据集版本仍可选择bug修复

2 个月前

liwenlong 推送了 master 分支的代码到 openioctopus/octopus

2 个月前

liwenlong 创建了合并请求 OpenI/octopus#545

master

2 个月前