#1153 训练任务可以正常进行,但是内存占用很大,且NPU util利用率3%

Closed
created 6 months ago by relic · 10 comments
relic commented 6 months ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 训练任务可以正常进行,但是内存占用很大,解压完数据集开始训练后就一直增长,最后稳定于80-90%,经过代码排查并无内存泄漏或者变量未释放错误,且NPU util利用率3%,始终无法得到提升,修改过代码未见效果,跑一个epoch需要17个小时,甚至不如使用CPU设备运行的快 ### 相关环境(GPU/NPU) NPU ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 训练 ### 任务名 relic202310091537829 ### 日志说明或问题截图 如下图 ### 期望的解决方案或建议 希望能给出解决方案,或者出现问题的原因分析
liuzx commented 6 months ago
Collaborator
因为节点的存储是共用的,这个分中心的存储每个节点是4T,每个节点有8卡,若是有其他任务使用的数据集较大导致占用这个节点的存储较多,其他任务就会受影响,最后任务会因存储不够强制退出。
relic commented 6 months ago
Poster
我在相同时间内只创建了那一个训练任务,请问这样也会导致节点存储占用较多吗,还有想问一下NPU AIcore占用率始终不超过3%是什么原因
relic commented 6 months ago
Poster
因为我看别的选手的内存占用率和NPU利用率都没有这么异常,可是我检查了代码没问题,用cpu跑的也比NPU快很多
relic commented 6 months ago
Poster
> 因为节点的存储是共用的,这个分中心的存储每个节点是4T,每个节点有8卡,若是有其他任务使用的数据集较大导致占用这个节点的存储较多,其他任务就会受影响,最后任务会因存储不够强制退出。 这个意思是说节点的存储是选手之间公用的吗,还是单个比赛选手的不同任务之间公用的呢
liuzx commented 6 months ago
Collaborator
只有一个任务也会被影响到,有些任务会选上T的数据集,会影响到其他任务。这种情况在10.10号后已较少见,你重建试试。NPU AIcore占用率始终不超过3%,这种一般是代码问题,别的选手也是用的同个资源池。
liuzx commented 6 months ago
Collaborator
> > 因为节点的存储是共用的,这个分中心的存储每个节点是4T,每个节点有8卡,若是有其他任务使用的数据集较大导致占用这个节点的存储较多,其他任务就会受影响,最后任务会因存储不够强制退出。 > 这个意思是说节点的存储是选手之间公用的吗,还是单个比赛选手的不同任务之间公用的呢 > 同个节点的存储是8个卡的任务共用的,也就是你说的是选手之间公用的
relic commented 6 months ago
Poster
重建任务而非修改任务是吗,就是切换别的存储节点
relic commented 6 months ago
Poster
还有想问一下,如果我的模型较为简单,层数较少,会不会导致NPU AIcore占用率低下,还是说是代码设计的逻辑层面的问题呢
liuzx commented 6 months ago
Collaborator
NPU AIcore占用率这类问题建议咨询mindspore官方哦
liuzx commented 6 months ago
Collaborator
该issue将关闭,若有问题请重启issue。
liuzx closed this issue 6 months ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.