Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
训练任务可以正常进行,但是内存占用很大,解压完数据集开始训练后就一直增长,最后稳定于80-90%,经过代码排查并无内存泄漏或者变量未释放错误,且NPU util利用率3%,始终无法得到提升,修改过代码未见效果,跑一个epoch需要17个小时,甚至不如使用CPU设备运行的快
相关环境(GPU/NPU)
NPU
相关集群(启智/智算)
智算
任务类型(调试/训练/推理)
训练
任务名
relic202310091537829
日志说明或问题截图
如下图
期望的解决方案或建议
希望能给出解决方案,或者出现问题的原因分析
因为节点的存储是共用的,这个分中心的存储每个节点是4T,每个节点有8卡,若是有其他任务使用的数据集较大导致占用这个节点的存储较多,其他任务就会受影响,最后任务会因存储不够强制退出。
我在相同时间内只创建了那一个训练任务,请问这样也会导致节点存储占用较多吗,还有想问一下NPU AIcore占用率始终不超过3%是什么原因
因为我看别的选手的内存占用率和NPU利用率都没有这么异常,可是我检查了代码没问题,用cpu跑的也比NPU快很多
只有一个任务也会被影响到,有些任务会选上T的数据集,会影响到其他任务。这种情况在10.10号后已较少见,你重建试试。NPU AIcore占用率始终不超过3%,这种一般是代码问题,别的选手也是用的同个资源池。
同个节点的存储是8个卡的任务共用的,也就是你说的是选手之间公用的
重建任务而非修改任务是吗,就是切换别的存储节点
还有想问一下,如果我的模型较为简单,层数较少,会不会导致NPU AIcore占用率低下,还是说是代码设计的逻辑层面的问题呢
NPU AIcore占用率这类问题建议咨询mindspore官方哦
该issue将关闭,若有问题请重启issue。