Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
该问题触发的起因是,本人想借助云脑功能训练一个小型的基于 mindspore 实现的项目,创建了调试环境之后,首先使用 npm-smi info 查看了 Ascend910 的使用情况,显示完全空闲,然后在 notebook 中运行了 mindspore 官网用于测试是否能够正常使用 Ascend 加速器的代码,代码如下。测试结果成功,但是再次使用 npu-smi info 查看加速卡使用情况时,发现加速卡存储被占满,而且报出了关于子进程的错误,所有必要的截图如下。
相关环境(GPU/NPU)
相关集群(启智/智算)
如上图所示
任务类型(调试/训练/推理)
调试任务
任务名
cscsx202312051767989
日志说明或问题截图
期望的解决方案或建议
本人认为自己的这几个操作都很合理,暂时不知道是启智平台还是mindspore2.0版本实现导致的这个问题,如果我关闭 notebook 实例重新打开,还是会看见这个被占满的卡,如果重建一个项目,就能用到一个新的闲置的卡,不知道我删除项目之后那个被占满的卡是否能够释放,希望官方在看到这条反馈之后能给个反馈,我的担忧是,被我占满的卡是否还能释放资源正常分配给其他任务进行使用,以及,导致这个问题的是不是启智的云脑平台的实现?
该问题已收到,需要进一步定位问题
可重试下是否还有此问题