#1182 运行mindspore官方测试代码导致的Ascend910存储占满无法正常使用问题反馈

Closed
created 5 months ago by CSCSX · 2 comments
CSCSX commented 5 months ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 该问题触发的起因是,本人想借助云脑功能训练一个小型的基于 mindspore 实现的项目,创建了调试环境之后,首先使用 npm-smi info 查看了 Ascend910 的使用情况,显示完全空闲,然后在 notebook 中运行了 mindspore 官网用于测试是否能够正常使用 Ascend 加速器的代码,代码如下。测试结果成功,但是再次使用 npu-smi info 查看加速卡使用情况时,发现加速卡存储被占满,而且报出了关于子进程的错误,所有必要的截图如下。 ### 相关环境(GPU/NPU) ![image](/attachments/98f9ac1a-f52f-42bb-a229-f8f052af7942) ### 相关集群(启智/智算) 如上图所示 ### 任务类型(调试/训练/推理) 调试任务 ### 任务名 cscsx202312051767989 ### 日志说明或问题截图 ![image](/attachments/477c768c-66c3-4c6e-92ec-22ba55f89245) ### 期望的解决方案或建议 本人认为自己的这几个操作都很合理,暂时不知道是启智平台还是mindspore2.0版本实现导致的这个问题,如果我关闭 notebook 实例重新打开,还是会看见这个被占满的卡,如果重建一个项目,就能用到一个新的闲置的卡,不知道我删除项目之后那个被占满的卡是否能够释放,希望官方在看到这条反馈之后能给个反馈,我的担忧是,被我占满的卡是否还能释放资源正常分配给其他任务进行使用,以及,导致这个问题的是不是启智的云脑平台的实现?
CSCSX closed this issue 5 months ago
CSCSX reopened this issue 5 months ago
liuzx commented 5 months ago
Collaborator
该问题已收到,需要进一步定位问题
liuzx commented 1 month ago
Collaborator
可重试下是否还有此问题
liuzx closed this issue 1 month ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.