#1167 【智算平台npu】使用mindspore_2.1.0镜像,训练任务一直显示waiting,不知道原因

Closed
created 6 months ago by NoColorZheng · 4 comments
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 使用mindspore_2.1.0-cann_6.3.2-py_3.7-euler_2.10.7-aarch64-d910b-train镜像,训练任务一直显示waiting,先前这个项目创建的训练任务会卡在waiting状态下1个小时。 ### 相关环境(GPU/NPU) NPU ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 训练 ### 任务名 nocol202310251934125 ### 日志说明或问题截图 ![image](/attachments/c05b3615-69fb-4381-8e62-015646d4e0a0) ### 期望的解决方案或建议 本想使用mindspore1.10.0版本镜像,但是项目中要去继承train.Metric,1.10.0版本镜像会报错,才尝试用2.1.0版本
wangj commented 6 months ago
Owner
看上去是镜像选了910b、规格没选910b导致的(https://openi.pcl.ac.cn/OpenI/aiforge/issues/4772 将会优化这块)。可以重新创建任务,镜像、规格都选910b试试。 另外,运行参数multi_data_url不需要自己添加,界面上选择数据集文件即可。
NoColorZheng commented 6 months ago
Poster
问题解决了,就是镜像与规格不匹配的问题
NoColorZheng commented 6 months ago
Poster
又出现新的问题了,我使用相应的镜像规格进行训练,显示: ![image](/attachments/c5920fda-37cf-4bd7-9c76-2365984a35d1) 这个问题没有遇到过,是我写的代码的问题吗?最新的任务名:nocol202310261918278
liuzx commented 5 months ago
Collaborator
代码问题。此issue将关闭,有问题请重提issue
liuzx closed this issue 5 months ago
Sign in to join this conversation.
No Milestone
No Assignees
3 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.