#1093 任务的日志,没有显示相关训练失败原因,需要定位下是什么问题

Closed
created 9 months ago by liuzx · 5 comments
liuzx commented 9 months ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 昇腾重庆智算,npu训练任务,云脑端任务名gaoya202306202375867,gaoya202307011494499,训练失败,这两个任务的日志,没有显示相关训练失败原因,需要定位下是什么问题 ### 相关环境(GPU/NPU) NPU ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 训练 ### 任务名 任务名gaoya202306202375867,gaoya202307011494499 ### 日志说明或问题截图 ![b720a8aac1c8ac2a6c61a98b87103ed]() ### 期望的解决方案或建议 定位到问题
liuzx added the
bug
label 9 months ago
我也遇到过这种情况,训练失败,日志里没有提示信息
最近训练也出现过训练失败,但是日志不显示失败原因,很麻烦,要一点点看代码
liuzx commented 9 months ago
Poster
gaoya202307011494499这个任务是由于7月12号昇腾重庆智算整体下线,导致任务被强制停止
liuzx commented 9 months ago
Poster
gaoya202307011494499这个任务失败,分中心回复是由于分中心升级导致的。
刚遇到新建调试任务后,点击调试,在lab中显示Directory not found错误
liuzx removed the
bug
label 9 months ago
liuzx closed this issue 6 months ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.