#1071 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果,浪费算力

Closed
created 10 months ago by daishj · 2 comments
daishj commented 10 months ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 启智训练任务,因为节点资源存储不足,导致训练中断 ### 相关环境(GPU/NPU) GPU ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 训练 ### 任务名 wmt22_nolora_force2 ### 日志说明或问题截图 ![image](/attachments/25a5ce8d-ca27-4052-a77e-1cf662e84b58) ![image](/attachments/46974290-b5b8-4457-8b3e-76373b432d0d) ### 期望的解决方案或建议 定期检查节点资源存储情况,因为节点空间不足,推理好长时间的模型没办法保存结果 假如因为平台的问题导致训练任务失败,希望后续可以补偿算力积分 ![image](/attachments/1e662860-d884-4320-9d41-175a07c197fc) 推理好长时间的模型没办法保存结果 推理好长时间的模型没办法保存结果 推理好长时间的模型没办法保存结果 推理好长时间的模型没办法保存结果
daishj changed title from 启智训练任务,因为资源利用率低中断[其实平均10%左右] to 启智训练任务,节点存储不足【最近经常遇到】 10 months ago
daishj changed title from 启智训练任务,节点存储不足【最近经常遇到】 to 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果 10 months ago
daishj changed title from 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果 to 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果,浪费算力 10 months ago
liuzx commented 10 months ago
Collaborator
智算分中心的存储已接近用满,社区正在解决,可先使用启智集群资源
我一般会将训练好的权重保存到本地,然后删除训练任务,在自己的笔记本上做预测
liuzx closed this issue 6 months ago
Sign in to join this conversation.
No Milestone
No Assignees
3 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.