#1056 硬盘空间不足(不应该发生的问题)

Closed
created 11 months ago by edwardyehuang · 1 comments
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 我每次只保留最新的checkpoint,但已经遇到了2次因磁盘空间不足,无法继续训练的情况。 注意,这2次问题都发生在训练最中间,假设总共保存180次,已经成功保存/替换了89次,第90次磁盘空间不足。 这个问题在次2次发生之前,从未出现过,即便对应的checkpoint大得多。 ### 相关环境(GPU/NPU) GPU v100 × 8 ### 相关集群(启智/智算) 智算 ### 任务类型(调试/训练/推理) 训练 ### 任务名 edwar202305111486064 edwar202305010801819 ### 日志说明或问题截图 ### 期望的解决方案或建议 系统资源选项卡目前有 CPU负载、GPU显存、GPU负载。建议增加硬盘空间。 同时,硬盘空间不足问题也需要排查。
liuzx commented 11 months ago
Collaborator
磁盘空间非一个人独享使用,多人使用时可能会出现空间不够。
liuzx closed this issue 11 months ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.