#1256 Pytorch云脑调试任务时,发生显存爆炸问题

Closed
created 1 month ago by clannad · 1 comments
clannad commented 1 month ago
<!-- 为了更有效地识别与解决您的问题,请尽可能的补充如下信息 --> ### 问题描述 在没有其他进程运行的情况下,安装项目训练所需的包"pip install scikit-learn einops tensorboardX Image torchvision tqdm",开始训练时,发生显存爆炸。 工作人员可以查看我在clannad / Siam-NestedUNet_2项目内,/tmp/code/Siam-NestedUNet/目录下存放的是项目代码,配置文件metadata.json的 "batch_size"的值已经从16改为4,但问题仍未解决 ### 相关环境(GPU/NPU) V100、A100 ### 相关集群(启智/智算) 无 ### 任务类型(调试/训练/推理) 调试 ### 任务名 A100任务名:ta_dis_a100 V100任务名:ta_dis ### 日志说明或问题截图 V100卡运行情况: ![14783efa167a33940d32a97150b2288](/attachments/22658135-850a-476d-aeeb-7fb61faade7f) A100卡运行情况: ![ddd0f0de6d5dc18d72d7fee8efa9bb3](/attachments/b765e2a8-9f1a-4786-9f09-88c0de76cf14) ,都一致的发生同样问题 ### 期望的解决方案或建议 如何解决显存爆炸问题,以及为什么会发生这样的问题,还有如何在出现问题后,寻找工作人员解决。
liuzx commented 3 weeks ago
Collaborator
尝试复现,发现现在是正常运行。 ![](http://)
liuzx closed this issue 5 days ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.