Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
启智训练任务,因为节点资源存储不足,导致训练中断
相关环境(GPU/NPU)
GPU
相关集群(启智/智算)
智算
任务类型(调试/训练/推理)
训练
任务名
wmt22_nolora_force2
日志说明或问题截图
期望的解决方案或建议
定期检查节点资源存储情况,因为节点空间不足,推理好长时间的模型没办法保存结果
假如因为平台的问题导致训练任务失败,希望后续可以补偿算力积分
推理好长时间的模型没办法保存结果
推理好长时间的模型没办法保存结果
推理好长时间的模型没办法保存结果
推理好长时间的模型没办法保存结果
启智训练任务,因为资源利用率低中断[其实平均10%左右]to 启智训练任务,节点存储不足【最近经常遇到】 10 months ago启智训练任务,节点存储不足【最近经常遇到】to 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果 10 months ago启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果to 启智训练任务,节点存储不足【最近经常遇到】,推理好长时间的模型没办法保存结果,浪费算力 10 months ago智算分中心的存储已接近用满,社区正在解决,可先使用启智集群资源
我一般会将训练好的权重保存到本地,然后删除训练任务,在自己的笔记本上做预测