Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
智算 NPU 训练过程中出现无名报错,结果文件也一直加载不了
level=error msg="the value -1 of the variable training-return-code is invalid, error: the range of Linux return code is between 0~255" file="cli.go:60"
相关环境(GPU/NPU)
NPU
相关集群(启智/智算)
智算
任务类型(调试/训练/推理)
训练
任务名
lld20202307141521157
日志说明或问题截图
期望的解决方案或建议
请问问题解决了吗
还没有,初步怀疑是日志文件过大导致,我已经降低日志频率,等到今天下午5点就应该知道结果
已经训练两次,都是在8个多小时的时间上报同一的错误
该任务已被删除,请问是已经解决问题了吗?若已被解决,麻烦在这个isuue回复下是如何解决的,对之后使用的人提供经验,谢谢。
未解决,训练3次,都是在8个多小时的时候,无名错误退出
我不小心删除了任务,但错误是可以重现的
我重跑训练后,如果再出现错误,我会把任务号,再贴出来
请问问题有出现过吗
每次都出现,lld20202307191449657这个任务是昨天失败的
发现是内存泄露问题,我这两天抽时间在调试环境分析一下内存,看一下我们的代码是否存在内存泄露的问题
训练环境训练时,内存线性上升,我把代码同步到调试环境,调试环境的内存没有变化。可帮忙再训练环境检查一下这个内存泄露的问题吗?
任务号:lld20202307191449657
可以帮忙看看这个内存泄露的问题吗?
抱歉啊,我目前还没有出现过类似问题,我以为已经解决了,准备过来看看解决办法是什么
内存泄露问题解决了,但确切原因未明,但应该和mindnlp._legacy.amp.auto_mixed_precision函数有关
应该属于 mindnlp 的 bug
https://openi.pcl.ac.cn/attachments/2b628ffe-aadd-4576-8aeb-319ff2862f20?type=0