Deleting a branch is permanent. It CANNOT be undone. Continue?
Deleting a branch is permanent. It CANNOT be undone. Continue?
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》
问题描述
目前调试状态,GPU/NPU/CPU使用率,和显存/内存使用率,需要在Console中使用 >! nvidia-smi命令等方式查看,且在运行状态响应卡顿,相对不方便。
这些参数对于程序训练效率或资源利用率优化较为关键。
建议参考Google Colab或Kaggle的界面,增加这些项目的信息历史图表查看功能.
相关环境(GPU/NPU)
GPU/NPU
相关集群(启智/智算)
启智/智算
任务类型(调试/训练/推理)
调试
任务名
日志说明或问题截图
当前,Jupter终端虽然也有状态栏,但是只能显示是否运行即busy或idle,且不一定准确:
目前的Jupter终端状态栏,notebook运行一段时间后,即出现Connecting等待一段时间,然后变为idle。
notebook输出,有时也会停止更新,有时正常显示。
但是,保存在/model的日志文件仍然可以更新。
在另一个console窗口命令查看GPU和CPU仍然在工作。
这应该是网络偶尔不稳定导致的重新连接,但是重连后即无法正确显示当前core的状态了
Connecting:
idle:
期望的解决方案或建议
建议参考Google Colab或Kaggle的界面,增加以下项目的信息历史图表查看功能.
GPU/NPU/CPU使用率
显存/内存使用率这些
硬盘使用率
kaggle界面
Google Colab界面
【建议】在调试界面中加入GPU/NPU/CPU使用率,和显存/内存使用率和历史图标(参考Colab)。to 【建议】在调试界面中加入GPU/NPU/CPU使用率,和显存/内存使用率和历史图标(参考Colab) 1 year ago对,我也希望有这个功能
关于训练任务的类似需求,在详情页增加GPU使用率:
OpenI/aiforge#2324
这个功能有可能做吗?
其实可以另外加装一个包:nvitop包,就可以在命令行动态监控了
谢谢,nvitop包看上去不错