常见FAQ,经验共享
hi,大家好,咱们开发者交流群越来越壮大,不少童鞋都有在群里就自己遇到的问题进行咨询,我们的攻城狮小哥哥小姐姐们也是积极响应和帮助解答,真是相亲相爱的一家呀~
为了更及时地帮助大家解决一些基本问题,本人特意整理好了群内交流内容,供大家参考~
调试&训练任务相关问题
Q:NPU调试环境的硬盘空间有多大?
A:目前是100G。
Q:训练任务已结束,计算资源为CPU/GPU,状态为succeeded,但是为什么在模型页面还显示没创建过训练任务呢?
A:导入模型功能暂时只支持从NPU训练任务导入,这里的提示语需要改一下的,建议提Issue跟踪。
Q:若从CPU/GPU切换到NPU的训练任务,那对原来的pytorch代码改动大么?
A:视情况而定,NPU上目前支持的框架是MindSpore和TensorFlow。
Q:请问调试任务能正常运行,但训练任务总是failed是什么原因呢?
A:可以检查下是否填写了正确的启动文件,需要填写在代码仓的相对路径。另外,目前GPU训练的日志只支持在代码中print输出日志,系统报错不会打印出来。训练卡是A100,建议使用推荐镜像是cuda11以上的镜像进行调试后,再跑训练。
数据集&镜像相关问题
Q:上传训练任务对应的数据集有没有大小限制?
A:有限制,单次最多上传10个文件,每个不超过200G。
Q:在创建调试任务时,如果数据集分别在不同的文件夹,【新建任务】中的数据集部分如何处理呢?
A:可以将不同的文件夹打包到一个Zip包,或者选择多个Zip包,根据自己的需求,控制脚本。
Q:现在公开发布的镜像都哪些可适用于A100?标签或者镜像描述中没有写适用A100的某些镜像是否可用?
A:A100需要cuda11以上的版本,其他公开镜像如果满足要求,也可以用。基础镜像是【dockerhub.pcl.ac.cn:5000/user-images/openi:ssbai_torch1.9】,包含pytorch1.9,python3.8,cuda11.1
Q:有哪些适用于PyTorch进行训练的镜像?
A:要使用含有PyTorch的镜像训练的话,建议选择平台推荐的这个镜像dockerhub.pcl.ac.cn:5000/user-images/openi:cuda111_python37_pytorch191,PyTorch1.9也是兼容1.8的。
Q:保存镜像时,是将数据集、代码、以及生成的Model都打包在里头了吗?
A:不会,只是打包安装的一些软件,当使用镜像开训练任务时,实际上用的还是仓库内的代码。调试完代码记得push一下,这样训练的时候用的也是最新的代码了。
Q:数据集已经有了,为什么在“新建调试任务”中找不到呢?
A:请确认数据集是否为ZIP格式,只有上传ZIP格式的数据集才能发起云脑任务。
MindSpore相关问题
Q:NPU选择MindSpore1.6的环境,Git命令为什么执行不了?
A:可能是这个镜像里没有安装Git,可以尝试1.5的环境。
Q:MindSpore并行处理有没有相关教程指导?
A:有的,C76环境教程请参考页面链接;支持GPU/NPU的C78环境教程请参考页面链接。配置环境和数据集构建教程请参考Mindspore官网教程。关于MindSpore的相关问题,可以去昇腾论坛查询和发帖求助。
Q:云上能否使用MindSpore1.6以上的版本?
A:目前调试环境支持到1.6版本,训练环境只支持到1.5版本,更高版本要自制镜像,欢迎到小白训练营提Issue跟踪。
Q:CPU转Ascend要改什么内容呢?
A:MindSpore对算子的支持,NPU>GPU>CPU,硬件不一样API可能有变化,可以去MindSpore官网看下版本API的信息, 或者参考下开源项目里相关API的使用,建议提一下Issue。
Q:跑分布式都是用MindSpore的model.train形式的api跑吗?有没有写成类似torch里面, for训练,每个epoch下,读取数据,输入网络,更新权重的形式的呢?
A:MindSpore有自动并行,可以参考教程
项目代码相关问题
Q:code目录上传文件有大小限制么?
A:是的,有大小限制,大文件不适合用git去做管理,后续平台支持多数据集选择时,就能解决这个问题了,欢迎提Issue跟踪。
Q:项目代码显示不全,如何修改或删除?
A:可以自己手动执行Git拉代码,即先把代码git clone到本地,修改或删除代码文件,然后再Push。
Q: 自动挂载的/userhome中的文件会不会被打包进镜像?
A:不会。
Q:/userhome这个目录是大家公用的?随便读写?
A:是的,这是个公共空间,所有人可见。
Q:请问训练任务能否读取到/userhome?
A:可以,但是不建议这么做,/userhome目录是所有人都能访问的,有读写权限,那里的数据不保证安全。
Q:训练结束后,为什么下载的日志文件和页面显示的文件大小不一致?好像一直是第一次下载的内容
A:log.txt记录的是训练脚本中的输出,如果没有输出那就没有变化。另,下载同名文件,浏览器会使用缓存,请及时清理浏览器缓存。