常见FAQ,经验共享
hi,大家好,咱们开发者交流群越来越壮大,不少童鞋都有在群里就自己遇到的问题进行咨询,我们的攻城狮小哥哥小姐姐们也是积极响应和帮助解答,真是相亲相爱的一家呀~
为了更及时地帮助大家解决一些基本问题,本人特意整理好了群内交流内容,供大家参考~
智算网络相关问题
Q:智算网络V100是支持外网访问吗?
A:支持,具体可见平台资源说明
Q:智算集群如何使用的公开数据集?
A:可以参考示例(可以点击启动文件右侧的“查看示例”)
Q:智算网络可以选择自定义镜像吗?
A:目前智算网络只能使用公网镜像
Q:如果使用智算网络还需要下载数据集吗?
A:不需要,在训练任务直接选择数据集就可以,数据集和代码会放入容器内指定路径,训练脚本需要按照这个来
调试&训练任务相关问题
Q:云脑训练任务结果保存多长时间?
A:平台仅留存近 30 天的调试、训练、推理、评测任务结果;超过 30 天的任务将不能下载结果和查看日志,且不能再次调试或训练。
Q:训练任务如果需要安装别的第三方库应该怎么操作?
A:需要在调试环境安装好第三方库,提交成新的镜像,然后训练的时候,选择此镜像即可。
Q:NPU调试环境的硬盘空间有多大?
A:目前是100G。
Q:训练任务已结束,计算资源为CPU/GPU,状态为succeeded,但是为什么在模型页面还显示没创建过训练任务呢?
A:导入模型功能暂时只支持从NPU训练任务导入,这里的提示语需要改一下的,建议提Issue跟踪。
Q:若从CPU/GPU切换到NPU的训练任务,那对原来的pytorch代码改动大么?
A:视情况而定,NPU上目前支持的框架是MindSpore和TensorFlow。
Q:请问调试任务能正常运行,但训练任务总是failed是什么原因呢?
A:可以检查下是否填写了正确的启动文件,需要填写在代码仓的相对路径。另外,目前GPU训练的日志只支持在代码中print输出日志,系统报错不会打印出来。训练卡是A100,建议使用推荐镜像是cuda11以上的镜像进行调试后,再跑训练。
数据集&镜像相关问题
Q:上传训练任务对应的数据集有没有大小限制?
A:有限制,单次最多上传10个文件,每个不超过200G。
Q:上传20G以下数据集但每次都是传到99%显示传输失败应该如何处理?🌻
A:可以打开浏览器,点击F12,进入开发者模式,再上传一下文件看看console窗口上传进度提示,有时候页面看到99%失败,其实可能还没有传到最后。
Q:怎么在训练前安装好自己需要的包呢?
A:镜像大小限时20GB限制,如果平台没有符合的包,可以通过python脚本安装。
Q:平台是否有上多数据集的示例?
A:请参考教程
Q:在创建调试任务时,如果数据集分别在不同的文件夹,【新建任务】中的数据集部分如何处理呢?
A:可以将不同的文件夹打包到一个Zip包,或者选择多个Zip包,根据自己的需求,控制脚本。
Q:数据集过大被拆分成多个文件上传时,支持选中数据集内多个文件吗,或者说直接选中整个数据集?
A:训练任务支持多个数据集文件的已加入需求列表,近期会解决,可以提Issue跟踪。
Q:现在公开发布的镜像都哪些可适用于A100?标签或者镜像描述中没有写适用A100的某些镜像是否可用?
A:A100需要cuda11以上的版本,其他公开镜像如果满足要求,也可以用。基础镜像是【dockerhub.pcl.ac.cn:5000/user-images/openi:ssbai_torch1.9】,包含pytorch1.9,python3.8,cuda11.1
Q:有哪些适用于PyTorch进行训练的镜像?
A:要使用含有PyTorch的镜像训练的话,建议选择平台推荐的这个镜像dockerhub.pcl.ac.cn:5000/user-images/openi:cuda111_python37_pytorch191,PyTorch1.9也是兼容1.8的。
Q:保存镜像时,是将数据集、代码、以及生成的Model都打包在里头了吗?
A:不会,只是打包安装的一些软件,当使用镜像开训练任务时,实际上用的还是仓库内的代码。调试完代码记得push一下,这样训练的时候用的也是最新的代码了。
Q:数据集已经有了,为什么在“新建调试任务”中找不到呢?
A:请确认数据集是否为zip或tar.gz格式,只有zip/tar.gz格式的数据集才能发起云脑任务。
Q:平台上有基于ubuntu 18的镜像吗?是否支持创建基于自己操作系统的镜像?
A:暂时没有此镜像,支持使用自己的公开镜像仓库,可以创建一个试试。
Q:提交的镜像不能超过20G的问题怎么处理?
A:镜像超过20G时,可以通过直接输入公开镜像库的地址规避解决,在创建云脑任务选择镜像的时候,可以直接输入公开镜像库的地址。
MindSpore相关问题
Q:NPU选择MindSpore1.6的环境,Git命令为什么执行不了?
A:可能是这个镜像里没有安装Git,可以尝试1.5的环境。
Q:有没有mindspore的省显存的方法?
A:1. 重计算方法,请参考教程
- 梯度累积方法,请参考教程
Q:MindSpore并行处理有没有相关教程指导?
A:有的,C76环境教程请参考页面链接;支持GPU/NPU的C78环境教程请参考页面链接。配置环境和数据集构建教程请参考Mindspore官网教程。关于MindSpore的相关问题,可以去昇腾论坛查询和发帖求助。
Q:云上能否使用MindSpore1.6以上的版本?
A:目前调试和训练环境已支持到1.6版本,更高版本要自制镜像,欢迎到小白训练营提Issue跟踪。
Q:CPU转Ascend要改什么内容呢?
A:MindSpore对算子的支持,NPU>GPU>CPU,硬件不一样API可能有变化,可以去MindSpore官网看下版本API的信息, 或者参考下开源项目里相关API的使用,建议提一下Issue。
Q:跑分布式都是用MindSpore的model.train形式的api跑吗?有没有写成类似torch里面, for训练,每个epoch下,读取数据,输入网络,更新权重的形式的呢?
A:MindSpore有自动并行,可以参考教程
项目代码相关问题
Q:创建项目需要docker吗?
A:不需要,平台有相应的镜像还有数据集,收藏就可以直接用,代码可以直接上传,也可以从外部直接迁移项目。
Q:code目录上传文件有大小限制么?
A:是的,有大小限制,大文件不适合用git去做管理,后续平台支持多数据集选择时,就能解决这个问题了,欢迎提Issue跟踪。
Q:项目代码显示不全,如何修改或删除?
A:可以自己手动执行Git拉代码,即先把代码git clone到本地,修改或删除代码文件,然后再Push。
Q: 自动挂载的/userhome中的文件会不会被打包进镜像?
A:不会。
Q:/userhome这个目录是大家公用的?随便读写?
A:是的,这是个公共空间,所有人可见。
Q:请问训练任务能否读取到/userhome?
A:可以,但是不建议这么做,/userhome目录是所有人都能访问的,有读写权限,那里的数据不保证安全。
日志相关问题
Q:训练任务中的日志是不能实时显示么?刚开始训练时还能看到输出,后来就没有了 🌻
A:目前启智GPU需要在自己的代码里面print相关的信息才能被看到,日志文件需要自己输出到/model下才能在结果下载里面看到,等运行结束后显示。
Q:训练结束后,为什么下载的日志文件和页面显示的文件大小不一致?好像一直是第一次下载的内容
A:log.txt记录的是训练脚本中的输出,如果没有输出那就没有变化。另,下载同名文件,浏览器会使用缓存,请及时清理浏览器缓存。