关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

8.9 KiB

Raw Permalink Blame History

常见FAQ，经验共享

常见FAQ，经验共享

hi，大家好，咱们开发者交流群越来越壮大，不少童鞋都有在群里就自己遇到的问题进行咨询，我们的攻城狮小哥哥小姐姐们也是积极响应和帮助解答，真是相亲相爱的一家呀~

为了更及时地帮助大家解决一些基本问题，本人特意整理好了群内交流内容，供大家参考~

智算网络相关问题

Q：智算网络V100是支持外网访问吗？

A：支持，具体可见平台资源说明

Q：智算集群如何使用的公开数据集？

A：可以参考示例（可以点击启动文件右侧的“查看示例”）

Q：智算网络可以选择自定义镜像吗？

A：目前智算网络只能使用公网镜像

Q：如果使用智算网络还需要下载数据集吗？

A：不需要，在训练任务直接选择数据集就可以，数据集和代码会放入容器内指定路径，训练脚本需要按照这个来

调试&训练任务相关问题

Q：云脑训练任务结果保存多长时间？

A：平台仅留存近 30 天的调试、训练、推理、评测任务结果；超过 30 天的任务将不能下载结果和查看日志，且不能再次调试或训练。

Q：训练任务如果需要安装别的第三方库应该怎么操作？

A：需要在调试环境安装好第三方库，提交成新的镜像，然后训练的时候，选择此镜像即可。

Q：NPU调试环境的硬盘空间有多大？

A：目前是100G。

Q：训练任务已结束，计算资源为CPU/GPU，状态为succeeded，但是为什么在模型页面还显示没创建过训练任务呢？

A：导入模型功能暂时只支持从NPU训练任务导入，这里的提示语需要改一下的，建议提Issue跟踪。

Q：若从CPU/GPU切换到NPU的训练任务，那对原来的pytorch代码改动大么？

A：视情况而定，NPU上目前支持的框架是MindSpore和TensorFlow。

Q：请问调试任务能正常运行，但训练任务总是failed是什么原因呢？

A：可以检查下是否填写了正确的启动文件，需要填写在代码仓的相对路径。另外，目前GPU训练的日志只支持在代码中print输出日志，系统报错不会打印出来。训练卡是A100，建议使用推荐镜像是cuda11以上的镜像进行调试后，再跑训练。

数据集&镜像相关问题

Q：上传训练任务对应的数据集有没有大小限制？

A：有限制，单次最多上传10个文件，每个不超过200G。

Q：上传20G以下数据集但每次都是传到99%显示传输失败应该如何处理？🌻

A：可以打开浏览器，点击F12，进入开发者模式，再上传一下文件看看console窗口上传进度提示，有时候页面看到99%失败，其实可能还没有传到最后。

Q：怎么在训练前安装好自己需要的包呢？

A：镜像大小限时20GB限制，如果平台没有符合的包，可以通过python脚本安装。

Q：平台是否有上多数据集的示例？

A：请参考教程

Q：在创建调试任务时，如果数据集分别在不同的文件夹，【新建任务】中的数据集部分如何处理呢？

A：可以将不同的文件夹打包到一个Zip包，或者选择多个Zip包，根据自己的需求，控制脚本。

Q：数据集过大被拆分成多个文件上传时，支持选中数据集内多个文件吗，或者说直接选中整个数据集？

A：训练任务支持多个数据集文件的已加入需求列表，近期会解决，可以提Issue跟踪。

Q：现在公开发布的镜像都哪些可适用于A100？标签或者镜像描述中没有写适用A100的某些镜像是否可用？

A：A100需要cuda11以上的版本，其他公开镜像如果满足要求，也可以用。基础镜像是【dockerhub.pcl.ac.cn:5000/user-images/openi:ssbai_torch1.9】，包含pytorch1.9，python3.8，cuda11.1

Q：有哪些适用于PyTorch进行训练的镜像？

A：要使用含有PyTorch的镜像训练的话，建议选择平台推荐的这个镜像dockerhub.pcl.ac.cn:5000/user-images/openi:cuda111_python37_pytorch191，PyTorch1.9也是兼容1.8的。

Q：保存镜像时，是将数据集、代码、以及生成的Model都打包在里头了吗?

A：不会，只是打包安装的一些软件，当使用镜像开训练任务时，实际上用的还是仓库内的代码。调试完代码记得push一下，这样训练的时候用的也是最新的代码了。

Q：数据集已经有了，为什么在“新建调试任务”中找不到呢？

A：请确认数据集是否为zip或tar.gz格式，只有zip/tar.gz格式的数据集才能发起云脑任务。

Q：平台上有基于ubuntu 18的镜像吗？是否支持创建基于自己操作系统的镜像？

A：暂时没有此镜像，支持使用自己的公开镜像仓库，可以创建一个试试。

Q：提交的镜像不能超过20G的问题怎么处理？

A：镜像超过20G时，可以通过直接输入公开镜像库的地址规避解决，在创建云脑任务选择镜像的时候，可以直接输入公开镜像库的地址。

MindSpore相关问题

Q：NPU选择MindSpore1.6的环境，Git命令为什么执行不了？

A：可能是这个镜像里没有安装Git，可以尝试1.5的环境。

Q：有没有mindspore的省显存的方法？

A：1. 重计算方法，请参考教程

梯度累积方法，请参考教程

Q：MindSpore并行处理有没有相关教程指导？

A：有的，C76环境教程请参考页面链接；支持GPU/NPU的C78环境教程请参考页面链接。配置环境和数据集构建教程请参考Mindspore官网教程。关于MindSpore的相关问题，可以去昇腾论坛查询和发帖求助。

Q：云上能否使用MindSpore1.6以上的版本？

A：目前调试和训练环境已支持到1.6版本，更高版本要自制镜像，欢迎到小白训练营提Issue跟踪。

Q：CPU转Ascend要改什么内容呢？

A：MindSpore对算子的支持，NPU>GPU>CPU，硬件不一样API可能有变化，可以去MindSpore官网看下版本API的信息, 或者参考下开源项目里相关API的使用，建议提一下Issue。

Q：跑分布式都是用MindSpore的model.train形式的api跑吗？有没有写成类似torch里面， for训练，每个epoch下，读取数据，输入网络，更新权重的形式的呢？

A：MindSpore有自动并行，可以参考教程

项目代码相关问题

Q：创建项目需要docker吗？

A：不需要，平台有相应的镜像还有数据集，收藏就可以直接用，代码可以直接上传，也可以从外部直接迁移项目。

Q：code目录上传文件有大小限制么？

A：是的，有大小限制，大文件不适合用git去做管理，后续平台支持多数据集选择时，就能解决这个问题了，欢迎提Issue跟踪。

Q：项目代码显示不全，如何修改或删除？

A：可以自己手动执行Git拉代码，即先把代码git clone到本地，修改或删除代码文件，然后再Push。

Q: 自动挂载的/userhome中的文件会不会被打包进镜像？

A：不会。

Q：/userhome这个目录是大家公用的？随便读写？

A：是的，这是个公共空间，所有人可见。

Q：请问训练任务能否读取到/userhome？

A：可以，但是不建议这么做，/userhome目录是所有人都能访问的，有读写权限，那里的数据不保证安全。

日志相关问题

Q：训练任务中的日志是不能实时显示么？刚开始训练时还能看到输出，后来就没有了 🌻

A：目前启智GPU需要在自己的代码里面print相关的信息才能被看到，日志文件需要自己输出到/model下才能在结果下载里面看到，等运行结束后显示。

Q：训练结束后，为什么下载的日志文件和页面显示的文件大小不一致？好像一直是第一次下载的内容

A：log.txt记录的是训练脚本中的输出，如果没有输出那就没有变化。另，下载同名文件，浏览器会使用缓存，请及时清理浏览器缓存。

8.9 KiB Raw Permalink Blame History