尊敬的启智用户
感谢您一直以来对Openl启智社区AI协作平台的支持。为了保障您的使用权益和确保网络安全,我们于2024年1月份更新了《Openl启智社区AI协作平台使用协议》。更新后的协议明确了用户禁止使用内网穿透工具的条例。您单击“同意并继续”后,便可以继续使用我们的服务。感谢您的合作与理解。
更多协议内容,请参考《Openl启智社区AI协作平台使用协议》
hi,大家好,咱们开发者交流群越来越壮大,不少童鞋都有在群里就自己遇到的问题进行咨询,我们的攻城狮小哥哥小姐姐们也是积极响应和帮助解答,真是相亲相爱的一家呀~
为了更及时地帮助大家解决一些基本问题,本人特意整理好了群内交流内容,供大家参考~
A:支持,具体可见平台资源说明
A:可以参考示例(可以点击启动文件右侧的“查看示例”)
A:目前智算网络只能使用公网镜像
A:不需要,在训练任务直接选择数据集就可以,数据集和代码会放入容器内指定路径,训练脚本需要按照这个来
A:平台仅留存近 30 天的调试、训练、推理、评测任务结果;超过 30 天的任务将不能下载结果和查看日志,且不能再次调试或训练。
A:需要在调试环境安装好第三方库,提交成新的镜像,然后训练的时候,选择此镜像即可。
A:目前是100G。
A:导入模型功能暂时只支持从NPU训练任务导入,这里的提示语需要改一下的,建议提Issue跟踪。
A:视情况而定,NPU上目前支持的框架是MindSpore和TensorFlow。
A:可以检查下是否填写了正确的启动文件,需要填写在代码仓的相对路径。另外,目前GPU训练的日志只支持在代码中print输出日志,系统报错不会打印出来。训练卡是A100,建议使用推荐镜像是cuda11以上的镜像进行调试后,再跑训练。
A:有限制,单次最多上传10个文件,每个不超过200G。
A:可以打开浏览器,点击F12,进入开发者模式,再上传一下文件看看console窗口上传进度提示,有时候页面看到99%失败,其实可能还没有传到最后。
A:镜像大小限时20GB限制,如果平台没有符合的包,可以通过python脚本安装。
A:请参考教程
A:可以将不同的文件夹打包到一个Zip包,或者选择多个Zip包,根据自己的需求,控制脚本。
A:训练任务支持多个数据集文件的已加入需求列表,近期会解决,可以提Issue跟踪。
A:A100需要cuda11以上的版本,其他公开镜像如果满足要求,也可以用。基础镜像是【dockerhub.pcl.ac.cn:5000/user-images/openi:ssbai_torch1.9】,包含pytorch1.9,python3.8,cuda11.1
A:要使用含有PyTorch的镜像训练的话,建议选择平台推荐的这个镜像dockerhub.pcl.ac.cn:5000/user-images/openi:cuda111_python37_pytorch191,PyTorch1.9也是兼容1.8的。
A:不会,只是打包安装的一些软件,当使用镜像开训练任务时,实际上用的还是仓库内的代码。调试完代码记得push一下,这样训练的时候用的也是最新的代码了。
A:请确认数据集是否为zip或tar.gz格式,只有zip/tar.gz格式的数据集才能发起云脑任务。
A:暂时没有此镜像,支持使用自己的公开镜像仓库,可以创建一个试试。
A:镜像超过20G时,可以通过直接输入公开镜像库的地址规避解决,在创建云脑任务选择镜像的时候,可以直接输入公开镜像库的地址。
A:可能是这个镜像里没有安装Git,可以尝试1.5的环境。
A:1. 重计算方法,请参考教程
A:有的,C76环境教程请参考页面链接;支持GPU/NPU的C78环境教程请参考页面链接。配置环境和数据集构建教程请参考Mindspore官网教程。关于MindSpore的相关问题,可以去昇腾论坛查询和发帖求助。
A:目前调试和训练环境已支持到1.6版本,更高版本要自制镜像,欢迎到小白训练营提Issue跟踪。
A:MindSpore对算子的支持,NPU>GPU>CPU,硬件不一样API可能有变化,可以去MindSpore官网看下版本API的信息, 或者参考下开源项目里相关API的使用,建议提一下Issue。
A:MindSpore有自动并行,可以参考教程
A:不需要,平台有相应的镜像还有数据集,收藏就可以直接用,代码可以直接上传,也可以从外部直接迁移项目。
A:是的,有大小限制,大文件不适合用git去做管理,后续平台支持多数据集选择时,就能解决这个问题了,欢迎提Issue跟踪。
A:可以自己手动执行Git拉代码,即先把代码git clone到本地,修改或删除代码文件,然后再Push。
A:不会。
A:是的,这是个公共空间,所有人可见。
A:可以,但是不建议这么做,/userhome目录是所有人都能访问的,有读写权限,那里的数据不保证安全。
A:目前启智GPU需要在自己的代码里面print相关的信息才能被看到,日志文件需要自己输出到/model下才能在结果下载里面看到,等运行结束后显示。
A:log.txt记录的是训练脚本中的输出,如果没有输出那就没有变化。另,下载同名文件,浏览器会使用缓存,请及时清理浏览器缓存。
尊敬的启智用户
感谢您一直以来对Openl启智社区AI协作平台的支持。为了保障您的使用权益和确保网络安全,我们于2024年1月份更新了《Openl启智社区AI协作平台使用协议》。更新后的协议明确了用户禁止使用内网穿透工具的条例。您单击“同意并继续”后,便可以继续使用我们的服务。感谢您的合作与理解。
更多协议内容,请参考《Openl启智社区AI协作平台使用协议》