关于GCU、沐曦GPGPU、MLU、0卡V100资源4月7日恢复上架的公告>>> 关于共建具身智能开源数据集的倡议>>> 关于云脑任务中统一路径访问方式的公告>>> 关于将启智集群GPU资源迁移至智算集群的公告>>>

History

zhangy03 092f6d0047 fix png Former-commit-id: `f86999ffaf`		2 years ago
..
client	mindspore resnet50 & pytorch demo	2 years ago

video	fix png	2 years ago

DockerfileAgent	mindspore resnet50 & pytorch demo	2 years ago

DockerfileClient	mindspore resnet50 & pytorch demo	2 years ago

README.md	更新 'examples/mindspore_resnet50/README.md'	2 years ago

start-agent.sh	mindspore resnet50 & pytorch demo	2 years ago

start.sh	mindspore resnet50 & pytorch demo	2 years ago

本例子实现了 resnet50 模型在 AISynergy 平台上进行协同训练，并支持 mindspore 框架下的数据并行的协同训练，
也支持 GPU 和 NPU 异构硬件下的协同训练。

环境

推荐使用Mindspore的官方 docker 镜像docker pull mindspore/mindspore-gpu:1.2.0。

也可直接下载配好的镜像：

融合节点：
docker pull 192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_agent_v1
client节点：
docker pull 192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_client_v1

根据教程
部署
下载和安装 AISynergy

AISynergy 的使用

AISynergy提供了两种使用方式：网页前端启动任务，服务器手动启动任务

在界面上创建任务组

1、基于网页前端启动任务，可以参考文档
平台使用手册

2、制作镜像
制作镜像文件192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_agent_v1
Dockerfile文件如下：

FROM mindspore/mindspore-gpu:1.2.0
ENV AGENT_PORT 50052
EXPOSE 50052
WORKDIR /root/jointcloud
#python需要用到
RUN pip install requests
#RUN pip install flwr
RUN pip install dataclasses -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
RUN pip install --upgrade protobuf -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
ADD start.sh ./
RUN chmod +x ./start.sh
CMD ["/root/jointcloud/start.sh"]

添加算法镜像、数据集等，启动任务组开始训练

训练策略

设置参数：

1、--round: 设置每轮的迭代次数 (start-server.sh)

2、IP:Port: 设置 server 的 ip 和端口 (start.sh)

3、前10轮，每一轮训练5个epoch, 后面5轮，每一轮训练10个epoch

4、数据集：平均分成5份，由5个智算中心分别所有

结果展示

精度结果如下：

性能结果如下：

结论：
1.展示的这些曲线是对cifar10数据集随机平均切分后的训练得到的精度曲线，这里也展示了各方中心仅用本地数据训练得到的精度，相比之前，有提升4个百分点，也对了各方用全量数据训练得到的精度，相比之下下降了1个百分点左右。
2.这里可以显示各方中心算力的性能对比，以及网络带宽的性能等。可以看到在整个训练的过程，通信时间占比不到30%。后面我们也会考虑怎么样进一步提升它的效率，或通过压缩传输技术、梯度稀疏话、或采用异步的方式、感知底层网络拓扑进行区域划分等。