Are you sure you want to delete this task? Once this task is deleted, it cannot be recovered.
zhangy03 092f6d0047 | 2 years ago | |
---|---|---|
.. | ||
client | 2 years ago | |
video | 2 years ago | |
DockerfileAgent | 2 years ago | |
DockerfileClient | 2 years ago | |
README.md | 2 years ago | |
start-agent.sh | 2 years ago | |
start.sh | 2 years ago |
本例子实现了 resnet50 模型在 AISynergy 平台上进行协同训练,并支持 mindspore 框架下的数据并行的协同训练,
也支持 GPU 和 NPU 异构硬件下的协同训练。
推荐使用Mindspore的官方 docker 镜像docker pull mindspore/mindspore-gpu:1.2.0
。
也可直接下载配好的镜像:
融合节点:
docker pull 192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_agent_v1
client节点:
docker pull 192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_client_v1
根据教程
部署
下载和安装 AISynergy
AISynergy提供了两种使用方式:网页前端启动任务,服务器手动启动任务
1、基于网页前端启动任务,可以参考文档
平台使用手册
2、制作镜像
制作镜像文件192.168.202.74:5000/user-images/yands/pcl_poc_resnet50:ms_agent_v1
Dockerfile文件如下:
FROM mindspore/mindspore-gpu:1.2.0
ENV AGENT_PORT 50052
EXPOSE 50052
WORKDIR /root/jointcloud
#python需要用到
RUN pip install requests
#RUN pip install flwr
RUN pip install dataclasses -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
RUN pip install --upgrade protobuf -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
ADD start.sh ./
RUN chmod +x ./start.sh
CMD ["/root/jointcloud/start.sh"]
添加算法镜像、数据集等,启动任务组开始训练
设置参数:
1、--round: 设置每轮的迭代次数 (start-server.sh)
2、IP:Port: 设置 server 的 ip 和端口 (start.sh)
3、前10轮,每一轮训练5个epoch, 后面5轮,每一轮训练10个epoch
4、数据集:平均分成5份,由5个智算中心分别所有
精度结果如下:
性能结果如下:
结论:
1.展示的这些曲线是对cifar10数据集随机平均切分后的训练得到的精度曲线,这里也展示了各方中心仅用本地数据训练得到的精度,相比之前,有提升4个百分点,也对了各方用全量数据训练得到的精度,相比之下下降了1个百分点左右。
2.这里可以显示各方中心算力的性能对比,以及网络带宽的性能等。可以看到在整个训练的过程,通信时间占比不到30%。后面我们也会考虑怎么样进一步提升它的效率,或通过压缩传输技术、梯度稀疏话、或采用异步的方式、感知底层网络拓扑进行区域划分等。
[协同训练展示视频]
鹏城众智AI协同计算平台AISynergy是一个分布式智能协同计算平台。该平台的目标是通过智算网络基础设施使能数据、算力、模型、网络和服务,完成跨多个智算中心的协同计算作业,进而实现全新计算范式和业务场景,如大模型跨域协同计算、多中心模型聚合、多中心联邦学习等。
Java Vue Python JavaScript Go other
Dear OpenI User
Thank you for your continuous support to the Openl Qizhi Community AI Collaboration Platform. In order to protect your usage rights and ensure network security, we updated the Openl Qizhi Community AI Collaboration Platform Usage Agreement in January 2024. The updated agreement specifies that users are prohibited from using intranet penetration tools. After you click "Agree and continue", you can continue to use our services. Thank you for your cooperation and understanding.
For more agreement content, please refer to the《Openl Qizhi Community AI Collaboration Platform Usage Agreement》