启智社区最近又发版了,新增模型推理功能,欢迎大家体验>>>
You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

4.6 kB

第14课-如何进行模型训练

1 概述

  • 本项目以LeNet-MNIST为例,简要介绍如何在启智AI协同平台上使用MindSpore完成训练任务,旨在为AI初学者提供云脑训练示例。
  • 大家可以直接使用本项目提供的数据集和代码文件创建自己的训练任务。
  • 启智平台对接ModelArts和OBS,将数据集,代码,训练资源池等整合在启智AI协同平台上供开发者使用。
    • ModelArts是华为云提供的面向开发者的一站式AI开发平台,集成了昇腾AI处理器资源池,用户可以在ModelArts下体验MindSpore。
    • OBS是华为云提供的存储方式。

2 准备工作

  • 启智平台使用准备,本项目需要用户创建启智平台账户,克隆代码到自己的账户,上传数据集,具体操作方法可以通过访问OpenI_Learning项目学习小白训练营系列课程进行学习。

2.1 数据准备

  • 数据集可从本项目的数据集目录中下载,数据集下载
  • 数据文件说明
    • MNISTData数据集是由10类28∗28的灰度图片组成,训练数据集包含60000张图片,测试数据集包含10000张图片。
    • 数据集文件的目录结构如下:
  MNIST_Data
  ├── test
  │   ├── t10k-images-idx3-ubyte
  │   └── t10k-labels-idx1-ubyte
  └── train
  ├── train-images-idx3-ubyte
      └── train-labels-idx1-ubyte

2.2 执行脚本准备

示例代码

  • 示例代码可从本仓库中下载,代码下载
  • 代码文件说明
    • train.py,用于训练的脚本文件,包括将数据集从obs拷贝到训练镜像中、指定迭代次数、把训练后的模型数据拷贝回obs等。具体说明请参考train.py的代码注释

    • inference.py,用于推理的脚本文件。

    • eval.py,用于验证的脚本文件。

    • config.py,网络配置信息,在train.py中会使用到。

    • dataset.py,对原始数据集进行预处理,产生可用于网络训练的数据集。

    • lenet.py,使用的训练网络,在train.py中会使用到。

3 创建训练任务

  • 准备好数据和执行脚本以后,需要创建训练任务将MindSpore脚本真正运行起来。首次使用的用户可参考本示例代码。

使用MindSpore作为训练框架创建训练作业,界面截图如下图所示。


表1 创建训练作业界面参数说明

参数名称 说明
代码分支 选择仓库代码中要使用的代码分支,默认可选择master分支。
AI引擎 AI引擎选择[Ascend-Powered-Engine]和所需的MindSpore版本(本示例图片为 [Mindspore-1.3.0-python3.7-aarch64],请注意使用与所选版本对应的脚本)。
启动文件 启动文件选择代码目录下的启动脚本。
数据集 数据集选择已上传到启智平台的数据集。
运行参数 数据存储位置和训练输出位置分别对应运行参数data_url和train_url,选择增加运行参数可以向脚本中其他参数传值,如epoch_size。在这里只需填入其他参数传值,data_url和train_url已默认加入运行参数,用户无需重复指定,只需在代码中指定。
资源池 规格选择[Ascend: 1 * Ascend 910 CPU:24 核 256GiB],表示单机单卡

4 查看运行结果

4.1 在训练作业界面可以查看运行日志


4.2 训练结束后可以下载模型文件


简介

启智社区AI协同平台小白操作指南~~~~ 社区新童鞋们可以参考本项目下的小白训练课程,从单个功能讲解到项目实战,手把手带你了解和上手平台的代码、数据集、云脑、任务等各功能,好用到根本停不下来~!!更有免费的算力哦~!!

Python Markdown

贡献者 (1)