linfj
/
MNIST_Example
forked from OpenIOSSG/手写数字识别NPU版本_MindsporeExample

 
			
							"""
本示例是多数据集训练的教程，如果是单数据集，请参考单数据集训练教程train.py，本示例不能用于单数据集！
######################## train lenet example ########################
train lenet and get network model files(.ckpt) 
"""
"""
######################## 训练环境使用说明 ########################
1、(1)本示例中多数据集训练上传的数据集结构
 MNISTData.zip
  ├── test
  │   ├── t10k-images-idx3-ubyte
  │   └── t10k-labels-idx1-ubyte
  └── train
      ├── train-images-idx3-ubyte
      └── train-labels-idx1-ubyte    
 
 checkpoint_lenet-1_1875.zip
  ├── checkpoint_lenet-1_1875.ckpt

  (2)本示例中多数据集在训练镜像中的数据集结构
  workroot
   ├── MNISTData
   |     ├── test
   |     └── train 
   └── checkpoint_lenet-1_1875
         ├── checkpoint_lenet-1_1875.ckpt

2、多数据集训练需要预定义的函数：
### (1)定义任务是训练环境还是调试环境（可参考的写法）###
def WorkEnvironment(environment): 
    if environment == 'train':
        workroot = '/home/work/user-job-dir' # 训练任务使用该参数,表示训练镜像本地路径
    elif environment == 'debug':
        workroot = '/home/ma-user/work' #调试任务使用该参数,表示调试镜像本地路径
    print('current work mode:' + environment + ', workroot:' + workroot)
    return workroot

### (2)将多个数据集从obs拷贝到训练镜像中 （可参考的写法）###
def MultiObsToEnv(multi_data_url, workroot):
    multi_data_json = json.loads(multi_data_url)  #将multi_data_url解析
    for i in range(len(multi_data_json)):
        path = workroot + "/" + multi_data_json[i]["dataset_name"]
        if not os.path.exists(path):
            os.makedirs(path)
        try:
            mox.file.copy_parallel(multi_data_json[i]["dataset_url"], path) 
            print("Successfully Download {} to {}".format(multi_data_json[i]["dataset_url"],
                                                        path))
        except Exception as e:
            print('moxing download {} to {} failed: '.format(
                multi_data_json[i]["dataset_url"], path) + str(e))
    return 

***在本示例中MultiObsToEnv函数的输入输出：
multi_data_url的输入：
[
	{
		"dataset_url": "s3://test-opendata/attachment/e/a/eae3a316-42d6-4a43-a484-1fa573eab388e
        ae3a316-42d6-4a43-a484-1fa573eab388/", #数据集的obs路径
		"dataset_name": "MNIST_Data"      #数据集的名称
	},
	{
		"dataset_url": "s3://test-opendata/attachment/2/c/2c59be66-64ec-41ca-b311-f51a486eabf82c
        59be66-64ec-41ca-b311-f51a486eabf8/",
		"dataset_name": "checkpoint_lenet-1_1875"
	}
]
输出：
MultiObsToEnv函数的目的是为了将多个数据集从obs拷贝到训练镜像中，并构建在训练镜像中数据集路径: 
如本示例中的MNIST_Data数据集的路径是/home/work/user-job-dir/MNISTData, 
checkpoint_lenet-1_1875数据集的路径是/home/work/user-job-dir/checkpoint_lenet-1_1875

### (3)将输出的模型拷贝到obs（可参考的写法）###
def EnvToObs(obs_train_url, train_dir):
    try:
        mox.file.copy_parallel(train_dir, obs_train_url)
        print("Successfully Upload {} to {}".format(train_dir,
                                                    obs_train_url))
    except Exception as e:
        print('moxing upload {} to {} failed: '.format(train_dir,
                                                    obs_train_url) + str(e))
    return        

3、需要定义4个参数
define 4 parameters for running on modelArts;
--data_url,--multi_data_url,--train_url,--device_target,这4个参数在多数据集中是必须先定义的,缺一不可,否则会报错                      

3、数据集的使用方式
多数据集使用multi_data_url作为输入，workroot + 数据集名称 + 数据集内文件或文件夹名称 作为镜像中数据集的调用方式，
具体请参考以下示例代码
"""

#具体示例代码如下：

import os
import argparse

import moxing as mox
from config import mnist_cfg as cfg
from dataset import create_dataset
from lenet import LeNet5
import json
import mindspore.nn as nn
from mindspore import context
from mindspore.train.callback import ModelCheckpoint, CheckpointConfig, LossMonitor, TimeMonitor
from mindspore.train import Model
from mindspore.nn.metrics import Accuracy
from mindspore.common import set_seed
from mindspore import load_checkpoint, load_param_into_net

######################## 定义任务是训练环境还是调试环境（固定写法）######################## 
def WorkEnvironment(environment): 
    if environment == 'train':
        workroot = '/home/work/user-job-dir' # 训练任务使用该参数,表示训练镜像本地路径
    elif environment == 'debug':
        workroot = '/home/ma-user/work' #调试任务使用该参数,表示调试镜像本地路径
    print('current work mode:' + environment + ', workroot:' + workroot)
    return workroot

 ######################## 将多个数据集从obs拷贝到训练镜像中 （固定写法）########################  
def MultiObsToEnv(multi_data_url, workroot):
    multi_data_json = json.loads(multi_data_url)  #将multi_data_url解析
    for i in range(len(multi_data_json)):
        path = workroot + "/" + multi_data_json[i]["dataset_name"]
        if not os.path.exists(path):
            os.makedirs(path)
        try:
            mox.file.copy_parallel(multi_data_json[i]["dataset_url"], path) 
            print("Successfully Download {} to {}".format(multi_data_json[i]["dataset_url"],
                                                        path))
        except Exception as e:
            print('moxing download {} to {} failed: '.format(
                multi_data_json[i]["dataset_url"], path) + str(e))
    return 
 ######################## 将输出的模型拷贝到obs（固定写法）########################  
def EnvToObs(obs_train_url, train_dir):
    try:
        mox.file.copy_parallel(train_dir, obs_train_url)
        print("Successfully Upload {} to {}".format(train_dir,
                                                    obs_train_url))
    except Exception as e:
        print('moxing upload {} to {} failed: '.format(train_dir,
                                                    obs_train_url) + str(e))
    return                                                        


parser = argparse.ArgumentParser(description='MindSpore Lenet Example')
# define 4 parameters for running on modelArts；--data_url,--multi_data_url,--train_url,--device_target
# 这4个参数在多数据集中是必须先定义的，缺一不可，否则会报错
# data_url,train_url,device_target是固定用于在modelarts上训练的参数，表示数据集的路径和输出模型的路径，multi_data_url是多数据集路径和名称的json字符串
parser.add_argument('--data_url',
                    help='path to training/inference dataset folder',
                    default= WorkEnvironment('train') + '/data/')

parser.add_argument('--multi_data_url',
                    help='path to multi dataset',
                    default= WorkEnvironment('train'))

parser.add_argument('--train_url',
                    help='model folder to save/load',
                    default= WorkEnvironment('train') + '/model/')

parser.add_argument(
    '--device_target',
    type=str,
    default="Ascend",
    choices=['Ascend', 'CPU'],
    help='device where the code will be implemented (default: CPU),若要在启智平台上使用NPU，需要在启智平台训练界面上加上运行参数device_target=Ascend')

parser.add_argument('--epoch_size',
                    type=int,
                    default=5,
                    help='Training epochs.')

if __name__ == "__main__":
    args = parser.parse_args()
    #多数据集使用，先执行WorkEnv函数和GetMultiDataPath函数，将多个数据集从obs拷贝到训练镜像中
    environment = 'train'
    workroot = WorkEnvironment(environment)
    MultiObsToEnv(args.multi_data_url, workroot)  #多数据集时必须执行此函数将多个数据集从obs拷贝到训练镜像中

    train_dir = workroot + '/model'   #先在训练镜像中定义输出路径
    if not os.path.exists(train_dir):
            os.makedirs(train_dir)

    context.set_context(mode=context.GRAPH_MODE,
                        device_target=args.device_target)
    #这里使用了数据集路径workroot + "/MNIST_Data" +/train                        
    ds_train = create_dataset(os.path.join(workroot + "/MNISTData", "train"),  
                              cfg.batch_size)
    if ds_train.get_dataset_size() == 0:
        raise ValueError(
            "Please check dataset size > 0 and batch_size <= dataset size")
    #创建网络
    network = LeNet5(cfg.num_classes)
    net_loss = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")
    net_opt = nn.Momentum(network.trainable_params(), cfg.lr, cfg.momentum)
    time_cb = TimeMonitor(data_size=ds_train.get_dataset_size())

    #加载已经训练好的模型,请根据需求修改此部分模型的载入, 这里使用了数据集路径workroot + "/checkpoint_lenet-1_1875"+"/checkpoint_lenet-1_1875.ckpt"
    load_param_into_net(network, load_checkpoint(os.path.join(workroot + "/checkpoint_lenet-1_1875", "checkpoint_lenet-1_1875.ckpt"))) 

    if args.device_target != "Ascend":
        model = Model(network,net_loss,net_opt,metrics={"accuracy": Accuracy()})
    else:
        model = Model(network, net_loss,net_opt,metrics={"accuracy": Accuracy()},amp_level="O2")

    config_ck = CheckpointConfig(save_checkpoint_steps=cfg.save_checkpoint_steps,keep_checkpoint_max=cfg.keep_checkpoint_max)
    #定义模型输出路径
    ckpoint_cb = ModelCheckpoint(prefix="checkpoint_lenet",
                                 directory=train_dir,
                                 config=config_ck)
    #开始训练
    print("============== Starting Training ==============")
    epoch_size = cfg['epoch_size']
    if (args.epoch_size):
        epoch_size = args.epoch_size
        print('epoch_size is: ', epoch_size)

    model.train(epoch_size,
                ds_train,
                callbacks=[time_cb, ckpoint_cb,
                           LossMonitor()])
    #将输出的模型拷贝到obs，把训练后的模型数据从本地的运行环境拷贝回obs，在启智平台相对应的训练任务中会提供下载                           
    EnvToObs(train_dir, args.train_url)