huxinxin
/
ResnetTriptle

 
			
			   
				 
					
						
						
							
							"""train resnet."""
import os
import time
import argparse
import ast
import numpy as np
from mindspore import context
from mindspore import Tensor
from mindspore.nn.optim.momentum import Momentum
from mindspore.train.model import Model
from mindspore.context import ParallelMode
from mindspore.train.callback import ModelCheckpoint, CheckpointConfig, LossMonitor, TimeMonitor
from mindspore.train.loss_scale_manager import FixedLossScaleManager
from mindspore.train.serialization import load_checkpoint, load_param_into_net
from mindspore.common import set_seed
from mindspore.communication.management import init
from mindspore.train.callback import Callback

from src.loss import Softmaxloss
from src.loss import Tripletloss
from src.loss import mix_loss
from src.lr_generator import get_lr
from src.resnet import resnet50 as resnet
from src.config import config
from src.dataset import create_dataset_triplet as create_dataset
set_seed(1)

workroot = '/home/work/user-job-dir'

parser = argparse.ArgumentParser(description='Image classification')
# modelarts parameter
parser.add_argument('--train_url', type=str, default=workroot + '/model/', help='Train output path')
parser.add_argument('--data_url', type=str, default=workroot + '/data/', help='Dataset path')
parser.add_argument('--ckpt_url', type=str, default=workroot + '/ckpt/', help='Pretrained ckpt path')
parser.add_argument('--checkpoint_name', type=str, default='resnet-120_625.ckpt', help='Checkpoint file')
parser.add_argument('--loss_name', type=str, default='softmax',
                    help='loss name: softmax(pretrained) triplet quadruplet')
# Ascend parameter
parser.add_argument('--dataset_path', type=str, default=None, help='Dataset path')
parser.add_argument('--ckpt_path', type=str, default=None, help='ckpt path name')
parser.add_argument('--run_distribute', type=ast.literal_eval, default=False, help='Run distribute')
parser.add_argument('--device_id', type=int, default=0, help='Device id')
parser.add_argument('--run_modelarts', type=ast.literal_eval, default=True, help='Run distribute')
parser.add_argument('--device_target',type=str,default="Ascend",choices=['Ascend', 'CPU'],help='device where the code will be implemented (default: CPU),若要在启智平台上使用NPU，需要在启智平台训练界面上加上运行参数device_target=Ascend')

args_opt = parser.parse_args()

class Monitor(Callback):
    """Monitor"""
    def __init__(self, lr_init=None):
        super(Monitor, self).__init__()
        self.lr_init = lr_init
        self.lr_init_len = len(lr_init)
    def epoch_begin(self, run_context):
        self.losses = []
        self.epoch_time = time.time()
    def epoch_end(self, run_context):
        cb_params = run_context.original_args()
        epoch_mseconds = (time.time() - self.epoch_time) * 1000
        per_step_mseconds = epoch_mseconds / cb_params.batch_num
        print("epoch time: {:5.3f}, per step time: {:5.3f}, avg loss: {:8.5f}"
              .format(epoch_mseconds, per_step_mseconds, np.mean(self.losses)))
        print('batch_size:', config.batch_size, 'epochs_size:', config.epoch_size,
              'lr_model:', config.lr_decay_mode, 'lr:', config.lr_max, 'step_size:', step_size)
    def step_begin(self, run_context):
        self.step_time = time.time()
    def step_end(self, run_context):
        """step_end"""
        cb_params = run_context.original_args()
        step_mseconds = (time.time() - self.step_time) * 1000
        step_loss = cb_params.net_outputs
        if isinstance(step_loss, (tuple, list)) and isinstance(step_loss[0], Tensor):
            step_loss = step_loss[0]
        if isinstance(step_loss, Tensor):
            step_loss = np.mean(step_loss.asnumpy())
        self.losses.append(step_loss)
        cur_step_in_epoch = (cb_params.cur_step_num - 1) % cb_params.batch_num
        print("epochs:  [{:3d}/{:3d}], step:[{:5d}/{:5d}], loss:[{:8.5f}/{:8.5f}], time:[{:5.3f}], lr:[{:8.5f}]".format(
            cb_params.cur_epoch_num, config.epoch_size, cur_step_in_epoch, cb_params.batch_num, step_loss,
            np.mean(self.losses), step_mseconds, self.lr_init[cb_params.cur_step_num - 1]))

def init_group_params(net):
    decayed_params = []
    no_decayed_params = []
    for param in net.trainable_params():
        if 'beta' not in param.name and 'gamma' not in param.name and 'bias' not in param.name:
            decayed_params.append(param)
        else:
            no_decayed_params.append(param)

    group_params = [{'params': decayed_params, 'weight_decay': config.weight_decay},
                    {'params': no_decayed_params},
                    {'order_params': net.trainable_params()}]
    return group_params

if __name__ == '__main__':
    
    
    
    # init distributed
    if args_opt.run_modelarts:
        import moxing as mox
        device_id = int(os.getenv('DEVICE_ID'))
        device_num = int(os.getenv('RANK_SIZE'))
        context.set_context(device_id=device_id)
        data_dir = workroot + '/data'
        train_dir = workroot + '/model/'

        #初始化数据存放目录
        if not os.path.exists(data_dir):
            os.mkdir(data_dir)

        #初始化模型存放目录

        
        print("________________train_model_URL_______________________")
        train_dir = workroot + '/model/'
        if not os.path.exists(train_dir):
                os.mkdir(train_dir)
        local_train_url = train_dir
        print(os.path.exists(train_dir))

        #将数据集从local拷贝到推理镜像中：
        local_data_url = args_opt.data_url
        print(os.path.exists(local_data_url))
        args_opt.data_url = '/home/work/user-job-dir/data/'
        try:    
            mox.file.copy_parallel(local_data_url, args_opt.data_url)
            print("Successfully Download {} to {}".format(local_data_url,
                                                        args_opt.data_url))
        except Exception as e:
            print('moxing download {} to {} failed: '.format(
                local_data_url, args_opt.data_url) + str(e))

        #将模型文件从local拷贝到推理镜像中：
        local_ckpt_url = args_opt.ckpt_url
        print(os.path.exists(local_ckpt_url))
        args_opt.ckpt_url = '/home/work/user-job-dir/checkpoint.ckpt'
        try:
            mox.file.copy(local_ckpt_url, args_opt.ckpt_url)
            print("Successfully Download {} to {}".format(local_ckpt_url,
                                                        args_opt.ckpt_url))
        except Exception as e:
            print('moxing download {} to {} failed: '.format(
                local_ckpt_url, args_opt.ckpt_url) + str(e))
        DATA_DIR = '/home/work/user-job-dir/data/imagenet/train'
    

    # create dataset
    TRAIN_LIST = DATA_DIR
    
    dataset = create_dataset(dataset_path=DATA_DIR, do_train=True,
                             batch_size=config.batch_size, train_image_size=config.train_image_size,
                             eval_image_size=config.eval_image_size, target='Ascend',
                             distribute=config.run_distribute
                             )
    step_size = dataset.get_dataset_size()
    
    # define net
    net = resnet(class_num=config.class_num)

    # init weight

    checkpoint_path = os.path.join(local_ckpt_url, args_opt.checkpoint_name)

    # init lr
    lr = Tensor(get_lr(lr_init=config.lr_init,
                lr_end=config.lr_end,
                lr_max=config.lr_max,
                warmup_epochs=config.warmup_epochs,
                total_epochs=config.epoch_size,
                steps_per_epoch=step_size,
                 lr_decay_mode=config.lr_decay_mode))
                       

    # define opt
    group_params = init_group_params(net)
    opt = Momentum(group_params, lr, config.momentum, loss_scale=config.loss_scale)
    

    # define loss, model
    loss = mix_loss()
    loss_scale = FixedLossScaleManager(config.loss_scale, drop_overflow_update=False)

    
    model = Model(net, loss_fn=loss, optimizer=opt, loss_scale_manager=loss_scale, metrics=None,
                         amp_level="O2", keep_batchnorm_fp32=False)
                         

    #define callback
    cb = []
    if config.save_checkpoint:
        config_ck = CheckpointConfig(save_checkpoint_steps=config.save_checkpoint_epochs * step_size,
                                     keep_checkpoint_max=config.keep_checkpoint_max)

        check_name = 'ResNet50_'
        save_ckpt_path = os.path.join(local_train_url, str(device_id) +'/')
        ckpt_cb = ModelCheckpoint(prefix=check_name, directory=save_ckpt_path, config=config_ck)
        cb += [ckpt_cb]
    cb += [Monitor(lr_init=lr.asnumpy())]

        # train model
    model.train(1, dataset, callbacks=cb, dataset_sink_mode=False)

    mox.file.copy_parallel(src_url=local_train_url, dst_url=args_opt.train_url)