warrior
/
hardnet

 
			
			   
				 
					
						
						
							
							from mindspore import context
import os
import random
import argparse
import ast
import numpy as np
from mindspore import Tensor
from mindspore import dataset as de
import mindspore.ops as ops
import moxing as mox
from mindspore import dtype as mstype
from mindspore.parallel._auto_parallel_context import auto_parallel_context
from mindspore.nn.optim.momentum import Momentum
from mindspore.train.model import Model, ParallelMode
from mindspore.train.callback import ModelCheckpoint, CheckpointConfig, LossMonitor, TimeMonitor
from mindspore.nn.loss import SoftmaxCrossEntropyWithLogits
from mindspore.train.loss_scale_manager import FixedLossScaleManager
from mindspore.train.serialization import load_checkpoint, load_param_into_net
from mindspore.communication.management import init, get_rank, get_group_size
import mindspore.nn as nn
import mindspore.common.initializer as weight_init
from easydict import EasyDict
from src.network.dataset import create_dataset_Cifar10
from src.network.dataset import create_dataset_ImageNet
from src.network.lr_generator import get_lr, power_lr
from src.network.HarDNet import HarDNet68
from src.network.optimizers import get_param_groups

parser = argparse.ArgumentParser(description='Image classification with HarDNet on Imagenet')
"""
parser.add_argument('--dataset_path', type=str, default='/opt_data/xidian_wks/mmq/cifar-10-batches-bin',
                    help='Dataset path')
"""
# parser.add_argument('--dataset_path', type=str, default='/opt_data/xidian_wks/imagenet_original/train/',
#                     help='Dataset path')
parser.add_argument('--run_distribute', type=ast.literal_eval, default=True, help='Run distribute')
parser.add_argument('--device_target', type=str, default='Ascend', help='Device target')
parser.add_argument('--device_num', type=int, default=8, help='Device num')
parser.add_argument('--pre_trained', type=str, default=None)
parser.add_argument('--train_url', type=str)
parser.add_argument('--data_url', type=str, default='/opt_data/xidian_wks/imagenet_original/train/',
                    help='Dataset path')
args = parser.parse_args()

config = EasyDict({
    "class_num": 10,
    "batch_size": 256,
    "loss_scale": 1024,
    "momentum": 0.9,
    "weight_decay": 6e-5,
    "epoch_size": 50,
    "pretrain_epoch_size": 0,
    "save_checkpoint": True,
    "save_checkpoint_epochs": 10,
    "keep_checkpoint_max": 10,
    "warmup_epochs": 5,
    "lr_decay_mode": "cosine",
    "lr_init": 0.05,
    "lr_end": 0.00001,
    "lr_max": 0.1
})

if __name__ == '__main__':
    target = args.device_target
    config.save_checkpoint_path = '/cache/train_output'
    ckpt_save_dir = config.save_checkpoint_path

    # init context
    device_id = int(os.getenv('DEVICE_ID'))
    context.set_context(mode=context.GRAPH_MODE, device_target="Ascend")
    context.set_context(device_id=device_id)

    # download dataset from obs to cache
    mox.file.copy_parallel(src_url=args.data_url, dst_url='/cache/data_path')

    # create dataset
    dataset_path = '/cache/data_path'
    # train_dataset = ImageNet(args.dataset_path)
    # train_dataset = create_dataset_ImageNet(dataset_path=dataset_path,
    #                                         do_train=True,
    #                                         repeat_num=1,
    #                                         batch_size=config.batch_size,
    #                                         target=target)
    train_dataset = create_dataset_Cifar10(dataset_path=dataset_path,
                                           do_train=True,
                                           repeat_num=1,
                                           batch_size=config.batch_size,
                                           target=target)

    step_size = train_dataset.get_dataset_size()

    # init lr
    lr = get_lr(lr_init=config.lr_init,
                lr_end=config.lr_end,
                lr_max=config.lr_max,
                warmup_epochs=config.warmup_epochs,
                total_epochs=config.epoch_size,
                steps_per_epoch=step_size,
                lr_decay_mode=config.lr_decay_mode)
    lr = Tensor(lr)

    # define net
    network = HarDNet68(num_classes=config.class_num)
    print("----network----")

    # init weight
    if args.pre_trained:
        param_dict = load_checkpoint(args.pre_ckpt_path)
        load_param_into_net(network, param_dict)
    else:
        for _, cell in network.cells_and_names():
            if isinstance(cell, nn.Conv2d):
                # cell.weight.default_input = weight_init.initializer(weight_init.XavierUniform(),
                #                                                     cell.weight.shape,
                #                                                     cell.weight.dtype)

                cell.weight.default_input = weight_init.initializer(weight_init.HeNormal(mode='fan_out', ),
                                                                    cell.weight.shape,
                                                                    cell.weight.dtype)

            if isinstance(cell, nn.Dense):
                cell.weight.default_input = weight_init.initializer(weight_init.TruncatedNormal(),
                                                                    cell.weight.shape,
                                                                    cell.weight.dtype)

    # define opt
    decayed_params = []
    no_decayed_params = []
    for param in network.trainable_params():
        if 'beta' not in param.name and 'gamma' not in param.name and 'bias' not in param.name:
            decayed_params.append(param)
        else:
            no_decayed_params.append(param)

    group_params = [{'params': decayed_params, 'weight_decay': config.weight_decay},
                    {'params': no_decayed_params},
                    {'order_params': network.trainable_params()}]

    net_opt = nn.SGD(filter(lambda x: x.requires_grad, network.get_parameters()),
                     learning_rate=lr,
                     momentum=config.momentum,
                     weight_decay=config.weight_decay,
                     loss_scale=config.loss_scale)

    # net_opt = Momentum(group_params, lr, config.momentum, loss_scale=config.loss_scale)

    # define loss
    loss = SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")
    loss_scale = FixedLossScaleManager(config.loss_scale, drop_overflow_update=False)

    model = Model(network, loss_fn=loss, optimizer=net_opt, loss_scale_manager=loss_scale, metrics={'acc'})

    # define callbacks
    time_cb = TimeMonitor(data_size=train_dataset.get_dataset_size())
    loss_cb = LossMonitor()
    cb = [time_cb, loss_cb]
    if config.save_checkpoint:
        config_ck = CheckpointConfig(save_checkpoint_steps= \
                                         config.save_checkpoint_epochs * \
                                         train_dataset.get_dataset_size(),
                                     keep_checkpoint_max=config.keep_checkpoint_max)
        ckpt_cb = ModelCheckpoint(prefix="HarDNet",
                                  directory='/cache/train_output/device_' + os.getenv('DEVICE_ID') + '/',
                                  config=config_ck)
        cb += [ckpt_cb]
    for m in network.cells_and_names():
        print(m[0])

    print("\n\n========================")
    #print("Dataset path: {}".format(args.dataset_path))
    print("Total epoch: {}".format(config.epoch_size))
    print("Batch size: {}".format(config.batch_size))
    print("Class num: {}".format(config.class_num))
    print("======= Multiple Training begin========")
    model.train(config.epoch_size, train_dataset,
                callbacks=cb, dataset_sink_mode=True)
    mox.file.copy_parallel(src_url='/cache/train_output', dst_url=args.train_url)