tjulitianyi
/
CycleGAN_MindSpore

 
			
							//
// Generated by NVIDIA NVVM Compiler
//
// Compiler Build ID: CL-26907403
// Cuda compilation tools, release 10.1, V10.1.243
// Based on LLVM 3.4svn
//

.version 6.4
.target sm_60
.address_size 64

	// .globl	Fused_Mul_Maximum_fusion_1759270382508631768_kernel0

.visible .entry Fused_Mul_Maximum_fusion_1759270382508631768_kernel0(
	.param .u64 Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_0,
	.param .u64 Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_1,
	.param .u64 Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_2
)
{
	.reg .f32 	%f<17>;
	.reg .b32 	%r<6>;
	.reg .b64 	%rd<11>;


	ld.param.u64 	%rd1, [Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_0];
	ld.param.u64 	%rd2, [Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_1];
	ld.param.u64 	%rd3, [Fused_Mul_Maximum_fusion_1759270382508631768_kernel0_param_2];
	cvta.to.global.u64 	%rd4, %rd1;
	mov.u32 	%r1, %ctaid.x;
	shl.b32 	%r2, %r1, 10;
	mov.u32 	%r3, %tid.x;
	shl.b32 	%r4, %r3, 2;
	add.s32 	%r5, %r4, %r2;
	mul.wide.s32 	%rd5, %r5, 4;
	add.s64 	%rd6, %rd4, %rd5;
	ld.global.nc.v4.f32 	{%f1, %f2, %f3, %f4}, [%rd6];
	cvta.to.global.u64 	%rd7, %rd2;
	cvta.to.global.u64 	%rd8, %rd3;
	add.s64 	%rd9, %rd8, %rd5;
	mul.f32 	%f9, %f4, 0f3E4CCCCD;
	max.f32 	%f10, %f9, %f4;
	mul.f32 	%f11, %f3, 0f3E4CCCCD;
	max.f32 	%f12, %f11, %f3;
	mul.f32 	%f13, %f2, 0f3E4CCCCD;
	max.f32 	%f14, %f13, %f2;
	mul.f32 	%f15, %f1, 0f3E4CCCCD;
	max.f32 	%f16, %f15, %f1;
	st.global.v4.f32 	[%rd9], {%f16, %f14, %f12, %f10};
	add.s64 	%rd10, %rd7, %rd5;
	st.global.v4.f32 	[%rd10], {%f15, %f13, %f11, %f9};
	ret;
}