📄 nb_kernel310_ia32_3dnow.intel_syntax.s

📁 最著名最快的分子模拟软件
💻 S
📖 第 1 页 / 共 3 页
字号:
	pfmul mm2, [esp + nb310_six]	pfmul mm1, [esp + nb310_twelve]	pfsub mm1, mm2	pfmul mm1, mm0	;# mm1=	(12*Vvdw12-6*Vvdw6)*rinv11 	pfsub mm1, mm3	;# update vctot 	pfadd mm5, [esp + nb310_vctot]      ;# add the earlier value 	movq [esp + nb310_vctot], mm5       ;# store the sum        	pfmul mm0, mm1    ;# mm0 is total fscal now 		prefetchw [esp + nb310_dx1]	;# prefetch i forces to cache 	;# spread fscalar to both positions 	movq mm1,mm0	punpckldq mm0,mm0	punpckhdq mm1,mm1	;# calc vector force 	prefetchw [edi + eax*4]	;# prefetch the 1st faction to cache 	movq mm2,  [esp + nb310_dx1]	;# fetch dr 	movd mm3,  [esp + nb310_dz1]	;# update Vvdwtot 	pfadd mm4, [esp + nb310_Vvdwtot]      ;# add the earlier value 	movq [esp + nb310_Vvdwtot], mm4       ;# store the sum       	prefetchw [edi + ebx*4]	;# prefetch the 2nd faction to cache 	pfmul mm2, mm0		;# mult by fs  	pfmul mm3, mm0	movq mm4,  [esp + nb310_dx2] 	;# fetch dr 	movd mm5,  [esp + nb310_dz2]	pfmul mm4, mm1   	;# mult by fs  	pfmul mm5, mm1	;# update i forces 	movq mm0,  [esp + nb310_fix]	movd mm1,  [esp + nb310_fiz]	pfadd mm0, mm2	pfadd mm1, mm3	pfadd mm0, mm4	pfadd mm1, mm5	movq [esp + nb310_fix], mm0	movd [esp + nb310_fiz], mm1	;# update j forces 	movq mm0,  [edi + eax*4]	movd mm1,  [edi + eax*4 + 8]	movq mm6,  [edi + ebx*4]	movd mm7,  [edi + ebx*4 + 8]		pfsub mm0, mm2	pfsub mm1, mm3	pfsub mm6, mm4	pfsub mm7, mm5		movq [edi + eax*4], mm0	movd [edi + eax*4 +8], mm1	movq [edi + ebx*4], mm6	movd [edi + ebx*4 + 8], mm7		;# should we do one more iteration? 	sub dword ptr [esp + nb310_innerk],  2	jl    .nb310_finish_inner	jmp   .nb310_unroll_loop.nb310_finish_inner:		and dword ptr [esp + nb310_innerk],  1	jnz  .nb310_single_inner	jmp  .nb310_updateouterdata		.nb310_single_inner:	;# a single j particle iteration here - compare with the unrolled code for comments. 	mov   eax, [esp + nb310_innerjjnr]	mov   eax, [eax]	;# eax=jnr offset 	mov ecx, [ebp + nb310_charge]	movd mm5, [esp + nb310_iq]	movd mm3, [ecx + eax*4]	pfmul mm3, mm5	  	;# mm3=qq 	mov esi, [ebp + nb310_vdwparam]	mov ecx, [ebp + nb310_type]	mov edx, [ecx + eax*4]        	 ;# type [jnr1] 	shl edx, 1	add edx, [esp + nb310_ntia]	     ;# tja = ntia + 2*type 	movd mm5, [esi + edx*4]		;# mm5 = 1st c6  			movq [esp + nb310_c6], mm5	movd mm5, [esi + edx*4 + 4]	;# mm5 = 1st c12  			movq [esp + nb310_c12], mm5	mov   esi, [ebp + nb310_pos]	lea   eax, [eax + eax*2]	movq  mm0, [esp + nb310_ix]	movd  mm1, [esp + nb310_iz]	movq  mm4, [esi + eax*4]	movd  mm5, [esi + eax*4 + 8]	pfsubr mm4, mm0	pfsubr mm5, mm1	movq  [esp + nb310_dx1], mm4	pfmul mm4,mm4	movd  [esp + nb310_dz1], mm5		pfmul mm5,mm5	pfacc mm4, mm5	pfacc mm4, mm5		;# mm4=rsq 	    	pfrsqrt mm0,mm4    	movq mm2,mm0    	pfmul mm0,mm0    	pfrsqit1 mm0,mm4				    	pfrcpit2 mm0,mm2	;# mm1=invsqrt 	pfmul mm4, mm0	movq mm1, mm4	;# mm0 is invsqrt, and mm1 r. 	;# calculate potentials and scalar force 	pfmul mm1, [esp + nb310_tsc]	;# mm1=rt 	pf2iw mm4,mm1	movd [esp + nb310_n1], mm4	pi2fd mm4,mm4	pfsub mm1, mm4               ;# now mm1 is eps and mm4 is n0 	movq mm2,mm1	pfmul mm2,mm2	;# mm1 is eps, mm2 is eps2 		;# coulomb table 	mov edx, [ebp + nb310_VFtab]	mov ecx, [esp + nb310_n1]	shl ecx, 2	;# load all the table values we need 	movd mm4, [edx + ecx*4]	movd mm5, [edx + ecx*4 + 4]	movd mm6, [edx + ecx*4 + 8]	movd mm7, [edx + ecx*4 + 12]	pfmul mm6, mm1  ;# mm6 = Geps 			pfmul mm7, mm2	;# mm7 = Heps2 	pfadd mm5, mm6	pfadd mm5, mm7	;# mm5 = Fp 	pfmul mm7, [esp + nb310_two]	;# two*Heps2 	pfadd mm7, mm6	pfadd mm7, mm5	;# mm7=FF 	pfmul mm5, mm1  ;# mm5=eps*Fp 	pfadd mm5, mm4	;#  mm5= VV 	pfmul mm5, mm3	;# vcoul=qq*VV 	pfmul mm3, mm7	;# fijC=FF*qq  		;# at this point mm5 contains vcoul and mm3 fijC 	movq mm1, mm0	pfmul mm1,mm1 	;# mm1=invsq 	movq mm2, mm1	pfmul mm2,mm1	pfmul mm2,mm1	;# mm2=rinvsix 	movq  mm1,mm2	pfmul mm1,mm1	;# mm1=rinvtwelve 		pfmul mm3, [esp + nb310_tsc]		pfmul mm1, [esp + nb310_c12]	pfmul mm2, [esp + nb310_c6]	movq mm4, mm1	pfsub mm4, mm2	;# mm4 = Vvdw12-Vvdw6 	pfmul mm2, [esp + nb310_six]	pfmul mm1, [esp + nb310_twelve]	pfsub mm1, mm2	pfmul mm1, mm0	;# mm1=	(12*Vvdw12-6*Vvdw6)*rinv11 	pfsub mm1, mm3	;# update vctot 	pfadd mm5, [esp + nb310_vctot]      ;# add the earlier value 	movq [esp + nb310_vctot], mm5       ;# store the sum        	pfmul mm0, mm1    ;# mm0 is total fscal now 		;# spread fscalar to both positions 	punpckldq mm0,mm0	;# calc vectorial force 	prefetchw [edi + eax*4]	;# prefetch faction to cache  	movq mm2,  [esp + nb310_dx1]	movd mm3,  [esp + nb310_dz1]	;# update Vvdwtot 	pfadd mm4, [esp + nb310_Vvdwtot]      ;# add the earlier value 	movq [esp + nb310_Vvdwtot], mm4       ;# store the sum       	pfmul mm2, mm0	pfmul mm3, mm0	;# update i particle force 	movq mm0,  [esp + nb310_fix]	movd mm1,  [esp + nb310_fiz]	pfadd mm0, mm2	pfadd mm1, mm3	movq [esp + nb310_fix], mm0	movd [esp + nb310_fiz], mm1	;# update j particle force 	movq mm0,  [edi + eax*4]	movd mm1,  [edi + eax*4 + 8]	pfsub mm0, mm2	pfsub mm1, mm3	movq [edi + eax*4], mm0	movd [edi + eax*4 +8], mm1	;# done! .nb310_updateouterdata:		mov   ecx, [esp + nb310_ii3]	movq  mm6, [edi + ecx*4]       ;# increment i force 	movd  mm7, [edi + ecx*4 + 8]		pfadd mm6, [esp + nb310_fix]	pfadd mm7, [esp + nb310_fiz]	movq  [edi + ecx*4],    mm6	movd  [edi + ecx*4 +8], mm7	mov   ebx, [ebp + nb310_fshift]    ;# increment fshift force 	mov   edx, [esp + nb310_is3]	movq  mm6, [ebx + edx*4]		movd  mm7, [ebx + edx*4 + 8]		pfadd mm6, [esp + nb310_fix] 	pfadd mm7, [esp + nb310_fiz] 	movq  [ebx + edx*4],     mm6	movd  [ebx + edx*4 + 8], mm7	;# get n from stack	mov esi, [esp + nb310_n]        ;# get group index for i particle         mov   edx, [ebp + nb310_gid]      	;# base of gid[]        mov   edx, [edx + esi*4]		;# ggid=gid[n]	movq  mm7, [esp + nb310_vctot]     	pfacc mm7,mm7	          ;# get and sum the two parts of total potential 		mov   eax, [ebp + nb310_Vc]	movd  mm6, [eax + edx*4] 	pfadd mm6, mm7	movd  [eax + edx*4], mm6          ;# increment vc[gid]  	movq  mm7, [esp + nb310_Vvdwtot]     	pfacc mm7,mm7	          ;# get and sum the two parts of total potential 		mov   eax, [ebp + nb310_Vvdw] 	movd  mm6, [eax + edx*4] 	pfadd mm6, mm7	movd  [eax + edx*4], mm6          ;# increment Vvdw[gid]        	;# finish if last         mov ecx, [esp + nb310_nn1]	;# esi already loaded with n	inc esi        sub ecx, esi        jecxz .nb310_outerend        ;# not last, iterate outer loop once more!          mov [esp + nb310_n], esi        jmp .nb310_outer.nb310_outerend:        ;# check if more outer neighborlists remain        mov   ecx, [esp + nb310_nri]	;# esi already loaded with n above        sub   ecx, esi        jecxz .nb310_end        ;# non-zero, do one more workunit        jmp   .nb310_threadloop.nb310_end:	femms	mov eax, [esp + nb310_nouter] 		mov ebx, [esp + nb310_ninner]	mov ecx, [ebp + nb310_outeriter]	mov edx, [ebp + nb310_inneriter]	mov [ecx], eax	mov [edx], ebx	add esp, 176	pop edi	pop esi    	pop edx    	pop ecx    	pop ebx    	pop eax	leave	ret.globl nb_kernel310nf_ia32_3dnow.globl _nb_kernel310nf_ia32_3dnownb_kernel310nf_ia32_3dnow:	_nb_kernel310nf_ia32_3dnow:	.equiv		nb310nf_p_nri,		8.equiv		nb310nf_iinr,		12.equiv		nb310nf_jindex,		16.equiv		nb310nf_jjnr,		20.equiv		nb310nf_shift,		24.equiv		nb310nf_shiftvec,	28.equiv		nb310nf_fshift,		32.equiv		nb310nf_gid,		36.equiv		nb310nf_pos,		40		.equiv		nb310nf_faction,	44.equiv		nb310nf_charge,		48.equiv		nb310nf_p_facel,	52.equiv		nb310nf_p_krf,		56	.equiv		nb310nf_p_crf,		60	.equiv		nb310nf_Vc,		64	.equiv		nb310nf_type,		68.equiv		nb310nf_p_ntype,	72.equiv		nb310nf_vdwparam,	76	.equiv		nb310nf_Vvdw,		80	.equiv		nb310nf_p_tabscale,	84	.equiv		nb310nf_VFtab,		88.equiv		nb310nf_invsqrta,	92	.equiv		nb310nf_dvda,		96.equiv          nb310nf_p_gbtabscale,   100.equiv          nb310nf_GBtab,          104.equiv          nb310nf_p_nthreads,     108.equiv          nb310nf_count,          112.equiv          nb310nf_mtx,            116.equiv          nb310nf_outeriter,      120.equiv          nb310nf_inneriter,      124.equiv          nb310nf_work,           128	;# stack offsets for local variables .equiv		nb310nf_is3,		0 .equiv		nb310nf_ii3,		4.equiv		nb310nf_ix,		8.equiv		nb310nf_iy,		12.equiv		nb310nf_iz,		16.equiv		nb310nf_iq,		20 .equiv		nb310nf_vctot,		28 .equiv		nb310nf_Vvdwtot,	36 .equiv		nb310nf_c6,		44 .equiv		nb310nf_c12,		52.equiv		nb310nf_n1,		60 .equiv		nb310nf_tsc,		68 .equiv		nb310nf_ntia,		76.equiv		nb310nf_innerjjnr,	80.equiv		nb310nf_innerk,		84				.equiv          nb310nf_n,              88 ;# idx for outer loop.equiv          nb310nf_nn1,            92 ;# number of outer iterations.equiv          nb310nf_nri,            96.equiv          nb310nf_facel,          100.equiv          nb310nf_ntype,          104.equiv          nb310nf_nouter,         108.equiv          nb310nf_ninner,         112	push ebp	mov ebp,esp	    	push eax    	push ebx    	push ecx    	push edx	push esi	push edi	sub esp, 116		;# local stack space 	femms	;# move data to local stack  	mov ecx, [ebp + nb310nf_p_nri]	mov edx, [ebp + nb310nf_p_ntype]	mov esi, [ebp + nb310nf_p_facel]	mov edi, [ebp + nb310nf_p_tabscale]	mov ecx, [ecx]	mov edx, [edx]	mov esi, [esi]	mov [esp + nb310nf_nri], ecx	mov [esp + nb310nf_ntype], edx	mov [esp + nb310nf_facel], esi	movd  mm3, [edi]	punpckldq mm3,mm3	movq  [esp + nb310nf_tsc], mm3		;# zero iteration counters	mov eax, 0	mov [esp + nb310nf_nouter], eax	mov [esp + nb310nf_ninner], eax
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -