nb_kernel313_x86_64_sse2.intel_syntax.s

来自「最著名最快的分子模拟软件」· S 代码 · 共 2,374 行 · 第 1/5 页
2,374 行
    mulpd  xmm5, [rsp + nb313_c12]    movapd xmm6, xmm5    subpd  xmm6, xmm4  ;# Vvdw=vvdw12-vvdw6    mulpd  xmm4, [rsp + nb313_six]    mulpd  xmm5, [rsp + nb313_twelve]    subpd  xmm5, xmm4    mulpd  xmm3, xmm5   ;# fscal        addpd  xmm6, [rsp + nb313_Vvdwtot]    movapd [rsp + nb313_Vvdwtot], xmm6        mulpd  xmm13, xmm3 ;# fx    mulpd  xmm14, xmm3 ;# fy    mulpd  xmm15, xmm3 ;# fz    ;# save j force temporarily    movapd [rsp + nb313_fjx], xmm13    movapd [rsp + nb313_fjy], xmm14    movapd [rsp + nb313_fjz], xmm15        ;# increment i O force    addpd xmm13, [rsp + nb313_fixO]    addpd xmm14, [rsp + nb313_fiyO]    addpd xmm15, [rsp + nb313_fizO]    movapd [rsp + nb313_fixO], xmm13    movapd [rsp + nb313_fiyO], xmm14    movapd [rsp + nb313_fizO], xmm15        ;# finished O LJ interaction.    ;# do H1, H2, and M interactions in parallel.    ;# xmm0-xmm2 still contain j coordinates.                    movapd xmm3, xmm0    movapd xmm4, xmm1    movapd xmm5, xmm2    movapd xmm6, xmm0    movapd xmm7, xmm1    movapd xmm8, xmm2        subpd xmm0, [rsp + nb313_ixH1]    subpd xmm1, [rsp + nb313_iyH1]    subpd xmm2, [rsp + nb313_izH1]    subpd xmm3, [rsp + nb313_ixH2]    subpd xmm4, [rsp + nb313_iyH2]    subpd xmm5, [rsp + nb313_izH2]    subpd xmm6, [rsp + nb313_ixM]    subpd xmm7, [rsp + nb313_iyM]    subpd xmm8, [rsp + nb313_izM]    	movapd [rsp + nb313_dxH1], xmm0	movapd [rsp + nb313_dyH1], xmm1	movapd [rsp + nb313_dzH1], xmm2	mulpd  xmm0, xmm0	mulpd  xmm1, xmm1	mulpd  xmm2, xmm2	movapd [rsp + nb313_dxH2], xmm3	movapd [rsp + nb313_dyH2], xmm4	movapd [rsp + nb313_dzH2], xmm5	mulpd  xmm3, xmm3	mulpd  xmm4, xmm4	mulpd  xmm5, xmm5	movapd [rsp + nb313_dxM], xmm6	movapd [rsp + nb313_dyM], xmm7	movapd [rsp + nb313_dzM], xmm8	mulpd  xmm6, xmm6	mulpd  xmm7, xmm7	mulpd  xmm8, xmm8	addpd  xmm0, xmm1	addpd  xmm0, xmm2	addpd  xmm3, xmm4	addpd  xmm3, xmm5    addpd  xmm6, xmm7    addpd  xmm6, xmm8	;# start doing invsqrt for j atoms    cvtpd2ps xmm1, xmm0    cvtpd2ps xmm4, xmm3    cvtpd2ps xmm7, xmm6	rsqrtps xmm1, xmm1	rsqrtps xmm4, xmm4    rsqrtps xmm7, xmm7    cvtps2pd xmm1, xmm1    cvtps2pd xmm4, xmm4    cvtps2pd xmm7, xmm7		movapd  xmm2, xmm1	movapd  xmm5, xmm4    movapd  xmm8, xmm7    	mulpd   xmm1, xmm1 ;# lu*lu	mulpd   xmm4, xmm4 ;# lu*lu    mulpd   xmm7, xmm7 ;# lu*lu			movapd  xmm9, [rsp + nb313_three]	movapd  xmm10, xmm9    movapd  xmm11, xmm9	mulpd   xmm1, xmm0 ;# rsq*lu*lu	mulpd   xmm4, xmm3 ;# rsq*lu*lu     mulpd   xmm7, xmm6 ;# rsq*lu*lu		subpd   xmm9, xmm1	subpd   xmm10, xmm4    subpd   xmm11, xmm7 ;# 3-rsq*lu*lu	mulpd   xmm9, xmm2	mulpd   xmm10, xmm5    mulpd   xmm11, xmm8 ;# lu*(3-rsq*lu*lu)	movapd  xmm15, [rsp + nb313_half]	mulpd   xmm9, xmm15  ;# first iteration for rinvH1	mulpd   xmm10, xmm15 ;# first iteration for rinvH2    mulpd   xmm11, xmm15 ;# first iteration for rinvM    ;# second iteration step    	movapd  xmm2, xmm9	movapd  xmm5, xmm10    movapd  xmm8, xmm11    	mulpd   xmm2, xmm2 ;# lu*lu	mulpd   xmm5, xmm5 ;# lu*lu    mulpd   xmm8, xmm8 ;# lu*lu			movapd  xmm1, [rsp + nb313_three]	movapd  xmm4, xmm1    movapd  xmm7, xmm1	mulpd   xmm2, xmm0 ;# rsq*lu*lu	mulpd   xmm5, xmm3 ;# rsq*lu*lu     mulpd   xmm8, xmm6 ;# rsq*lu*lu		subpd   xmm1, xmm2	subpd   xmm4, xmm5    subpd   xmm7, xmm8 ;# 3-rsq*lu*lu	mulpd   xmm9, xmm1	mulpd   xmm10, xmm4    mulpd   xmm11, xmm7 ;# lu*(3-rsq*lu*lu)	movapd  xmm15, [rsp + nb313_half]	mulpd   xmm9, xmm15  ;#  rinvH1	mulpd   xmm10, xmm15 ;#   rinvH2    mulpd   xmm11, xmm15 ;#   rinvM		movapd  [rsp + nb313_rinvH1], xmm9	movapd  [rsp + nb313_rinvH2], xmm10	movapd  [rsp + nb313_rinvM], xmm11		;# interactions     ;# rsq in xmm0,xmm3,xmm6      ;# rinv in xmm9, xmm10, xmm11    movapd xmm1, [rsp + nb313_tsc]    mulpd  xmm0, xmm9  ;# r    mulpd  xmm3, xmm10    mulpd  xmm6, xmm11    mulpd  xmm0, xmm1 ;# rtab    mulpd  xmm3, xmm1    mulpd  xmm6, xmm1        ;# truncate and convert to integers    cvttpd2dq xmm1, xmm0    cvttpd2dq xmm4, xmm3    cvttpd2dq xmm7, xmm6            ;# convert back to float    cvtdq2pd  xmm2, xmm1    cvtdq2pd  xmm5, xmm4    cvtdq2pd  xmm8, xmm7        ;# multiply by 4    pslld   xmm1, 2    pslld   xmm4, 2    pslld   xmm7, 2        ;# move to integer registers    pshufd xmm13, xmm1, 1    pshufd xmm14, xmm4, 1    pshufd xmm15, xmm7, 1    movd    r8d, xmm1    movd    r10d, xmm4    movd    r12d, xmm7    movd    r9d, xmm13    movd    r11d, xmm14    movd    r13d, xmm15            mov  rsi, [rbp + nb313_VFtab]    ;# calculate eps    subpd     xmm0, xmm2    subpd     xmm3, xmm5    subpd     xmm6, xmm8    movapd xmm12, xmm0  ;# epsH1    movapd xmm13, xmm3  ;# epsH2    movapd xmm14, xmm6  ;# epsM    ;# Load LOTS of table data    movlpd xmm0,  [rsi + r8*8]    movlpd xmm1,  [rsi + r8*8 + 8]    movlpd xmm2,  [rsi + r8*8 + 16]    movlpd xmm3,  [rsi + r8*8 + 24]    movlpd xmm4,  [rsi + r10*8]    movlpd xmm5,  [rsi + r10*8 + 8]    movlpd xmm6,  [rsi + r10*8 + 16]    movlpd xmm7,  [rsi + r10*8 + 24]    movlpd xmm8,  [rsi + r12*8]    movlpd xmm9,  [rsi + r12*8 + 8]    movlpd xmm10, [rsi + r12*8 + 16]    movlpd xmm11, [rsi + r12*8 + 24]    movhpd xmm0,  [rsi + r9*8]    movhpd xmm1,  [rsi + r9*8 + 8]    movhpd xmm2,  [rsi + r9*8 + 16]    movhpd xmm3,  [rsi + r9*8 + 24]    movhpd xmm4,  [rsi + r11*8]    movhpd xmm5,  [rsi + r11*8 + 8]    movhpd xmm6,  [rsi + r11*8 + 16]    movhpd xmm7,  [rsi + r11*8 + 24]    movhpd xmm8,  [rsi + r13*8]    movhpd xmm9,  [rsi + r13*8 + 8]    movhpd xmm10, [rsi + r13*8 + 16]    movhpd xmm11, [rsi + r13*8 + 24]    ;# table data ready in xmm0-xmm3 , xmm4-xmm7 , and xmm8-xmm11            mulpd  xmm3, xmm12   ;# Heps    mulpd  xmm7, xmm13    mulpd  xmm11, xmm14     mulpd  xmm2, xmm12   ;# Geps    mulpd  xmm6, xmm13    mulpd  xmm10, xmm14     mulpd  xmm3, xmm12   ;# Heps2    mulpd  xmm7, xmm13    mulpd  xmm11, xmm14     addpd  xmm1, xmm2   ;# F+Geps    addpd  xmm5, xmm6    addpd  xmm9, xmm10     addpd  xmm1, xmm3   ;# F+Geps+Heps2 = Fp    addpd  xmm5, xmm7    addpd  xmm9, xmm11     addpd  xmm3, xmm3    ;# 2*Heps2    addpd  xmm7, xmm7    addpd  xmm11, xmm11    addpd  xmm3, xmm2    ;# 2*Heps2+Geps    addpd  xmm7, xmm6      addpd  xmm11, xmm10    addpd  xmm3, xmm1   ;# FF = Fp + 2*Heps2 + Geps    addpd  xmm7, xmm5    addpd  xmm11, xmm9    mulpd  xmm1, xmm12   ;# eps*Fp    mulpd  xmm5, xmm13    mulpd  xmm9, xmm14    movapd xmm12, [rsp + nb313_qqH]    movapd xmm13, [rsp + nb313_qqM]    addpd  xmm1, xmm0     ;# VV    addpd  xmm5, xmm4    addpd  xmm9, xmm8    mulpd  xmm1, xmm12   ;# VV*qq = vcoul    mulpd  xmm5, xmm12    mulpd  xmm9, xmm13    mulpd  xmm3, xmm12    ;# FF*qq = fij    mulpd  xmm7, xmm12    mulpd  xmm11, xmm13        ;# accumulate vctot    addpd  xmm1, [rsp + nb313_vctot]    addpd  xmm5, xmm9    addpd  xmm1, xmm5    movapd [rsp + nb313_vctot], xmm1        movapd xmm10, [rsp + nb313_tsc]    mulpd  xmm3, xmm10  ;# fscal    mulpd  xmm7, xmm10    mulpd  xmm10, xmm11        xorpd xmm4, xmm4    xorpd xmm8, xmm8    xorpd xmm11, xmm11        subpd xmm4, xmm3    subpd xmm8, xmm7    subpd xmm11, xmm10    mulpd xmm4, [rsp + nb313_rinvH1]    mulpd xmm8, [rsp + nb313_rinvH2]    mulpd xmm11, [rsp + nb313_rinvM]        ;# move j forces to xmm0-xmm2    mov rdi, [rbp + nb313_faction]	movlpd xmm0, [rdi + rax*8]	movlpd xmm1, [rdi + rax*8 + 8]	movlpd xmm2, [rdi + rax*8 + 16]	movhpd xmm0, [rdi + rbx*8]	movhpd xmm1, [rdi + rbx*8 + 8]	movhpd xmm2, [rdi + rbx*8 + 16]    movapd xmm3, xmm4    movapd xmm5, xmm4    movapd xmm7, xmm8    movapd xmm9, xmm8    movapd xmm10, xmm11    movapd xmm12, xmm11    ;# add forces from O interaction    addpd xmm0, [rsp + nb313_fjx]    addpd xmm1, [rsp + nb313_fjy]    addpd xmm2, [rsp + nb313_fjz]	mulpd xmm3, [rsp + nb313_dxH1]	mulpd xmm4, [rsp + nb313_dyH1]	mulpd xmm5, [rsp + nb313_dzH1]	mulpd xmm7, [rsp + nb313_dxH2]	mulpd xmm8, [rsp + nb313_dyH2]	mulpd xmm9, [rsp + nb313_dzH2]	mulpd xmm10, [rsp + nb313_dxM]	mulpd xmm11, [rsp + nb313_dyM]	mulpd xmm12, [rsp + nb313_dzM]    addpd xmm0, xmm3    addpd xmm1, xmm4    addpd xmm2, xmm5    addpd xmm3, [rsp + nb313_fixH1]    addpd xmm4, [rsp + nb313_fiyH1]    addpd xmm5, [rsp + nb313_fizH1]    addpd xmm0, xmm7    addpd xmm1, xmm8    addpd xmm2, xmm9    addpd xmm7, [rsp + nb313_fixH2]    addpd xmm8, [rsp + nb313_fiyH2]    addpd xmm9, [rsp + nb313_fizH2]    addpd xmm0, xmm10    addpd xmm1, xmm11    addpd xmm2, xmm12    addpd xmm10, [rsp + nb313_fixM]    addpd xmm11, [rsp + nb313_fiyM]    addpd xmm12, [rsp + nb313_fizM]    movapd [rsp + nb313_fixH1], xmm3    movapd [rsp + nb313_fiyH1], xmm4    movapd [rsp + nb313_fizH1], xmm5    movapd [rsp + nb313_fixH2], xmm7    movapd [rsp + nb313_fiyH2], xmm8    movapd [rsp + nb313_fizH2], xmm9    movapd [rsp + nb313_fixM], xmm10    movapd [rsp + nb313_fiyM], xmm11    movapd [rsp + nb313_fizM], xmm12       ;# store back j forces from xmm0-xmm2	movlpd [rdi + rax*8], xmm0	movlpd [rdi + rax*8 + 8], xmm1	movlpd [rdi + rax*8 + 16], xmm2	movhpd [rdi + rbx*8], xmm0	movhpd [rdi + rbx*8 + 8], xmm1	movhpd [rdi + rbx*8 + 16], xmm2	;# should we do one more iteration? 	sub dword ptr [rsp + nb313_innerk],  2	jl    .nb313_checksingle	jmp   .nb313_unroll_loop.nb313_checksingle:		mov   edx, [rsp + nb313_innerk]	and   edx, 1	jnz   .nb313_dosingle	jmp   .nb313_updateouterdata.nb313_dosingle:	mov   rdx, [rsp + nb313_innerjjnr]     ;# pointer to jjnr[k] 	mov   eax, [rdx]	mov rsi, [rbp + nb313_charge]    ;# base of charge[] 	xorpd xmm3, xmm3		movlpd xmm3, [rsi + rax*8]	movapd xmm4, xmm3	     	mulpd  xmm3, [rsp + nb313_iqM]	mulpd  xmm4, [rsp + nb313_iqH]	movapd  [rsp + nb313_qqM], xmm3	movapd  [rsp + nb313_qqH], xmm4			mov rsi, [rbp + nb313_type]	mov r8d, [rsi + rax*4]	mov rsi, [rbp + nb313_vdwparam]	shl r8d, 1		mov edi, [rsp + nb313_ntia]	add r8d, edi	movlpd xmm6, [rsi + r8*8]	;# c6a	movhpd xmm6, [rsi + r8*8 + 8]	;# c6a c12a 	xorpd xmm7, xmm7	movapd xmm4, xmm6	unpcklpd xmm4, xmm7	unpckhpd xmm6, xmm7		movapd [rsp + nb313_c6], xmm4	movapd [rsp + nb313_c12], xmm6		mov rsi, [rbp + nb313_pos]       ;# base of pos[] 	lea   rax, [rax + rax*2]     ;# replace jnr with j3 		;# move coordinates to xmm0-xmm2  and xmm4-xmm6	movlpd xmm4, [rsi + rax*8]	movlpd xmm5, [rsi + rax*8 + 8]	movlpd xmm6, [rsi + rax*8 + 16]    movapd xmm0, xmm4    movapd xmm1, xmm5    movapd xmm2, xmm6	;# calc dr 	subsd xmm4, [rsp + nb313_ixO]	subsd xmm5, [rsp + nb313_iyO]	subsd xmm6, [rsp + nb313_izO]	;# store dr 	movapd [rsp + nb313_dxO], xmm4	movapd [rsp + nb313_dyO], xmm5	movapd [rsp + nb313_dzO], xmm6	;# square it 	mulsd xmm4,xmm4	mulsd xmm5,xmm5	mulsd xmm6,xmm6	addsd xmm4, xmm5	addsd xmm4, xmm6	movapd xmm7, xmm4	;# rsqO in xmm7 	;# move j coords to xmm4-xmm6 	movapd xmm4, xmm0	movapd xmm5, xmm1	movapd xmm6, xmm2	;# calc dr 	subsd xmm4, [rsp + nb313_ixH1]	subsd xmm5, [rsp + nb313_iyH1]	subsd xmm6, [rsp + nb313_izH1]	;# store dr 	movapd [rsp + nb313_dxH1], xmm4	movapd [rsp + nb313_dyH1], xmm5	movapd [rsp + nb313_dzH1], xmm6	;# square it 	mulsd xmm4,xmm4	mulsd xmm5,xmm5	mulsd xmm6,xmm6	addsd xmm6, xmm5	addsd xmm6, xmm4	;# rsqH1 in xmm6 	;# move j coords to xmm3-xmm5 	movapd xmm3, xmm0	movapd xmm4, xmm1	movapd xmm5, xmm2	;# calc dr 	subsd xmm3, [rsp + nb313_ixH2]	subsd xmm4, [rsp + nb313_iyH2]	subsd xmm5, [rsp + nb313_izH2]	;# store dr 	movapd [rsp + nb313_dxH2], xmm3	movapd [rsp + nb313_dyH2], xmm4	movapd [rsp + nb313_dzH2], xmm5	;# square it 	mulsd xmm3,xmm3	mulsd xmm4,xmm4	mulsd xmm5,xmm5	addsd xmm5, xmm4	addsd xmm5, xmm3	;# move j coords to xmm4-xmm2	movapd xmm4, xmm0	movapd xmm3, xmm1    ;# xmm2 already contains z	;# calc dr
nb_kernel313_x86_64_sse2.intel_syntax.s - 源码说明

本页面展示了「最著名最快的分子模拟软件」中的 nb_kernel313_x86_64_sse2.intel_syntax.s 源码文件，采用 S 编程语言编写，共 2,374 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。
虫虫下载站收录了大量与分子相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。
⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?