📄 zgemv_t_sse2.s
字号:
ADD %xmm11, %xmm7 MOVDDUP(7 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(6 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(7 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(6 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(7 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(8 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(9 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(8 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 10 * SIZE(BO), %xmm13 ADD %xmm11, %xmm7 MOVDDUP(9 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(8 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(9 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(8 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(9 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(10 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(11 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(10 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 12 * SIZE(BO), %xmm12 ADD %xmm11, %xmm7 MOVDDUP(11 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(10 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(11 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(10 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(11 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(12 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(13 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(12 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 14 * SIZE(BO), %xmm13 ADD %xmm11, %xmm7 MOVDDUP(13 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(12 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(13 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(12 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(13 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(14 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(15 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(14 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 16 * SIZE(BO), %xmm12 ADD %xmm11, %xmm7 MOVDDUP(15 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(14 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(15 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(14 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(15 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 mulpd %xmm13, %xmm11 movapd 18 * SIZE(BO), %xmm13 ADD %xmm11, %xmm7 addq $16 * SIZE, AO1 addq $16 * SIZE, AO2 addq $16 * SIZE, BO ALIGN_3.L24: movq MIN_N, I andq $4, I jle .L25 MOVDDUP(0 * SIZE, AO1, %xmm8) MOVDDUP(1 * SIZE, AO1, %xmm9) MOVDDUP(0 * SIZE, AO2, %xmm10) MOVDDUP(1 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(0 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(1 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(0 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(1 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(2 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(3 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(2 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 4 * SIZE(BO), %xmm12 ADD %xmm11, %xmm7 MOVDDUP(3 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(2 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(3 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(2 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(3 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(4 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(5 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(4 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 6 * SIZE(BO), %xmm13 ADD %xmm11, %xmm7 MOVDDUP(5 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(4 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(5 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(4 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(5 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(6 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(7 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(6 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 8 * SIZE(BO), %xmm12 ADD %xmm11, %xmm7 MOVDDUP(7 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(6 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(7 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(6 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(7 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 mulpd %xmm13, %xmm11 movapd 10 * SIZE(BO), %xmm13 ADD %xmm11, %xmm7 addq $8 * SIZE, AO1 addq $8 * SIZE, AO2 addq $8 * SIZE, BO ALIGN_3.L25: movq MIN_N, I andq $2, I jle .L26 MOVDDUP(0 * SIZE, AO1, %xmm8) MOVDDUP(1 * SIZE, AO1, %xmm9) MOVDDUP(0 * SIZE, AO2, %xmm10) MOVDDUP(1 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(0 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(1 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(0 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(1 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 MOVDDUP(2 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 MOVDDUP(3 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 MOVDDUP(2 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 4 * SIZE(BO), %xmm12 ADD %xmm11, %xmm7 MOVDDUP(3 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(2 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(3 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(2 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm13, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(3 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm4 mulpd %xmm13, %xmm9 ADD %xmm9, %xmm5 mulpd %xmm13, %xmm10 addpd %xmm10, %xmm6 mulpd %xmm13, %xmm11 ADD %xmm11, %xmm7 addq $4 * SIZE, AO1 addq $4 * SIZE, AO2 addq $4 * SIZE, BO ALIGN_2.L26: movq MIN_N, I andq $1, I jle .L27 MOVDDUP(0 * SIZE, AO1, %xmm8) MOVDDUP(1 * SIZE, AO1, %xmm9) MOVDDUP(0 * SIZE, AO2, %xmm10) MOVDDUP(1 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm0 MOVDDUP2(0 * SIZE, (AO1, LDA, 2), %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP2(1 * SIZE, (AO1, LDA, 2), %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP2(0 * SIZE, (AO2, LDA, 2), %xmm10) mulpd %xmm12, %xmm11 ADD %xmm11, %xmm3 MOVDDUP2(1 * SIZE, (AO2, LDA, 2), %xmm11) mulpd %xmm12, %xmm8 addpd %xmm8, %xmm4 mulpd %xmm12, %xmm9 ADD %xmm9, %xmm5 mulpd %xmm12, %xmm10 addpd %xmm10, %xmm6 mulpd %xmm12, %xmm11 ADD %xmm11, %xmm7 ALIGN_3.L27:#ifndef OPTERON SHUFPD_1 %xmm1, %xmm1 SHUFPD_1 %xmm3, %xmm3 SHUFPD_1 %xmm5, %xmm5 SHUFPD_1 %xmm7, %xmm7#else movapd %xmm1, %xmm8 unpckhpd %xmm1, %xmm1 movapd %xmm3, %xmm9 unpckhpd %xmm3, %xmm3 movapd %xmm5, %xmm10 unpckhpd %xmm5, %xmm5 movapd %xmm7, %xmm11 unpckhpd %xmm7, %xmm7 unpcklpd %xmm8, %xmm1 unpcklpd %xmm9, %xmm3 unpcklpd %xmm10, %xmm5 unpcklpd %xmm11, %xmm7#endif#ifdef HAVE_SSE3 addsubpd %xmm1, %xmm0 addsubpd %xmm3, %xmm2 addsubpd %xmm5, %xmm4 addsubpd %xmm7, %xmm6#else xorpd %xmm14, %xmm1 xorpd %xmm14, %xmm3 xorpd %xmm14, %xmm5 xorpd %xmm14, %xmm7 addpd %xmm1, %xmm0 addpd %xmm3, %xmm2 addpd %xmm5, %xmm4 addpd %xmm7, %xmm6#endif movapd %xmm0, %xmm1 movapd %xmm2, %xmm3 movapd %xmm4, %xmm5 movapd %xmm6, %xmm7 unpcklpd %xmm0, %xmm0 unpckhpd %xmm1, %xmm1 unpcklpd %xmm2, %xmm2 unpckhpd %xmm3, %xmm3 unpcklpd %xmm4, %xmm4 unpckhpd %xmm5, %xmm5 unpcklpd %xmm6, %xmm6 unpckhpd %xmm7, %xmm7 mulpd ALPHA, %xmm0 mulpd ALPHA, %xmm1 mulpd ALPHA, %xmm2 mulpd ALPHA, %xmm3 mulpd ALPHA, %xmm4 mulpd ALPHA, %xmm5 mulpd ALPHA, %xmm6 mulpd ALPHA, %xmm7#ifndef OPTERON SHUFPD_1 %xmm1, %xmm1 SHUFPD_1 %xmm3, %xmm3 SHUFPD_1 %xmm5, %xmm5 SHUFPD_1 %xmm7, %xmm7#else movapd %xmm1, %xmm8 unpckhpd %xmm1, %xmm1 movapd %xmm3, %xmm9 unpckhpd %xmm3, %xmm3 movapd %xmm5, %xmm10 unpckhpd %xmm5, %xmm5 movapd %xmm7, %xmm11 unpckhpd %xmm7, %xmm7 unpcklpd %xmm8, %xmm1 unpcklpd %xmm9, %xmm3 unpcklpd %xmm10, %xmm5 unpcklpd %xmm11, %xmm7#endif#ifdef HAVE_SSE3 addsubpd %xmm1, %xmm0 addsubpd %xmm3, %xmm2 addsubpd %xmm5, %xmm4 addsubpd %xmm7, %xmm6#else xorpd %xmm14, %xmm1 xorpd %xmm14, %xmm3 xorpd %xmm14, %xmm5 xorpd %xmm14, %xmm7 addpd %xmm1, %xmm0 addpd %xmm3, %xmm2 addpd %xmm5, %xmm4 addpd %xmm7, %xmm6#endif movq CO, TEMP movsd 0 * SIZE(TEMP), %xmm8 movhpd 1 * SIZE(TEMP), %xmm8 addpd %xmm8, %xmm0 addq INCY, TEMP movsd 0 * SIZE(TEMP), %xmm8 movhpd 1 * SIZE(TEMP), %xmm8 addpd %xmm8, %xmm2 addq INCY, TEMP movsd 0 * SIZE(TEMP), %xmm8 movhpd 1 * SIZE(TEMP), %xmm8 addpd %xmm8, %xmm4 addq INCY, TEMP movsd 0 * SIZE(TEMP), %xmm8 movhpd 1 * SIZE(TEMP), %xmm8 addpd %xmm8, %xmm6 movsd %xmm0, 0 * SIZE(CO) movhpd %xmm0, 1 * SIZE(CO) addq INCY, CO movsd %xmm2, 0 * SIZE(CO) movhpd %xmm2, 1 * SIZE(CO) addq INCY, CO movsd %xmm4, 0 * SIZE(CO) movhpd %xmm4, 1 * SIZE(CO) addq INCY, CO movsd %xmm6, 0 * SIZE(CO) movhpd %xmm6, 1 * SIZE(CO) addq INCY, CO decq J jg .L21 ALIGN_3.L30: movq N, I andq $2, I jle .L40 ALIGN_3 .L31: movq A, AO1 leaq (A, LDA, 1), AO2 leaq (A, LDA, 2), A movq BUFFER, BO movapd 0 * SIZE(BO), %xmm12 movapd 2 * SIZE(BO), %xmm13 pxor %xmm0, %xmm0 pxor %xmm1, %xmm1 pxor %xmm2, %xmm2 pxor %xmm3, %xmm3 movq MIN_N, I sarq $3, I jle .L34 MOVDDUP(0 * SIZE, AO1, %xmm8) MOVDDUP(1 * SIZE, AO1, %xmm9) MOVDDUP(0 * SIZE, AO2, %xmm10) MOVDDUP(1 * SIZE, AO2, %xmm11) decq I jle .L33 ALIGN_3.L32:#ifdef PRESCOTT PREFETCH PREFETCHSIZE * SIZE(AO1)#endif mulpd %xmm12, %xmm8#if defined(OPTERON) || defined(CORE2) || defined(PENRYN) PREFETCH PREFETCHSIZE * SIZE(AO1)#endif addpd %xmm8, %xmm0 MOVDDUP(2 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(3 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(2 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 4 * SIZE(BO), %xmm12 ADD %xmm11, %xmm3 MOVDDUP(3 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP(4 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(5 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(4 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 6 * SIZE(BO), %xmm13 ADD %xmm11, %xmm3 MOVDDUP(5 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8#if defined(OPTERON) || defined(CORE2) || defined(PENRYN) PREFETCH (PREFETCHSIZE + 8) * SIZE(AO1)#endif addpd %xmm8, %xmm0 MOVDDUP(6 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(7 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(6 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 8 * SIZE(BO), %xmm12 ADD %xmm11, %xmm3 MOVDDUP(7 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP(8 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(9 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(8 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 10 * SIZE(BO), %xmm13 ADD %xmm11, %xmm3 MOVDDUP(9 * SIZE, AO2, %xmm11)#ifdef PRESCOTT PREFETCH PREFETCHSIZE * SIZE(AO2)#endif mulpd %xmm12, %xmm8#if defined(OPTERON) || defined(CORE2) || defined(PENRYN) PREFETCH PREFETCHSIZE * SIZE(AO2)#endif addpd %xmm8, %xmm0 MOVDDUP(10 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(11 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(10 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 12 * SIZE(BO), %xmm12 ADD %xmm11, %xmm3 MOVDDUP(11 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP(12 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(13 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(12 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 14 * SIZE(BO), %xmm13 ADD %xmm11, %xmm3 MOVDDUP(13 * SIZE, AO2, %xmm11) mulpd %xmm12, %xmm8#if defined(OPTERON) || defined(CORE2) || defined(PENRYN) PREFETCH (PREFETCHSIZE + 8) * SIZE(AO2)#endif addpd %xmm8, %xmm0 MOVDDUP(14 * SIZE, AO1, %xmm8) mulpd %xmm12, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(15 * SIZE, AO1, %xmm9) mulpd %xmm12, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(14 * SIZE, AO2, %xmm10) mulpd %xmm12, %xmm11 movapd 16 * SIZE(BO), %xmm12 ADD %xmm11, %xmm3 MOVDDUP(15 * SIZE, AO2, %xmm11) mulpd %xmm13, %xmm8 addpd %xmm8, %xmm0 MOVDDUP(16 * SIZE, AO1, %xmm8) mulpd %xmm13, %xmm9 ADD %xmm9, %xmm1 MOVDDUP(17 * SIZE, AO1, %xmm9) mulpd %xmm13, %xmm10 addpd %xmm10, %xmm2 MOVDDUP(16 * SIZE, AO2, %xmm10) mulpd %xmm13, %xmm11 movapd 18 * SIZE(BO), %xmm13 ADD %xmm11, %xmm3 MOVDDUP(17 * SIZE, AO2, %xmm11) addq $16 * SIZE, AO1 addq $16 * SIZE, AO2 addq $16 * SIZE, BO decq I jg .L32
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -