📄 trsm_kernel_hummer_ln.s
字号:
fpmr f15, f0 nop srawi. r0, KK, 2 fpmr f1, f0 mtspr CTR, r0 ble .L14#else#ifdef LN slwi r0, K, 3 + BASE_SHIFT sub AORIG, AORIG, r0#endif slwi r0 , KK, 3 + BASE_SHIFT slwi TEMP, KK, 2 + BASE_SHIFT add AO, AORIG, r0 add BO, B, TEMP sub TEMP, K, KK addi AO2, AO, 2 * SIZE fpmr f4, f0 addi BO, BO, - 4 * SIZE fpmr f8, f0 addi BO2, BO, 2 * SIZE fpmr f12, f0 fpmr f5, f0 fpmr f9, f0 fpmr f13, f0 fpmr f2, f0 fpmr f6, f0 fpmr f10, f0 fpmr f14, f0 fpmr f3, f0 fpmr f7, f0 fpmr f11, f0 fpmr f15, f0 nop srawi. r0, TEMP, 2 fpmr f1, f0 mtspr CTR, r0 ble .L14#endif LFPDUX A1, AO, INC4 fpmr f5, f0 LFPDUX A3, AO, INC4 fpmr f9, f0 LFPDUX B1, BO, INC4 fpmr f13, f0 LFPDUX A5, AO, INC4 fpmr f2, f0 LFPDUX A6, AO, INC4 fpmr f6, f0 LFPDUX B3, BO, INC4 fpmr f10, f0 LFPDUX A7, AO, INC4 fpmr f14, f0 LFPDUX A8, AO, INC4 fpmr f3, f0 LFPDUX B5, BO, INC4 fpmr f7, f0 LFPDUX A9, AO, INC4 fpmr f11, f0 LFPDUX A2, AO2, INC4 fpmr f15, f0 LFPDUX B2, BO2, INC4 bdz- .L13 .align 4.L12:## 1 ## fxcpmadd f0, B1, A1, f0 nop fxcsmadd f4, B1, A1, f4 nop fxcpmadd f8, B2, A1, f8 LFPDUX B4, BO2, INC4 fxcsmadd f12, B2, A1, f12 LFPDUX B6, BO, INC4 fxcpmadd f1, B1, A2, f1 nop fxcsmadd f5, B1, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B2, A2, f9 LFPDUX A10, AO, INC4 fxcsmadd f13, B2, A2, f13 nop fxcpmadd f2, B1, A3, f2 nop fxcsmadd f6, B1, A3, f6 nop fxcpmadd f10, B2, A3, f10 nop fxcsmadd f14, B2, A3, f14 nop fxcpmadd f3, B1, A4, f3 nop fxcsmadd f7, B1, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B2, A4, f11 LFPDUX A1, AO, INC4 fxcsmadd f15, B2, A4, f15 nop## 2 ## fxcpmadd f0, B3, A5, f0 nop fxcsmadd f4, B3, A5, f4 nop fxcpmadd f8, B4, A5, f8 LFPDUX B2, BO2, INC4 fxcsmadd f12, B4, A5, f12 LFPDUX B1, BO, INC4 fxcpmadd f1, B3, A2, f1 nop fxcsmadd f5, B3, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B4, A2, f9 LFPDUX A3, AO, INC4 fxcsmadd f13, B4, A2, f13 nop fxcpmadd f2, B3, A6, f2 nop fxcsmadd f6, B3, A6, f6 nop fxcpmadd f10, B4, A6, f10 nop fxcsmadd f14, B4, A6, f14 nop fxcpmadd f3, B3, A4, f3 nop fxcsmadd f7, B3, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B4, A4, f11 LFPDUX A5, AO, INC4 fxcsmadd f15, B4, A4, f15 nop## 3 ## fxcpmadd f0, B5, A7, f0 nop fxcsmadd f4, B5, A7, f4 nop fxcpmadd f8, B2, A7, f8 LFPDUX B4, BO2, INC4 fxcsmadd f12, B2, A7, f12 LFPDUX B3, BO, INC4 fxcpmadd f1, B5, A2, f1 nop fxcsmadd f5, B5, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B2, A2, f9 LFPDUX A6, AO, INC4 fxcsmadd f13, B2, A2, f13 nop fxcpmadd f2, B5, A8, f2 nop fxcsmadd f6, B5, A8, f6 nop fxcpmadd f10, B2, A8, f10 nop fxcsmadd f14, B2, A8, f14 nop fxcpmadd f3, B5, A4, f3 nop fxcsmadd f7, B5, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B2, A4, f11 LFPDUX A7, AO, INC4 fxcsmadd f15, B2, A4, f15 nop## 4 ## fxcpmadd f0, B6, A9, f0 nop fxcsmadd f4, B6, A9, f4 nop fxcpmadd f8, B4, A9, f8 LFPDUX B2, BO2, INC4 fxcsmadd f12, B4, A9, f12 LFPDUX B5, BO, INC4 fxcpmadd f1, B6, A2, f1 nop fxcsmadd f5, B6, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B4, A2, f9 LFPDUX A8, AO, INC4 fxcsmadd f13, B4, A2, f13 nop fxcpmadd f2, B6, A10, f2 nop fxcsmadd f6, B6, A10, f6 nop fxcpmadd f10, B4, A10, f10 nop fxcsmadd f14, B4, A10, f14 nop fxcpmadd f3, B6, A4, f3 LFPDUX A2, AO2, INC4 fxcsmadd f7, B6, A4, f7 LFPDUX A9, AO, INC4 fxcpmadd f11, B4, A4, f11 nop fxcsmadd f15, B4, A4, f15 bdnz+ .L12 .align 4.L13:## 1 ## fxcpmadd f0, B1, A1, f0 nop fxcsmadd f4, B1, A1, f4 nop fxcpmadd f8, B2, A1, f8 LFPDUX B4, BO2, INC4 fxcsmadd f12, B2, A1, f12 LFPDUX B6, BO, INC4 fxcpmadd f1, B1, A2, f1 nop fxcsmadd f5, B1, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B2, A2, f9 LFPDUX A10, AO, INC4 fxcsmadd f13, B2, A2, f13 nop fxcpmadd f2, B1, A3, f2 nop fxcsmadd f6, B1, A3, f6 nop fxcpmadd f10, B2, A3, f10 nop fxcsmadd f14, B2, A3, f14 nop fxcpmadd f3, B1, A4, f3 nop fxcsmadd f7, B1, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B2, A4, f11 nop fxcsmadd f15, B2, A4, f15 nop## 2 ## fxcpmadd f0, B3, A5, f0 nop fxcsmadd f4, B3, A5, f4 nop fxcpmadd f8, B4, A5, f8 LFPDUX B2, BO2, INC4 fxcsmadd f12, B4, A5, f12 nop fxcpmadd f1, B3, A2, f1 nop fxcsmadd f5, B3, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B4, A2, f9 nop fxcsmadd f13, B4, A2, f13 nop fxcpmadd f2, B3, A6, f2 nop fxcsmadd f6, B3, A6, f6 nop fxcpmadd f10, B4, A6, f10 nop fxcsmadd f14, B4, A6, f14 nop fxcpmadd f3, B3, A4, f3 nop fxcsmadd f7, B3, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B4, A4, f11 nop fxcsmadd f15, B4, A4, f15 nop## 3 ## fxcpmadd f0, B5, A7, f0 nop fxcsmadd f4, B5, A7, f4 nop fxcpmadd f8, B2, A7, f8 LFPDUX B4, BO2, INC4 fxcsmadd f12, B2, A7, f12 nop fxcpmadd f1, B5, A2, f1 nop fxcsmadd f5, B5, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B2, A2, f9 nop fxcsmadd f13, B2, A2, f13 fxcpmadd f2, B5, A8, f2 nop fxcsmadd f6, B5, A8, f6 nop fxcpmadd f10, B2, A8, f10 nop fxcsmadd f14, B2, A8, f14 nop fxcpmadd f3, B5, A4, f3 nop fxcsmadd f7, B5, A4, f7 LFPDUX A2, AO2, INC4 fxcpmadd f11, B2, A4, f11 nop fxcsmadd f15, B2, A4, f15 nop## 4 ## fxcpmadd f0, B6, A9, f0 nop fxcsmadd f4, B6, A9, f4 nop fxcpmadd f8, B4, A9, f8 nop fxcsmadd f12, B4, A9, f12 nop fxcpmadd f1, B6, A2, f1 nop fxcsmadd f5, B6, A2, f5 LFPDUX A4, AO2, INC4 fxcpmadd f9, B4, A2, f9 nop fxcsmadd f13, B4, A2, f13 nop fxcpmadd f2, B6, A10, f2 nop fxcsmadd f6, B6, A10, f6 nop fxcpmadd f10, B4, A10, f10 nop fxcsmadd f14, B4, A10, f14 nop fxcpmadd f3, B6, A4, f3 nop fxcsmadd f7, B6, A4, f7 nop fxcpmadd f11, B4, A4, f11 nop fxcsmadd f15, B4, A4, f15 nop .align 4.L14:#if defined(LT) || defined(RN) andi. r0, KK, 3 mtspr CTR, r0 ble+ .L18#else andi. r0, TEMP, 3 mtspr CTR, r0 ble+ .L18#endif .align 4.L15: LFPDUX A2, AO, INC4 LFPDUX A4, AO2, INC4 LFPDUX A10, BO, INC4 LFPDUX B4, BO2, INC4 bdz- .L17 .align 4.L16: fxcpmadd f0, A10, A2, f0 fxcsmadd f4, A10, A2, f4 fxcpmadd f8, B4, A2, f8 fxcsmadd f12, B4, A2, f12 LFPDUX A2, AO, INC4 fxcpmadd f1, A10, A4, f1 fxcsmadd f5, A10, A4, f5 fxcpmadd f9, B4, A4, f9 fxcsmadd f13, B4, A4, f13 LFPDUX A4, AO2, INC4 fxcpmadd f2, A10, A2, f2 fxcsmadd f6, A10, A2, f6 fxcpmadd f10, B4, A2, f10 fxcsmadd f14, B4, A2, f14 LFPDUX A2, AO, INC4 fxcpmadd f3, A10, A4, f3 fxcsmadd f7, A10, A4, f7 LFPDUX A10, BO, INC4 fxcpmadd f11, B4, A4, f11 fxcsmadd f15, B4, A4, f15 LFPDUX A4, AO2, INC4 LFPDUX B4, BO2, INC4 bdnz+ .L16 .align 4.L17: fxcpmadd f0, A10, A2, f0 fxcsmadd f4, A10, A2, f4 fxcpmadd f8, B4, A2, f8 fxcsmadd f12, B4, A2, f12 LFPDUX A2, AO, INC4 fxcpmadd f1, A10, A4, f1 fxcsmadd f5, A10, A4, f5 fxcpmadd f9, B4, A4, f9 fxcsmadd f13, B4, A4, f13 LFPDUX A4, AO2, INC4 fxcpmadd f2, A10, A2, f2 fxcsmadd f6, A10, A2, f6 fxcpmadd f10, B4, A2, f10 fxcsmadd f14, B4, A2, f14 fxcpmadd f3, A10, A4, f3 fxcsmadd f7, A10, A4, f7 fxcpmadd f11, B4, A4, f11 fxcsmadd f15, B4, A4, f15 .align 4.L18:#if defined(LN) || defined(RT)#ifdef LN subi r0, KK, 8#else subi r0, KK, 4#endif slwi TEMP, r0, 3 + BASE_SHIFT slwi r0, r0, 2 + BASE_SHIFT add AO, AORIG, TEMP add BO, B, r0 addi AO2, AO, 2 * SIZE addi BO, BO, - 4 * SIZE addi BO2, BO, 2 * SIZE#endif#if defined(LN) || defined(LT) fpmr f24, f0 LFPDUX f16, BO, INC4 fpmr f25, f1 nop fpmr f26, f2 LFPDUX f17, BO2, INC4 fpmr f27, f3 nop fpmr f28, f8 LFPDUX f18, BO, INC4 fpmr f29, f9 nop fpmr f30, f10 LFPDUX f19, BO2, INC4 fpmr f31, f11 nop fsmfp f0, f4 LFPDUX f20, BO, INC4 fsmfp f1, f5 nop fsmfp f2, f6 LFPDUX f21, BO2, INC4 fsmfp f3, f7 nop fsmfp f8, f12 LFPDUX f22, BO, INC4 fsmfp f9, f13 nop fsmfp f10, f14 LFPDUX f23, BO2, INC4 fsmfp f11, f15 nop fsmtp f4, f24 LFPDUX f24, BO, INC4 fsmtp f5, f25 nop fsmtp f6, f26 LFPDUX f25, BO2, INC4 fsmtp f7, f27 nop fsmtp f12, f28 LFPDUX f26, BO, INC4 fsmtp f13, f29 nop fsmtp f14, f30 LFPDUX f27, BO2, INC4 fsmtp f15, f31 nop fpsub f0, f16, f0 LFPDUX f28, BO, INC4 fpsub f8, f17, f8 nop fpsub f4, f18, f4 LFPDUX f29, BO2, INC4 fpsub f12, f19, f12 nop fpsub f1, f20, f1 LFPDUX f30, BO, INC4 fpsub f9, f21, f9 subi BO, BO, 32 * SIZE fpsub f5, f22, f5 LFPDUX f31, BO2, INC4 fpsub f13, f23, f13 subi BO2, BO2, 32 * SIZE fpsub f2, f24, f2 fpsub f10, f25, f10 fpsub f6, f26, f6 fpsub f14, f27, f14 fpsub f3, f28, f3 fpsub f11, f29, f11 fpsub f7, f30, f7 fpsub f15, f31, f15#else LFPDUX f16, AO, INC4 LFPDUX f17, AO2, INC4 LFPDUX f18, AO, INC4 LFPDUX f19, AO2, INC4 LFPDUX f20, AO, INC4 LFPDUX f21, AO2, INC4 LFPDUX f22, AO, INC4 LFPDUX f23, AO2, INC4 fpsub f0, f16, f0 LFPDUX f24, AO, INC4 fpsub f1, f17, f1 LFPDUX f25, AO2, INC4 fpsub f2, f18, f2 LFPDUX f26, AO, INC4 fpsub f3, f19, f3 LFPDUX f27, AO2, INC4 fpsub f4, f20, f4 LFPDUX f28, AO, INC4 fpsub f5, f21, f5 LFPDUX f29, AO2, INC4 fpsub f6, f22, f6 LFPDUX f30, AO, INC4 fpsub f7, f23, f7 LFPDUX f31, AO2, INC4 fpsub f8, f24, f8 subi AO, AO, 32 * SIZE fpsub f9, f25, f9 subi AO2, AO2, 32 * SIZE fpsub f10, f26, f10 fpsub f11, f27, f11 fpsub f12, f28, f12 fpsub f13, f29, f13 fpsub f14, f30, f14 fpsub f15, f31, f15#endif#ifdef LN addi AO, AO, 68 * SIZE addi AO2, AO2, 68 * SIZE LFPDUX A1, AO2, INCM4 LFPDUX A2, AO, INCM4 LFPDUX A3, AO2, INCM4 LFPDUX A4, AO, INCM4 LFPDUX A5, AO2, INCM4 LFPDUX A6, AO, INCM4 LFPDUX A7, AO2, INCM4 LFPDUX A8, AO, INCM4 fxsmul f7, A1, f7 fxsmul f15, A1, f15 fxcpnmsub f3, A1, f7, f3 fxcpnmsub f11, A1, f15, f11 fxcsnmsub f6, A2, f7, f6 fxcsnmsub f14, A2, f15, f14 fxcpnmsub f2, A2, f7, f2 fxcpnmsub f10, A2, f15, f10 fxcsnmsub f5, A3, f7, f5 fxcsnmsub f13, A3, f15, f13 fxcpnmsub f1, A3, f7, f1 fxcpnmsub f9, A3, f15, f9 fxcsnmsub f4, A4, f7, f4 fxcsnmsub f12, A4, f15, f12 fxcpnmsub f0, A4, f7, f0 fxcpnmsub f8, A4, f15, f8 fxpmul f3, A5, f3 fxpmul f11, A5, f11 fxcsnmsub f6, A6, f3, f6 fxcsnmsub f14, A6, f11, f14 fxcpnmsub f2, A6, f3, f2 fxcpnmsub f10, A6, f11, f10 fxcsnmsub f5, A7, f3, f5 fxcsnmsub f13, A7, f11, f13 fxcpnmsub f1, A7, f3, f1 fxcpnmsub f9, A7, f11, f9 fxcsnmsub f4, A8, f3, f4 fxcsnmsub f12, A8, f11, f12 fxcpnmsub f0, A8, f3, f0 fxcpnmsub f8, A8, f11, f8 add AO2, AO2, INCM4 LFPDUX A1, AO, INCM4 LFPDUX A2, AO2, INCM4 LFPDUX A3, AO, INCM4 add AO2, AO2, INCM4 LFPDUX A4, AO, INCM4 LFPDUX A5, AO2, INCM4 LFPDUX A6, AO, INCM4 add AO2, AO2, INCM4 add AO, AO, INCM4 LFPDUX A7, AO2, INCM4 LFPDUX A8, AO, INCM4 fxsmul f6, A1, f6 fxsmul f14, A1, f14 fxcpnmsub f2, A1, f6, f2 fxcpnmsub f10, A1, f14, f10 fxcsnmsub f5, A2, f6, f5 fxcsnmsub f13, A2, f14, f13 fxcpnmsub f1, A2, f6, f1 fxcpnmsub f9, A2, f14, f9 fxcsnmsub f4, A3, f6, f4 fxcsnmsub f12, A3, f14, f12 fxcpnmsub f0, A3, f6, f0 fxcpnmsub f8, A3, f14, f8 fxpmul f2, A4, f2 fxpmul f10, A4, f10 fxcsnmsub f5, A5, f2, f5 fxcsnmsub f13, A5, f10, f13 fxcpnmsub f1, A5, f2, f1 fxcpnmsub f9, A5, f10, f9 fxcsnmsub f4, A6, f2, f4 fxcsnmsub f12, A6, f10, f12 fxcpnmsub f0, A6, f2, f0 fxcpnmsub f8, A6, f10, f8 fxsmul f5, A7, f5 fxsmul f13, A7, f13 fxcpnmsub f1, A7, f5, f1 fxcpnmsub f9, A7, f13, f9 fxcsnmsub f4, A8, f5, f4 fxcsnmsub f12, A8, f13, f12 fxcpnmsub f0, A8, f5, f0 fxcpnmsub f8, A8, f13, f8 add AO2, AO2, INCM4 add AO, AO, INCM4 LFPDUX A1, AO2, INCM4 LFPDUX A2, AO, INCM4 subi AO2, AO2, 8 * SIZE add AO, AO, INCM4 LFPDUX A3, AO, INCM4 subi AO2, AO2, 8 * SIZE add AO, AO, INCM4 LFPDUX A4, AO, INCM4 addi AO, AO, -4 * SIZE addi AO2, AO2, -4 * SIZE fxpmul f1, A1, f1 fxpmul f9, A1, f9 fxcsnmsub f4, A2, f1, f4 fxcsnmsub f12, A2, f9, f12 fxcpnmsub f0, A2, f1, f0 fxcpnmsub f8, A2, f9, f8 fxsmul f4, A3, f4 fxsmul f12, A3, f12 fxcpnmsub f0, A3, f4, f0 fxcpnmsub f8, A3, f12, f8 fxpmul f0, A4, f0 fxpmul f8, A4, f8#endif#ifdef LT LFPDUX A1, AO, INC4 LFPDUX A2, AO2, INC4 LFPDUX A3, AO, INC4 LFPDUX A4, AO2, INC4 LFPDUX A5, AO, INC4 LFPDUX A6, AO2, INC4 LFPDUX A7, AO, INC4 LFPDUX A8, AO2, INC4 fxpmul f0, A1, f0 fxpmul f8, A1, f8 fxcsnmsub f4, A1, f0, f4 fxcsnmsub f12, A1, f8, f12 fxcpnmsub f1, A2, f0, f1
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -