dotprod_mmx_assist.s

来自「FEC Optimized viterbi code」· S 代码 · 共 84 行

84 行

# SIMD MMX dot product# Equivalent to the following C code:# long dotprod(signed short *a,signed short *b,int cnt)# {#	long sum = 0; #	cnt *= 4; #	while(cnt--)#		sum += *a++ + *b++;#	return sum;# }# a and b should also be 64-bit aligned, or speed will suffer greatly# Copyright 1999, Phil Karn KA9Q# May be used under the terms of the GNU Lesser General Public License (LGPL)		.text	.global dotprod_mmx_assist	.type dotprod_mmx_assist,@functiondotprod_mmx_assist:	pushl %ebp	movl %esp,%ebp	pushl %esi	pushl %edi	pushl %ecx	pushl %ebx	movl 8(%ebp),%esi	# a	movl 12(%ebp),%edi	# b	movl 16(%ebp),%ecx	# cnt	pxor %mm0,%mm0		# clear running sum (in two 32-bit halves)	# MMX dot product loop unrolled 4 times, crunching 16 terms per loop	.align 16.Loop1:	subl $4,%ecx	jl   .Loop1Done		movq (%esi),%mm1	# mm1 = a[3],a[2],a[1],a[0] 	pmaddwd (%edi),%mm1	# mm1 = b[3]*a[3]+b[2]*a[2],b[1]*a[1]+b[0]*a[0]	paddd %mm1,%mm0		movq 8(%esi),%mm1	pmaddwd 8(%edi),%mm1	paddd %mm1,%mm0	movq 16(%esi),%mm1	pmaddwd 16(%edi),%mm1	paddd %mm1,%mm0	movq 24(%esi),%mm1	addl $32,%esi		pmaddwd 24(%edi),%mm1	addl $32,%edi		paddd %mm1,%mm0	jmp .Loop1.Loop1Done:		addl $4,%ecx		# MMX dot product loop, not unrolled, crunching 4 terms per loop# This could be redone as Duff's Device on the unrolled loop above.Loop2:	subl $1,%ecx	jl   .Loop2Done		movq (%esi),%mm1	addl $8,%esi	pmaddwd (%edi),%mm1	addl $8,%edi	paddd %mm1,%mm0	jmp .Loop2.Loop2Done:		movd %mm0,%ebx		# right-hand word to ebx	punpckhdq %mm0,%mm0	# left-hand word to right side of %mm0	movd %mm0,%eax	addl %ebx,%eax		# running sum now in %eax	emms			# done with MMX		popl %ebx	popl %ecx	popl %edi	popl %esi	movl %ebp,%esp	popl %ebp	ret

dotprod_mmx_assist.s - 源码说明

本页面展示了「FEC Optimized viterbi code」中的 dotprod_mmx_assist.s 源码文件，采用 S 编程语言编写，共 84 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与Optimized相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?