dotprod_sse2_assist.s

来自「FEC Optimized viterbi code」· S 代码 · 共 86 行

86 行

# SIMD SSE2 dot product# Equivalent to the following C code:# long dotprod(signed short *a,signed short *b,int cnt)# {#	long sum = 0; #	cnt *= 8; #	while(cnt--)#		sum += *a++ + *b++;#	return sum;# }# a and b must be 128-bit aligned# Copyright 2001, Phil Karn KA9Q# May be used under the terms of the GNU Lesser General Public License (LGPL)		.text	.global dotprod_sse2_assist	.type dotprod_sse2_assist,@functiondotprod_sse2_assist:	pushl %ebp	movl %esp,%ebp	pushl %esi	pushl %edi	pushl %ecx	pushl %ebx	movl 8(%ebp),%esi	# a	movl 12(%ebp),%edi	# b	movl 16(%ebp),%ecx	# cnt	pxor %xmm0,%xmm0		# clear running sum (in two 32-bit halves)	# SSE2 dot product loop unrolled 4 times, crunching 32 terms per loop	.align 16.Loop1:	subl $4,%ecx	jl   .Loop1Done		movdqa (%esi),%xmm1 	pmaddwd (%edi),%xmm1	paddd %xmm1,%xmm0		movdqa 16(%esi),%xmm1	pmaddwd 16(%edi),%xmm1	paddd %xmm1,%xmm0	movdqa 32(%esi),%xmm1	pmaddwd 32(%edi),%xmm1	paddd %xmm1,%xmm0	movdqa 48(%esi),%xmm1	addl $64,%esi		pmaddwd 48(%edi),%xmm1	addl $64,%edi		paddd %xmm1,%xmm0	jmp .Loop1.Loop1Done:		addl $4,%ecx		# SSE2 dot product loop, not unrolled, crunching 4 terms per loop# This could be redone as Duff's Device on the unrolled loop above.Loop2:	subl $1,%ecx	jl   .Loop2Done		movdqa (%esi),%xmm1	addl $16,%esi	pmaddwd (%edi),%xmm1	addl $16,%edi	paddd %xmm1,%xmm0	jmp .Loop2.Loop2Done:	movdqa %xmm0,%xmm1	psrldq $8,%xmm0	paddd %xmm1,%xmm0	movd %xmm0,%eax		# right-hand word to eax	psrldq $4,%xmm0	movd %xmm0,%ebx	addl %ebx,%eax	popl %ebx	popl %ecx	popl %edi	popl %esi	movl %ebp,%esp	popl %ebp	ret

dotprod_sse2_assist.s - 源码说明

本页面展示了「FEC Optimized viterbi code」中的 dotprod_sse2_assist.s 源码文件，采用 S 编程语言编写，共 86 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与FEC相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?