📄 jpeg.txt
字号:
Word40 aReg,aReg_ll,aReg_lh,aReg_hl;
aReg_ll = (Word40)_mpyu(L_var1, L_var2)>>16;
aReg_lh = (Word40)_mpyluhs(L_var1, L_var2);
aReg_hl = (Word40)_mpyhslu(L_var1, L_var2);
aReg_hh = _smpyh(L_var1, L_var2);
aReg = _lsadd(aReg_ll, _lsadd(aReg_lh, aReg_hl));
aReg = _lsadd(aReg>>15, aReg_hh);
return(_sat(aReg));
}
3、优化方法说明:
C6000编译器提供的intrinsic 可快速优化C代码,intrinsic用前下划线表示同调用函数一样可以调用它,即直接内联为C6000的函数。
例如,在上例的源代码中没有使用intrinsics,每一行C代码需多个指令周期,在改编后的代码中,每一行代码仅需一个指令周期。
例如,
“aReg_ll = (Word40)_mpyu(L_var1, L_var2)>>16”中“_mpyu”就是一个intrinsics函数,它表示两个无符号数的高16位相乘,
结果返回。C6000支持的所有intrinsics指令及其功能参见《TMS320C6000系列DSP的原理与应用》一书的第265、266页,
该书还提供了另外的例子。这些内联函数定义在CCS所在的C6000\CGTOOLS\Include目录下的C6X.h文件中。
下面这个例子是C6000的“Programmer's Guide”上提取的使用intrinsics优化C代码的例子。
源代码:
int dotprod(const short *a, const short *b, unsigned int N)
{
int i, sum = 0;
for (i = 0; i < N; i++)
sum += a[i] * b[i];
return sum;
}
改编后代码:
int dotprod(const int *a, const int *b, unsigned int N)
{
int i, sum1 = 0, sum2 = 0;
for (i = 0; i < (N >> 1); i++)
{
sum1 += _mpy (a[i], b[i]);
sum2 += _mpyh(a[i], b[i]);
}
return sum1 + sum2;
}
技巧:
在C语言的调试全部通过以后,可以尝试将尽可能多的语句使用intrinsics函数加以改编,
尤其在循环体内,这种改编可以大幅度减少执行时间。
四、
1、源代码:
void fir_fxd1(short input[], short coefs[], short out[])
{
int i, j;
for (i = 0; i < 40; i++)
{
for (j = 0; j < 16; j++)
out[i*16+j]= coefs[j] * input[i + 15 - j];
}
}
2、改编后的代码:
void fir_fxd2(const short input[], const short coefs[], short out[])
{
int i, j;
for (i = 0; i < 40; i++)
{
for (j = 0; j < 16; j++)
out[i*16+j]= coefs[j] * input[i + 15 - j];
}
3、优化方法说明:
C6000编译器如果确定两条指令是不相关的,则安排它们并行执行。 关键字const可以指定一个变量或者一个变量的存储单元保持不变。
这有助于帮助编译器确定指令的不相关性。例如上例中,源代码不能并行执行,而结果改编后的代码可以并行执行。
4、技巧:
使用const可以限定目标,确定存在于循环迭代中的存储器的不相关性。
五、
1、源代码:
void vecsum(short *sum, short *in1, short *in2, unsigned int N)
{
int i;
for (i = 0; i < N; i++)
sum[i] = in1[i] + in2[i];
}
2、改编后的代码:
void vecsum6(int *sum, const int *in1, const int *in2, unsigned int N)
{
int i;
int sz = N >> 2;
_nassert(N >= 20);
for (i = 0; i < sz; i += 2)
{
sum[i] = _add2(in1[i] , in2[i]);
sum[i+1] = _add2(in1[i+1], in2[i+1]);
}
}
3、优化方法说明:
源代码中,函数变量的定义是 short *sum, short *in1, short *in2, 改编后的代码函数变量是
int *sum, const int *in1, const int *in2, 整数类型由16位改编成32位,这时使用内联指令“_add2”一次可以完成两组16位整数的
加法, 效率提高一倍。注意这里还使用了关键字const和内联指令_nassert优化源代码。
4、技巧:
用内联指令_add2、_mpyhl、_mpylh完成两组16位数的加法和乘法,效率比单纯16位数的加法和乘法提高一倍。
六、if...else...语句的优化
(一)
1、源代码:
if (sub (ltpg, LTP_GAIN_THR1) <= 0)
{
adapt = 0;
}
else
{
if (sub (ltpg, LTP_GAIN_THR2) <= 0)
{
adapt = 1;
}
else
{
adapt = 2;
}
}
2、改编后的代码:
adapt = (ltpg>LTP_GAIN_THR1) + (ltpg>LTP_GAIN_THR2);
(二)
1、源代码:
if (adapt == 0)
{
if (filt>5443)
{
result = 0;
}
else
{
if (filt < 0)
{
result = 16384;
}
else
{
filt = _sshl (filt, 18)>>16; // Q15
result = _ssub (16384, _smpy(24660, filt)>>16);
}
}
}
else
{
result = 0;
}
2、改编后的代码:
filt1 = _sshl (filt, 18)>>16;
tmp = _smpy(24660, filt1)>>16;
result = _ssub(16384, tmp * (filt>=0));
result = result * (!((adapt!=0)||(filt>5443)));
(三)
1、源代码:
static Word16 saturate(Word32 L_var1)
{
Word16 swOut;
if (L_var1 > SW_MAX)
{
swOut = SW_MAX;
giOverflow = 1;
}
else if (L_var1 < SW_MIN)
{
swOut = SW_MIN;
giOverflow = 1;
}
else
swOut = (Word16) L_var1; /* automatic type conversion */
return (swOut);
}
2、改编后的代码:
static inline Word32 L_shl(Word32 a,Word16 b)
{
return ((Word32)((b) < 0 ? (Word32)(a) >> (-(b)) : _sshl((a),(b)))) ;
}
3、优化方法说明:
如果在循环中出现if...else...语句,由于if...else...语句中有跳转指令,而每个跳转指令有5个延迟间隙,
因此程序执行时间延长;另外,循环内跳转也使软件流水受到阻塞。直接使用逻辑判断语句可以去除不必要的跳转。
例如在例1的源代码最多有两次跳转,而改编后不存在跳转。例2和例3同样也去掉了跳转。
4、技巧:
尽可能地用逻辑判断语句替代if...else...语句,减少跳转语句。
七、
1、源程序
dm = 0x7FFF;
for (j = 0; j < nsiz[m]; j = add(j, 1))
{
if (d[j] <= dm)
{
dm = d[j];
jj = j;
}
}
index[m] = jj;
2、优化后的程序
dm0 = dm1 = 0x7fff;
d0 = (Word16 *)&d[0];
d1 = (Word16 *)&d[1];
#pragma MUST_ITERATE(32,256,64);
for (j = 0; j < Nsiz; j+=2)
{
n0 = *d0;
d0 += 2;
n1 = *d1;
d1 += 2;
if (n0 <= dm0)
{
dm0 = n0;
jj0 = j;
}
if (n1 <= dm1)
{
dm1 = n1;
jj1 = j+1;
}
}
if (dm1 != dm0)
{
index[m] = (dm1 < dm0)? jj1:jj0;
}
else
{
index[m] = (jj1 > jj0)? jj1:jj0;
}
3、优化说明
求数组的最小值程序,优化时为了提高程序效率在一个循环之内计算N=1,3,5..和n=2,4,6...的最小值,
然后在比较二者的大小以求得整个数组的最小值。
八、
1、源程序
for (k = 0; k < NB_PULSE; k++)
{
i = codvec[k];
j = sign[i];
index = mult(i, Q15_1_5);
track = sub(i, extract_l(L_shr(L_mult(index, 5), 1)));
if (j > 0)
{
if (i < l_subfr) code[i] = add(code[i], 4096);
codvec[k] += (2 * L_SUBFR);
}
else
{
if (i < l_subfr) code[i] = sub(code[i], 4096);
index = add(index, 16);
}
if (indx[track] < 0)
{
indx[track] = index;
}
else
{
if (((index ^ indx[track]) & 16) == 0)
{
if (sub(indx[track], index) <= 0)
{
indx[track] = shl((indx[track] & 16), 3)
+ shr(extract_l(L_mult((indx[track] & 15), NB_POS)), 1) + (index & 15);
}
else
{
indx[track] = shl((index & 16), 3)
+ shr(extract_l(L_mult((index & 15), NB_POS)), 1) + (indx[track] & 15);
}
}
else
{
if (sub((indx[track] & 15), (index & 15)) <= 0)
{
indx[track] = shl((index & 16), 3)
+ shr(extract_l(L_mult((index & 15), NB_POS)), 1) + (indx[track] & 15);
}
else
{
indx[track] = shl((indx[track] & 16), 3)
+ shr(extract_l(L_mult((indx[track] & 15), NB_POS)), 1) + (index & 15);
}
}
}
}
2、优化后的程序
for (k = 0; k < 8; k++)
{
i = codvec[k];
j = sign[i];
index = _smpy(i, 6554)>>16;
track = i - index*5;
con = (j > 0);
codvec[k] = codvec[k] + 110*con;
index = index + (!con)*16;
conn = (i < l_subfr);
cono = (j > 0)? 1:-1;
code[i] = code[i] + 4096*conn*cono;
n0 = index;
t0 = indx[track];
n1 = n0&16;
t1 = t0&16;
n2 = n0&15;
t2 = t0&15;
tmp0 = (_sshl(n1,19)>>16) + n2*NB_POS + t2;
tmp1 = (_sshl(t1,19)>>16) + t2*NB_POS + n2;
conp = (((n1 == t1)&&(t0 > n0))||((n1 != t1)&&(t2 <= n2)));
tmp = conp*tmp0 + (!conp)*tmp1;
if (t0 < 0)
indx[track] = n0;
else
indx[track] = tmp;
}
3、优化说明
源程序中在循环中含有许多的if结构,在优化时对if结构首先进行化简,
再将化简后的if结构用条件运算表达式进行改写,最后使循环可以Pipeline。
九、
1、源程序
for (i = 0; i < n; i++)
{
max = -32767;
for (j = 0; j < n; j++)
{
if (sub (tmp2[j], max) >= 0)
{
max = tmp2[j];
ix = j;
}
}
tmp2[ix] = -32768;
tmp[i] = ix;
}
2、优化后的程序
if (n0>n1) {temp=n0;n0=n1;n1=temp;}
if (n1>n2) {temp=n1;n1=n2;n2=temp;}
if (n2>n3) {temp=n2;n2=n3;n3=temp;}
if (n3>n4) {temp=n3;n3=n4;n4=temp;}
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -