📄 vad.txt
字号:
function [x1,x2] = vad(x)
%幅度归一化到[-1,1]
x = double(x);
x = x / max(abs(x));
%常数设置
FrameLen = 240;
FrameInc = 80;
amp1 = 10;
amp2 = 2;
zcr1 = 10;
zcr2 = 5;
maxsilence = 8; % 6*10ms = 30ms
minlen = 15; % 15*10ms = 150ms
status = 0;
count = 0;
silence = 0;
%计算过零率
tmp1 = enframe(x(1:end-1), FrameLen, FrameInc);
tmp2 = enframe(x(2:end) , FrameLen, FrameInc);
signs = (tmp1.*tmp2)<0;
diffs = (tmp1 -tmp2)>0.02;
zcr = sum(signs.*diffs, 2);
%计算短时能量
amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2);
%调整能量门限
amp1 = min(amp1, max(amp)/4);
amp2 = min(amp2, max(amp)/8);
%开始端点检测
x1 = 0;
x2 = 0;
for n=1:length(zcr)
goto = 0;
switch status
case {0,1} % 0 = 静音, 1 = 可能开始
if amp(n) > amp1 % 确信进入语音段
x1 = max(n-count-1,1);
status = 2;
silence = 0;
count = count + 1;
elseif amp(n) > amp2 | ... % 可能处于语音段
zcr(n) > zcr2
status = 1;
count = count + 1;
else % 静音状态
status = 0;
count = 0;
end
case 2, % 2 = 语音段
if amp(n) > amp2 | ... % 保持在语音段
zcr(n) > zcr2
count = count + 1;
else % 语音将结束
silence = silence+1;
if silence < maxsilence % 静音还不够长,尚未结束
count = count + 1;
elseif count < minlen % 语音长度太短,认为是噪声
status = 0;
silence = 0;
count = 0;
else % 语音结束
status = 3;
end
end
case 3,
break;
end
end
count = count-silence/2;
x2 = x1 + count -1;
****************************************************************************
在我已经通过录音软件得到了语音的.wav文件了,现在想得到语谱图
specgram(),
[x,fs,nbits]=wavread('111.wav');
specgram(x,512,fs);
xlabel('Time(s)');
ylabel('Frequency(Hz)');
title('The spectgram of speech signal');
grid on;
是这个程序吗?
*********************************************************
我的端点检测程序。(可做实验用)
function out = get_sound_data(array,fs,sec,zero_th,e);
% fs = 8k, 3sec,e = 0; 8000*3=100*240;提取60帧.
% 从array中去除无语音信息的帧,提取有用信息。提取的数据大小为:132点/帧*40帧,为做FFT准备.
% 计算一帧中的过零率,来确认是否是有用信息。array=wavrecord(sec*fs, fs, 'uint8');
% sound_th 表示无声音的值(零点),=128
% cross_number > zero_th 表示有语音信息的帧。否则表示无信息。可以自己设置
% e表示窗口(门限的值),去除噪声时用的,因为我选的是8位,精度把噪声去掉了,所以噪声=0了。
% get_sound_data(array,fs,sec,zero_th,e);
% zero_th =10,一帧中有zero_th个过零点就算是有语音信号,可以自己设置;
sound_th = 128;
out_row = 1;
cross_number = 0;
frame_count=0;
% 记录帧数
max_frame = 50;
% 最大的帧数 max_frame ***本函数部定义和设置
% **************************************
line = 100;
%一帧取多少个点。行数。***本函数部定义和设置
% array=[fs*3,1]--[line,row]--[100行,240列];
row = sec * fs /line;
% 列数
array = reshape(array,line,row);
i=1;
j=1;
while j <= row
cross_number=0;
while i <= line
if abs(array(i,j)-sound_th)>e
cross_number = cross_number + 1;
end
i=i+1;
end
i=1;
if cross_number>zero_th
out(:,out_row) = array(:,j);
out_row = out_row + 1 ;
frame_count = frame_count + 1;
end
j=j+1;
if (frame_count == max_frame);
% frame_count == max_frame 帧
return;
end
end
while frame_count<max_frame;
% frame_count<max_frame 帧
out(:,out_row) = zeros(line,1)+128;
% line = 100点
out_row = out_row + 1 ;
frame_count = frame_count + 1;
end
******************************************
[xn,fs,bits]=wavread('filename');
plot(xn);
这样得到的是采样点数为横轴的图,例如一个 10秒的音乐,得到大约是 4.5X 10^5 左右个点数。这里的采样率是 44100 HZ ,其实很容易理解,一秒采样了 44100 个数据(16位量化,两个字节),所以怎么将横轴变回时间轴,而不是点数呢?只需要
L=length(xn);
n=1:L;
plot(n/fs,xn); 就可以的了 .........
下面整理一个完整的程序:
[x,fs,bits]=wavread('hime1.wav'); %歌换自己的...--b
xn=x(:,1); %取其中一列数据,就是其中一个声道。
L=length(xn); %取数据的长度
n=1:L;
plot(n/fs,xn);
*******************************************
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -