⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 ml.htm

📁 本文完成了对唇动身份识别技术几个基本问题的理论研究,并对整个系统加以实现.作为本文研究的实验基础,我们建立了唇动方式身份识别数据库(HITLUDB), 该库目前包含30个说话人每人20个汉语词的音视
💻 HTM
字号:

<!ArtChnTitle>
<!ArtChnAuthor>
<!ArtAuthorAddress>
<!ArtChnAbstract>
<!ArtChnKeyword>
<!ArtEngTitle>
<!ArtEngAuthor>
<!ArtEngAbstract>
<!ArtEngKeyword>
<html>

<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<title>学位论文-基于VQ与GMM的说话人识别</title>
<style>A:link {COLOR: #000000; FONT-FAMILY: 宋体; TEXT-DECORATION: none}
A:visited {COLOR: #000000; FONT-FAMILY: 宋体; TEXT-DECORATION: none}
A:active {FONT-FAMILY:宋体; TEXT-DECORATION: none}
A:hover {COLOR: #000000;TEXT-DECORATION:none}
BODY {FONT-FAMILY:宋体; FONT-SIZE: 9pt;TEXT-DECORATION:none}
TABLE {FONT-FAMILY: 宋体; FONT-SIZE: 9pt}
.H1 {FONT-SIZE: 9pt; COLOR: #0000cc}
.ourfont {FONT-SIZE: 9pt; LINE-HEIGHT: 14pt}
select {font-size:12px;}
.wx {BACKGROUND: #001863; BORDER-BOTTOM: white 1px solid; BORDER-LEFT: white 1px solid; BORDER-RIGHT: white 1px solid; BORDER-TOP: white 1px solid; COLOR: #ffffff; FONT-SIZE: 9pt; FONT-STYLE: normal; FONT-VARIANT: normal; FONT-WEIGHT: normal; HEIGHT: 18px; LINE-HEIGHT: normal}
.wx1 {border-top: #c0c0c0 1px;border-left: #c0c0c0 1px;border-right:#c0c0c0 1px;border-bottom:#c0c0c0 1px;border-style:inset;background-color:#ffffff;vertical-align:text-bottom}
</style>
</head>

<body bgcolor="#FFFFFF" link="#000000" background="../image/bg.gif">
<img src="../../images/xwlwk.jpg" width="750" height="94">
<table width="83%" border="0" cellspacing="0" cellpadding="0">
<tr>
<td width="19%"><p>&nbsp;</p>
<p></p></td>
<td width="81%"><p>馆藏号:Y790615<br>
<br>
论 文 题 目:<strong style="font-weight: 400">基于VQ与GMM的说话人识别</strong><br>
学位授予单位:东南大学<br>
作    者:孙健<br>
申请学位级别:硕士<br>
学 科 名 称:信号与信息处理<br>
指 导 教 师:吴镇扬<br>
出 版 时 间:20050315<br>
摘    要:<br>
&nbsp;&nbsp;&nbsp; 本文分析了说话人识别中的主要技术,从特征参数的获取到各种识别方法的应用,重点介绍了矢量量化(VQ)和高斯混合模型(GMM)两种基于模板的识别方法。并实现了一个主要基于VQ的说话人识别系统,在闭集测试中取得了较好的效果。<br>&nbsp;&nbsp;&nbsp;&nbsp;    在VQ方法的训练中,提出了一种基于逐点搜索的改进的LBG算法,较好地解决了传统LBG算法在迭代过程中会产生空胞腔、无法适用于多种距离测度等问题。并设计了一种对VQ量化误差进行规格化处理的方法,使规格化后的量化误差更加适合对说话人进行判决。<br>&nbsp;&nbsp;&nbsp;&nbsp;    对GMM方法的框架进行了初步的研究,并对EM算法中迭代初值的选定、方差的限定及模型混合数对识别结果的影响进行了一定程度的讨论。<br>&nbsp;&nbsp;&nbsp;&nbsp;    在预处理方面,提出了一种基于基音轮廓抖动的去除语音中噪音段和静音段的方法,取得了很好的实际效果。<br>&nbsp;&nbsp;&nbsp;&nbsp;    最终的识别系统针对8KHz的单声道语音,采用了10阶的线性预测系数、10阶的线性预测倒谱系数以及基音参数构建了一个主要采用VQ方法的说话人识别系统,在11个说话人的闭集测试中取得了接近100%。这个系统被进一步扩展到在多人对话场景下的自动分段说话人识别,也取得了一定的识别效果。<br>&nbsp;&nbsp;&nbsp;&nbsp;    <br>
分  类  号:TN912.34<br>
关  键  词:说话人识别;矢量量化;高斯混合模型;去噪声方法;语音识别;参数提取
<p align="center">
<table width="80" border="0" cellspacing="0" cellpadding="0">
<tr>
<td bgcolor="#cccccc">
<table width="100%" border="0" cellspacing="1" cellpadding="0">
<tr style="CURSOR: hand">
<td bgcolor="#CCCCCC" onMouseOver="this.bgColor='#999999';" onMouseOut="this.bgColor='#cccccc';" valign="bottom" height="18"  NAME="NAME_BALL" STYLE="cursor:hand" child="FALL"><div align="center"><strong><font size="4"><a href="index.htm">PDF正文</a></font></strong></div></td>
</tr>
</table></td>
</tr>
</table>
  </td>
</tr>
</table>
<div align="center"></div>
</body>
</html>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -