⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 微软亚洲研究院创始人李开复在演讲.txt

📁 李开复在华南理工讲座的资料
💻 TXT
📖 第 1 页 / 共 2 页
字号:
微软亚洲研究院创始人李开复在演讲(全文)

   新浪科技讯11月5日“二十一世纪的计算-探索计算之源”国际学术研讨会在北京国际会议中心举行,微软公司高级副总裁Rick Rashid博士、菲尔兹奖获得者丘生桐博士、图灵奖获得者Raj Reddy博士、微软亚洲研究院院长兼首席科学家张亚勤博士、微软公司副总裁李开复博士等知名学者做了主题演讲。新浪科技对本会议做了全程独家直播报道。

  以下为微软亚洲研究院创始人李开复演讲全文

我记得在五年前的今天是我们微软亚洲研究院成立的时候,我曾经说过这么一句话身为在软件界工作的人能够在微软工作感觉非常幸运,身为炎黄子孙,我能够在中国工作感到非常幸运,在五年之后的今天,回顾这五年在微软研究院的成就,看到今天多种研究结果辉煌的演示,而且见到这么多中国年轻的朋友、学生,让我感到非常欣慰,而且非常自豪。微软,亚洲研究院我为你们的成功感到自豪,中国,我为你未来的潜力感到自豪,中国的学生,我为能够在中国出一点力量,帮助你们成长,感到自豪。谢谢。我从一个幸运的人变成一个自豪的人,今天我演讲的题目是一个让我工作了20多年,也感觉非常幸运,因为我有非常多好的老师。如果我们从计算机界能够找到两位非常有哲理的计算机教授,他们分别是两位MIT的教授,他们曾经说过这样的话,语音和语言是人类的一个工程,是人类的一个创作。因为在数千年前人类并没有语言和语音这个东西,人创造发明这个东西是希望能够通过语言来做沟通,做人际交流,因为有这样的人际交流这样一个习惯,这样一个工程,希望让机器也能够用同样的方法和我们沟通。计算机界上两位非常有哲理的哲学家,两位非常务实的专家分别是英特尔和Microsoft的创始人,他们认为过去人类为自己人际交流的工具,也将是未来人机最自然、最表达性的用户界面的方式。所以我们可以看到的是过去这五六十年来科幻片里面用的人机的科幻界面用的都是语言和语音,而且我们能够看到微软、苹果等公司对未来技术的展望,作出一些录像让人们对未来的展望非常乐观,这些录像也都是用语音的界面,现在我们来看两个例子,第一个例子是很有名的科幻片。

  这是一个70年代很有名的科幻片,在这里面计算机虽然是有会话式的交流,但是是一个非常邪恶的计算机,最后我们看到这位主人翁被会话性的计算机所谋杀了,这是一个例子。但是并不见得这种用户界面都是邪恶的。我们看另外一个例子,这是苹果公司非常有名的一个例子,它是非常经典的一个会话式用户界面的创作,这里面没有任何一个技术是真的,它只是对未来的展望。

  我就放到这里,但是我们可以看到这是一个教授他在和经过新一代会话式的用户界面他和另外一个教授进行了合作,而他有一个非常聪明得力的助手,随时都有无限而且精确的信息能够帮助他更好地工作。这两个例子都是一个非常长远、非常科幻的甚至是不可达到的一个目标。但是我们可以从这两个例子看出来,为什么这么多人都对这样的未来多么向往,因为我们就可以和机器有很好的沟通,能够自己工作更有效率。所以人们不能避免地都对这个未来的前景非常看好,而且很多人对未来,包括我自己做的一些预测,而这些预测今天并没有达到,但是从1950年MIT的校长就认为说也许十年之后我们就可以做人机的机器翻译,1957年诺贝尔的得主就预测十年之内计算机能够做很多工作,包括人工智能方面的预测。在1969年,这不是一个人,而是一个美国专家协会他们预测在1978年语音的输入和输出将成为一个自然交流的方式。在1993年,很不幸的是我做了一个预测2003年所有语音都会作为一个计算机的功能,虽然现在有很多计算机都有语音的功能,但是几乎没有用户在用它。在1998年美国最受尊敬的在商业方面的一个专家组预测在2003年PC会有语音输入的能力,而且会成为用户界面的一个重点方向。2003年这个预测也没有达到。所以在这些非常乐观的人对未来的前景非常看好,做了一个非常乐观的预测,而今天这一个又一个预测,从1950年到1998年都没有达到,那么今天在此我们是应该对未来感到一份绝望呢?还是应该对未来有一个新的乐观,这就是我今天想要讲的主要的题目。如果我们把会话式的计算机能够拆分出来,比较简单的,刚才舒教授给了比较完整的图片,如果我们简单来看的话有三个部分,语音识别、语音理解和语音合成,这是三个最重要的部分,我们我将介绍这三个部分过去十年的进展,这十年进展有没有给我们一些启示我们应该是乐观还是悲观?

  在介绍完这三个技术之后将探讨是不是十年之后可以达到未来这些非常好的前景还是会有更大的挫折,我很勇敢地将再做一次对十年之后的预测,希望十年之后来到中国能够证明这次预测比上次预测成功。首先我想讲的是语音识别。语音识别在二三十年前更多人是想用专家系统的方式来模拟人听的方式,用专家系统来做一个很好的语音识别。但是在80年代在IBM的工作更证明用下列的方法能够得到更好的结果,基本上概念很简单,如果X是我们讲的音波,W是所有可能的词或者是句子,要做一个语音识别系统就是要搜索所有可能的句子W,挑选一个W把这个值能够做的越大越好,也就是说我听到X这个音波之后,在所有的句子里要挑一个概率最高的。怎么去做这个问题呢?要把这个拆成两各部分,可以得到这个基本上是挑选最大的值,第一个是所有的句子里面能够产生这样一个音波的概率有多大,再乘上每一个句子它出现的概率有多大,如果我们能够做两个模型,能够很好地模拟这两个模型的话,就做成了一个很好的语音识别系统。第一个部分就是作为的音的模型,就是我们要预测对于一个句子对于一个字它将造成每一种音波的概率有多大,而W是任何一串字它出现的概率又有多大。既然这是概率的一个模型所以就用统计的方法来优化它。怎么优化音的模型呢?就先做一个统计的模型能够很好地模拟每个字、每个音,这每个字、每个音可以有非常细腻的细节,但是刚开始可以假设每个音、每个字有自己的模型,针对这个字、这个音会收取非常多的数据。有一句话在语音界非常出名的,就是最多的数据就是最好的数据。我们发现如果你有很好、很平衡而且很是完美的数据,反而部署得到十倍多的数据它不是很完美、很平衡的。所以多的数据能够构成一个很好的模型参数。我们用这个数据训练这个模型,可以再回去这个音已经做得很好了,现在能不能再收十倍的数据,做一个模型收集很多数据,根据这个数据把模型好好训练好,然后做更大的模型,这个时候需要更多的数据,再用更大的数据训练更大的模型,这样源源不止,一步一步地把语音的识别做得更好。

  我们也可以同样用统计的方法来做,有一个非常简单的每一个句子的概率就是每个字的概率相乘,当看到前两个字,第三字出现的概率有多大,这就是它的概率了。怎么样训练这个东西呢?又需要很大的语量,无限大的语量,其实这是跟音的模型是一样的。这样让数据模型都有一个很大的进步。语音模型达到的进步都是更多的数据加上很好的模拟来得到这样的进步的。

  其实Moore’S对语音来说是一个必须条件,而不是充分条件。当三者结合之后,我们发现摩尔定律每十八个月翻一番,所以对未来应该说带着一种乐观,但是不是特别乐观的乐观。我们乐观因为它确实每60个可以翻一番,但是不能特别乐观,因为它的速度不如纯粹的Moore’S来的那么大。我们从微软公司的结果可以详细看到60个月翻一番的结果。每五年错误率降低一半,96年黄博士第一次在微软演示一套新的系统,很多用户对这个非常兴奋,但是认为精确率还不够,但是我对未来还是非常乐观的,我们可以预测每60个月翻一番,对未来我们将有希望可以达到人的错误率大概是在2%左右。如果我们往前推测的话,应该在7年到10年之内有和可能近或者是达到人类识别的精准度。

  第二语音的合成,我们看到的很多很好的例子,但是语音合成和语音识别是非常类似的。在80年代末90年代有另外一种方法是更合适的。其实就是一个统计的方法来做语音合成。语音合成有两个部分,一个是前端处理,一个是后端处理。前端处理要做一个名词或者是动词其他词的处理,然后断定在什么地方停顿,怎么样把韵律做得更好,怎么做很好的节奏、轻重等等。它会把这个信息传给一个后端,现在我处理的这些字你要去找最好、最大、最合适的,一段一段曾经录过的语料库,然后找出一段段音、字、词,让这些串字之间做的越平滑越好。而且有很好的方法能够评估怎么样挑选最好的单元,怎么把单元衔接在一起,怎么样优化他们之间的平滑度,而不是调一些参数。因为我们发现调一些参数其实和人对自然的期望并不是非常合适的。所以这和语音识别有非常大相似的地方。因为我们也是收集很大的语音库、语料库,在合成的时候做一个非常好的优化和挑选。当库越大,参数越好,你的指标更接近人类对语音字的要求,你就会做到更高的质量。从82年到2001年做的1是很糟,5是非常完美的结果。现在我们放一些过去中文语音合成效果你们可以听出来有很显著的进步,这是82年。这就很接近人的一些表现了,但是新闻播报人员可以达到大约4.5,可以像木兰这样的系统2001年的还是有一些距离,但是比较接近了。纯粹不要考虑理解,只要考虑到语音的识别和合成可以看到的是经过了语音的识别和合成确实有很大的进步,其实已经慢慢接近人的能力。但是并不是因为所谓的人工智能而做出来的,更是一个优化的过程、一个统计的过程做出来的。

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -