📄 微软亚洲研究院创始人李开复在演讲.txt
字号:
话说回来了,虽然语音识别期望在七年能够达到人的识别率,但是如果很多人一起讲的话,语音识别系统就不行了。而且人可以做很快地学习和适应,我们听一个人的讲话只要一个音节就可以识别一个人了,而语音系统可能需要一个小时两个小时之后才能达到。纯粹靠语音识别和语音合成就已经有很多很好的应用了,在语音识别来说我们可以做听写的工作,我们看到了一些语音搜索的例子,还有教一个中国人怎么样把中国人教的更好,或者是美国人怎么把中文讲得更好,或者是小孩怎么学好外语,这些都是很好的应用。同样语音合成也有很多很好的应用。比如说做一个个性化的语音合成,这次我来中国这边语音组给了我一个小小的礼物,我现在把这个礼物放给你们听。就是把我的声音加上一个很标准的北京腔调。
下面我们谈的是比较困难的问题自然语言的理解,其实是结合了多种问题,英文BOOK可以当做书也可以当做订购票,但是怎么知道在什么情况下用什么语法的?还有语意。另外还有需要很聪明的能够结合多种的知识,如果BOOK作为名词和动词哪一个概率比较大,这就要看哪个网站了。如果知道个人住在什么地方,喜欢什么地方都会影响语音理解,这些都是一些需要结合的因素。
这些听起来是很困难的,但是如果能够在自然语言理解上面挑选一个领域,不要奢求做一个像人一样的自然语言理解,如果只挑选一个领域,收录很多语料,刚才语音识别的方式完全用在自然语音理解上面。有一个音波X进来,同样也可以是一个W进来,M是语意,我要求的是给我这这一串字最大可能的语意是哪个,最后需要训练两个模型,第一个模型是当我有这个语意的时候,每一种可能表达句子的概率是多大。第二是每一种语意的概率有多大,回到刚才订票的例子就可以看到,我们对于一个BOOK是动词或者是名词的概率有多大,或者是要定某一种票和另一种票概率有多大,都可以从已存的语料上求出来。如果我们是做一个领域的,而且能够收集到很多数据,完全可以做到非常好的语音的理解。但是人真正很深的理解是非常非常广、非常的。甚至今天看起来机器是不能达到的。因为要把不同来源的知识能够结合起来,而且人的理解不在一个领域,而是可以跨领域。就像我今天做这个演讲,如果突然加上一句今天油条很好吃,各位都能懂我讲什么,但是和订票系统讲的话,就不行了。所以今天看来是没有解决的方式。什么是合理的什么是不合理的,这对机器来说也是很困难的。还有幽默感的问题等等这些都是人所具有的,但是可以说今天完全不知道怎么样让机器有这样的一个理解、一个智慧。所以真正说AI能够和人一样的智能,当我们解的AI的问题之后这些问题都解了。但是解决AI的问题可能是遥遥无期的,可能在这一代、下一代、很多代之后都不知道能不能够解决的。
虽然很大的问题很难解决,但是在过去四十年中,如果很宏观来看其实都是有很大的进步的。为什么我们总是十年,为什么过去的预测都不正确,我们还敢不敢再做预测。我认为有几个很重要的事情,一个因为技术还不成熟,当你做一个演示的时候看起来技术很好,但是真正做产品就不是那么回事了。当你没有过去的数据做未来的推测是很危险的事情。第二个是科幻片对人们有一个非常高的期望,期望一高要达到就很困难了。所以我们现在做的工作就是给很低的期望而超过它。还有一件事做DEMO是很漂亮的,但是只有一些句子能够做得很好,并不是能够马上成为产品化的工作。当一个演示成为产品的过程还有是用户要需要它,用户要愿意改变他们过去的一些习惯。另外还要知道开发新的语音的应用要花多少代价,有多少回报,有没有足够的商业价值。
我认为今天我们学到了很多教训,但是今天看来远景和过去是不一样的今天我认为技术慢慢达到了成熟,而且我们学多了很多教训。第一个教训就是不要乱做预测,尤其如果你没有过去的数据能够证实你的预测是合理的。第二数据的力量是无穷的。第三我们知道的不要期望一次彻底地改变所有的事情,一步步地改变世界,一个个领域地来做是非常合理的。而且我们经过数据、经过努力的工作,能够得到很好的应用也是很值得的工作,虽然它不见得是最高科技的发明。还有不要去做一些非常科幻、未来的一些应用。而要开始做用户愿意做的事情,要挑选一些真正有商机的一些可能。如果今天看有什么样商机的可能?下列是几个可能的方向,第一个是在PC上做应用软件,第二是做听写,第三是把会议做一个很精准的音字转换,第四是残障人士手不方便用的时候语音是很好的方法,第五个是行动上,最后一个是呼叫的时候做很好的语音的工作。如果我们看有没有用户需要它?除了语音,有没有别的好的方法,市场需不需要它,还有技术是不是足够成熟?如果我们看这些方面的话,在Telephone上面有最大的机会。
我们在这个录像里面看到的是在移 动和电话环境之下能够做到很好的应用。现在我想很迅速做两个产品的演示,这两个演示是实际的产品,而不只是研究的一些结果。第一个演示是我们刚刚看到电话上的应用,我们公司在昨天推出了一个新的产品,这也是一个电话。我现在做另外一个例子,这个例子能够帮我们找到很好的地图和开车的方向,这是在微软附近的一个体育球场,如果要开去的话可以看看怎么样开是最好的路,它可以给我怎么样开车的路线,这个演示到此为止。我们现在利用语音能够随时随地查询我们要走的方向。
这是我对三年的一个展望,如果我们对三年看起来电话对行动、对残障人士特别看好,我想再过三年之后慢慢就会发现有更多在电话方面更主流的一些应用,比如说随时随地可以搜获你所有的信息,包括E—mail等等,我们也期望所有的电话都有语音的能力。我们会发现听写可能在五年之后慢慢接近人的识别能力,也会有更多的人使用它。我希望能够看到语音不仅成为一个主流,而且成为一个核心的角色,而且我们也会发现在那个时候可以慢慢做到一个主流的状态,我希望刚刚看到苏教授一些例子能够在2010年做到一些代理式的用户界面。当你告诉你的机器要达到什么样的目标,让它一步步地去做这些工作。在十年之后,我想能够看到苏教授的一个例子,这也是比较困难的工作,我们希望能够在家庭的使用,比如说电视,甚至在厨房语音都能够使用。但是这些方面需要用户做更大的转变,能够接受这样的技术。我希望语音在十年之后能够成为一个部分,我并不认为它会成为一个主要的用户界面,但是成为用户界面主要的部分之一。
前三个电话、设备和PC是今天我们考虑到语音的使用方式,其实未来语音当中的数据也是非常重要的一个方向,慢慢地我想我们可以搜索我们自己所录的语音,再未来我们可以做一些真的能够把开会的过程很精准地录下来,所以我希望在下十年能够看到这一系列令人兴奋的应用,他们是在一个领域,许多数据进步,在摩尔定律帮助之下能够完成的任务。语音确实能够得到摩尔定律的帮助,但是我们不仅需要很快的PCU,也需要很多数据和更好的算法,我们希望能够在十年之内能够在语音合成、语音识别达到人的能力。但是语言的理解是更难的一个问题,我不认为在短的时间我们有可能解决不分领域的自然语言理解,也不能够达到真正的人类自然语言理解的程度。但是在针对某个领域或者是某几个领域,我认为在两到三年之内我们会看到很多电话和移 动的和残障人士的应用,而在七年到十年我们的机会是更大的,包括很聪明助理式的服务,包括搜索开会的程序,希望语音不仅是在电话一些必须要用语音的设备上,而是可以在每一个机器,真正能够做到在任何地方任何时间任何方式来使用语音。
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -