王小川乌镇秀搜狗机器同传有望取代人类 - 高管风采

　　第三届世界互联网大会于11月16日至18日在浙江乌镇举行，移动互联网论坛上，搜狗CEO王小川与脸谱公司副总裁石峰、斯坦福大学客座教授杰瑞·卡普兰等人同台论道，并发表了主题为《人工智能的未来之路》的演讲。王小川从现今人工智能技术的“能与不能”说起，和在座嘉宾一同畅想人工智能未来的终极理想，他表示：“搜索的未来是人工智能时代的皇冠，搜索和输入法未来将向问答迈进”。　值得一提的是，此次分论坛现场王小川发布了搜狗人工智能新产品——机器同传，展示了实时机器翻译技术，将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示，引起轰动。这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示，效果可靠、准确率已接近人类同传翻译结果。基于这项技术，演讲现场屏幕上除了语音识别实时显示的中文内容外，还有机器同步翻译的英文内容，实时生成了演讲内容的双语滚动字幕。从现场演示效果来看，搜狗语音识别准确率已超过97%，机器翻译准确率达90%，未来有望取代人类同传。

　　以下为王小川演讲全文：

　　前面的十二场演讲中，嘉宾有讲技术、有讲产品，我希望给大家的分享一些不同的内容，以及自己独有的视角。今天大家都提到了AlphaGo，作为引爆人工智能的开端，深度学习在其中承担了最重要的责任。

　　今天当大家开始畅想的时候，有可能认为人工智能未来真的会取代人。那么我希望今天的分享更多地能够知道人工智能在今天能做什么?不能做什么?未来终极的理想又是什么?

　　AlphaGo之后，我们看到最重要的突破领域是在语音和图像领域，在文字领域的进展很缓慢。今天我们在机器翻译方面取得了一些突破，但是问答和对语义的理解是不够的。回到图灵测试，上个世纪五十年代图灵提出了问答机器推想这样一个概念，今天我们直观感受是语音图像进步很快，但是自然语言的处理其实是比较慢的。

　　抛开技术，以一个产品经理的身份来看，人工智能有三个产品方向，一是识别——语音识别、图像识别、视频识别;二是图像——我们去生产图像，生成识别;三是创造。大家提到了人工智能进步的层次，我想换一个方式描述——工程师在人工智能时代会处于越来越重要的位置。我们开始提到传统的方法是把规则教给机器，随着统计系统的发展，包括深度学习，我们开始更容易地将答案教给机器。在数据的积累下我们就可以让机器变得更加聪明。这里面更前沿的方式是将目标教给机器，AlphaGo融合了几套算法，但是我和他们工程师沟通的时候，这样的把目标教给机器的强化学习，还并不成熟，也就是说如果没有之前三千万局人机对战的棋谱的话，AlphaGo没能够做到只通过强化学习来战胜人类，这是技术层面需要往下突破的重点。如果将目标教给机器，机器能够做自我学习，这方面有新的突破，那我们离新的人工智能时代就更近了。

　　今年六月份，我去了英国伦敦，和DeepMind公司的工程师做了交流，我特别好奇的事情就是下棋的第四局机器输掉了,发生了什么事情?他们说不是程序有BUG，就是深度学习本身有瓶颈，围棋比赛是三月份，我是在六月份去的伦敦，已经过了三个月，三个月的时间，这个问题依然没有解决。但是我离开以后一个星期，他们的程序能够正确面对之前的第四局棋谱，我问他是否这个BUG修好了，工程师说没有，只是代表第四局那个特定问题，正好机器可以解决。但是我们依然不知道再什么情况下， AlphaGo会继续出错。所以深度学习这样一个体系其实还是有瓶颈所在的。

　　所以在今天我更多想谈的是以深度学习为代表的今天的人工智能技术，还有哪些不靠谱的地方?在产品上不适用之处有哪些?

　　第一个问题，语音识别靠谱吗?在百度、腾讯，都提到了语音识别的能力，今天我给大家的演示也用到了语音识别，这是搜狗自己的技术。在安静的环境里面我们的识别准确度已经到了95%，甚至97%，但是一旦有噪音，准确率迅速下降。当噪音还只是汽车的引擎噪音、风的噪音时，我们把噪音当成原始数据进入监督学习系统里去，把这种噪音变成机器见过的问题之一。但是事实上我们见到更多的情况，如果同时两个人说话会怎样?在今天的学术界依然无解。

　　今年六月份，我问学术界的人，人和机器在语音识别上的区别，究竟怎么破解?我们用机器的时候，采用立体声的方式做定向的识别，也就是说我们做一个麦克风矩阵，通过立体的方式知道其中一个人在说话，把另外一个人说话去掉，但人本身是这样干的吗?如果把一只耳朵堵上，我是否没办法分离出谁在说话?或者把两个说话的声音录在一个单声道里面，人可以识别吗?人当然是可以的，所以人的方法和机器不一样。人怎么识别?因为人的音色不一样，还是因为两个人的一个声音大一个声音小，还是因为他们不同的语音，博士说但凡同时两个人说话的时候，只要能够找到差别，人就能够把其中的一个声音识别出来，所以人在和机器处理过程当中有巨大的不同。语音识别最成熟的领域其实还是和人有很大的区别。