微软洪小文：微软小冰识狗能力赶超人类 - 高管风采

　　新浪科技讯 12月2日上午消息，由新浪网举办的主题为“未来商业模式”的首届“C+峰会”今天上午在北京万达索菲特酒店正式开幕，微软亚太研发集团主席洪小文在大会现场发表了主题为“人工智能时代”的演讲。洪小文认为，智能的定义是随时间而定的，现在的人工智能或自然人机界面只需要用语音和面部表情就能完成。
　　在图片未被遮挡，保持完整的情况下，人工智能的识别性能已经跟人类的图片识别能力非常接近。洪小文称：“微软小冰通过图片识别狗的能力，已经赶超人类，不仅能通过图片快速分辨出上百种狗的品类，还能通过识别来与人进行进一步的沟通。”洪小文认为，随着人类与小冰沟通的深度以及广度进一步扩大之后，小冰还将有可能代替当下的搜索功能。(周雪昳)
　　以下是洪小文演讲全文：
　　大家早上好，非常荣幸跟大家分享一下技术，特别是人工智能。不用我讲，几乎每天我们都听到有关于人工智能的产品，人工智能的技术将来多么强大。我想跟大家说人工智能到底是什么东西，我们做到什么地步，将来未来可以有的期待。
　　今天是3C，人工智能也是会产生碰撞、连接盒合作的，我先讲3A。
　　第一个A是聚合，就是我们人的智能是各方面的智能，我们可以看，可以听，可以感受，可以思考，这就是我们讲的聚合。我们在微软所做的一些产品和进展跟大家阐述一下什么叫聚合，聊天机器人不仅是在最近有很多产品在中国，在美国，全世界都有，在微软我们有小冰。实际上从人工智能一开始，50年代其实当时计算机还没有很普及的时候，甚至还没有造出来的时候，我们知道有图灵测试，就是讲聊天机器人能不能分析出来是真正的人在跟你聊天，还是机器人在跟你聊天。
　　像微软有小纳，有SIRI，杜密等等不一样的助手，助手是希望最快时间内完成你想要做的事情，比如说想知道PM2.5，想知道汽车的状况，希望一两句就知道。但你跟你朋友不管用各种社交的网络做交谈的时候，事实上很多时候是希望能够继续谈下去的。所以每一次对话的次数，一来一往我们叫CTS，就是回话的次数。一般其他产品是1—2次左右，我们的小冰是5—10次，今年超过20次了，这是一个例子。
　　去年有一个记者想PK小冰，大概六七十次，他觉得非常不可思议，还能聊一些有兴趣的话题，所以他自己就把它剖在网上，我们跟新浪微博合作，在微博上有活动。我这里要讲的意思是说，虽然我们没有做所谓真正的图灵测试，就是50年代就做机器人了参加图灵测试。实际上你只要有1/3的裁判说分不出人或者机器你就通过了，多年以来有人说他通过了图灵测试，之前还有说德国13岁小男孩通过了图灵测试。大家如果知道小冰是机器人，还愿意跟他每次聊超过20来回的话，我认为基本上就超过了图灵测试。
　　聊天和所谓的助手不一样的地方，个人的信息是帮你去买一个东西，微软叫小纳是注重生产力的，小冰更注重情商。很多人越聊天，越参加社交网络越感觉到寂寞，为什么？特别是在微博、豆瓣上的社交媒体上，今天除非你跟一个很亲的人，亲戚去聊天，他愿意跟你聊下去。一般来讲，当你到一个公众的聊天平台上，除非你是大V，或者是稍微有点名气，才有人跟你聊天。那现在通过小冰就可以跟他一直聊天，他觉得自己被得到重视，可以根据你说的东西做进一步的应对。
　　我们有超过4千万的用户，暑假的时候在日本推出，现在在日本超过1%的人口使用小冰，聊天次数超过20次以上。像男生聊天的次数多，女生聊的时间和个数会比较多。我们一开始做这个的时候是到网上去爬这些像聊天的社交网络，我们一旦转起来以后，我们就真正有能够跟小冰聊天的内容。这个东西我们就可以拿来服务，事实上我们今天虽然是很少的比例，只有1/4，但是大概帮助到50%的人，就是跟小冰聊天。这非常像搜索，就是当你对一件事情，对一个人，对一个物件有一些想法的时候，这些想法事实上对其他的用户是有兴趣的，当你们两个不管是在用户上，或者你问的内容上很接近的时候用，这样真的可以帮助到人了解其他人对于一些事情的想法，当然就是来自于小冰聊天的功能。
　　过去最近几个月我们努力，不但是做聊天，现在也可以用图象来聊天。实际上人和人的交谈，很多时候你就是拿出一个图象给别人，对一件事情的回应可能也是一个图象。我们就在网上所爬的地方去找，这张图象跟哪张图象很类似，我们找到了，如果有人对那张图象有一些特殊的回帖，我们也把那个东西弄过来。跟大家解释一下技术上怎么做，在微软有一个项目叫(牛机)项目，这已经是第二版了。大家都在做云，我们不仅做云，还要做智慧云，智能云。我们做了计算机视觉、人脸识别、自然语言功能做成ATI，让大家很容易写智能软件在云上，这是一个例子。How—Old.ent，这是微软做的，当时我们做这个项目的时候，其实不是要推出这个APP，我们是要用这个证明你多么容易写智能软件。
　　左边不到十行的代码，这样就可以写一个How—Old.ent，里面有几张脸，他是什么性别，他的年龄，就可以做一个How—Old.ent。我们本来想说这个有什么意思？你为什么要别人采你的年龄？最后我们发现，马上有上亿的人过来。因为大家很好奇说我看起来像几岁，实际上在心理学里面有一个已经被研究很多的东西，就是你笑起来和你不小实际上可以差5岁。两个礼拜以前小冰推出一个功能，大家都可以去试，我们叫How—Old.ent2.0，它可以看出来你的年龄，看你的穿着，说你现在是加减几岁，是成熟了几岁还是年轻了几岁。
　　我们不仅可以做影像的识别，有狗，有瓶子，而且还要把边界找出来，定位定出来，这个非常重要，后面的一些应用待会儿会跟大家介绍。我们很高兴，微软在做这方面努力的时候，第一次在学术界有一次比赛，我们在里面第一次超过人识别的情况。人识别其实也会出错的，这不是说计算机识别的东西超过人了，你把狗遮住90%，人还是知道它是狗。那计算机这方面是落后于人的，假设如果是一个图片没有被挡住的话，计算机的识别能力已经跟人差不多了。
　　怎么把这个东西用在小冰里面呢？实际上我们去年就推出一个小冰识狗。狗是我们人类最亲密的宠物，狗种有100多种，我几乎可以保证小冰识狗一定比人强，就比我强。但是只知道他是什么狗种，这个在交谈上面实际上不够生动有趣，因为网上有些人说某个明星像某种狗种，我们就加进来，大家就觉得小冰不仅可以识别狗种，而且可以做比较有趣的对谈。
　　我们还可以辨认书，你不是只辨认出这是什么书，网上就有很多人谈这个书，你可以谈书的内容，可以谈书的作者，更重要的是你可以谈什么样的人喜欢这样的书，这样有很多的话题可以聊。在小冰的用户里面可以把人的穿着打扮放上去，小冰有三个辨认。第一个是布料的辨认，是牛仔布、毛布。第二个是衣服种类的辨认，比如说这是一件裤子，有的是上衣，有的是衬衫，有的是裙子，所以我们做了衣服种类的辨认。第三种是衣服风，你是什么样的款式，有的是学院风，也有上班族风，这里可能是邋遢风，因为有很多补丁。在网上如果有人曝光相关照片的话，就会说你要考我的阵线活吗，我们也是类似的，辨认出来东西到网上找到相应聊天的东西给到用户。
　　这是我跟我同事所照的照片，他就会告诉你这里有几个人，每个人几岁。我们发现有两个人他们的年龄差不多，同时这两个人像不像，如果两个人长得像就说他兄弟情深。最近“颜值”非常火，我们也做颜值的辨认，在一个区域内我们多谈颜值，在另外一个区域就多谈内心，我们就说这个人内心很温柔，这是图象的聊天，两个礼拜之前我们也推出了Video视频聊天。
　　聊天归聊天，小冰还是要能谈一些有用的东西，这就是我们所做的一些尝试，这是我们一年前跟京东所做的尝试。京东把他的一些产品规格，产品的销售，产品的退货率各个东西给我们。这里面一开始女孩子跟小冰聊一些你爱我，我爱你的东西，突然这个女孩子开始聊某一个明星，韩国的明星。接着照片照的不错，说哪一款手机能够照好的照片，小冰因为有京东产品的信息，就可以跟她聊，手机的性价比，哪款手机拍出来的象素，照片好不好。最后这个女孩子就去睡觉了，第二天早上起来这个女孩子就真的到京东去买了某一款手机，我们觉得这是一个新的搜索，一个新的商业模式。因为跟传统广告部一样，传统广告不管怎么样做，很多时候业务都是跑出来的。你因为能跟小冰变成好友的聊天，它像你的姐妹淘、兄弟淘，所以你会听取它的建议。
　　所以将来会变成全新取代搜索的方式，以后是对话的人机界面，你会觉得有一个东西可以跟你聊各种事情，同时也可以跟不同的网站或者电商合作，能够把这些东西在很自然的情况下，有点像今天的社交网络你问朋友的意见一样，来做这样一个新的界面。
　　接下来第二个A就是所有的智能必须要能学习，要能适应，就是智商。智商可能是量人智力最好的工具和测试，智商测验往往有一个时间，你不管怎么练习都会在相应固定的区段里面。30%—40%的测试是有关于语言的，比如说A对B的关系，就像C对另外一个的关系。章节对于书的关系就好像节目对哪一个的关系，你找一个跟某个字最接近的，你找一个反义字。在这种测试里面，随着年龄的增长，我们对语言的应用会变得更好，还有你的教育程度，随着年纪成长你的平均分会高一点，你的教育水平越高平均分也会越高。
　　那么人工智能大家知道深度学习，深度学习里面拿来做自然语言，有一个东西就是我们到网上把所有的文本找来，每个字的分布把它弄到多维的空间里，每个字在多维空间里是一个点，两个字如果意思很接近，他们两个点就很接近。不但是这样，比如说巴黎是法国的首都，北京是中国的首都，这时候你拿法国去减巴黎，它的距离就会跟中国减北京的距离很接近，所以这是用深度学习，在自然语言当中很重要的突破，很多公司和学校都有做类似的研究。
　　大家可以知道，假如有这样的东西的话我们解刚才的测试就得心应手了，但是因为语言还是很不一样的，做出来的结果还是不怎么好，那就要以下三个工作。
　　第一个工作是多意词，BANK可以是银行，也可以是伙伴。中国的面，也可以说是人的颜面，也可以说是吃一碗面。就可以做成一个多模型，用这个模型去代表它，你做出来的东西会更准。
　　第二个是词类，可以当动词，当名词，也可以当形容词，你就把它分散开来，它的数据不够多，我们可以集中起来，这样做会更好。
　　第三个还有一些更高语意的东西，像我刚才讲的首都，可能有些国家比较小，他在网上出现的次数就很少。比如说我们有百科全书，我们知道非洲某一个国家首都就是这个地点，虽然在网上出现的少，我们可以把它当做额外训练的数据做的更好。发现成绩还真的不错，我们不能说我们机器已经超过最聪明的人了，但是我们已经大于平均值了。
　　其实可以大胆的预测，像这种选择题，你又有足够量的数据。我们人去考语言，你真的要背很多单字，而且你还要知道这个单字怎么用。像学英，说这两个字是同义词，其实没有两个词句完全一样的。如果两个词完全同义就不需要有另外一个了，所以用法很重要。我们不可能看所有的文章，但是机器可以，所以我觉得很有希望机器就像下棋一样，很有机会打败人，包括这个测试。
　　最后一个就是环境，这里是影像，不但可以辨认出里面有什么东西，比如说这里是草地，是房子，还可以抓出它的边缘在哪里。像刚才李总讲的自动驾车、无人机，能辨认出这个就可以做很多应用，避免在安全上，在拍东西的时候，比如说你有运动相继，有无人飞机，主要是拍人，我就跟着人，不用拍其他的东西。
　　当我们越来越多的传感器，越来越的物联网，可以让它无所不在，所以第三个A是无所不在。我们今天说智能车、智能手机还是有一个概念，事实上未来的世界应该是不管到哪里，手机也好，旁边有摄象头，各种各样的东西，智能东西透过小冰、小纳这样的助手就可以了，是无所不在的。
　　讲完了三个A，到底未来人工智能的发展是什么样的？在这里我想跟大家分享我个人怎么看未来的发展。
　　首先有几个词，人工智能、机器学习、大数据，我觉得这三件事情并不完全一样，但是95%是同样的事情。为什么呢？今天我们所讲的人工智能，几乎可以保证做任何人工智能的事情都是用大数据的方法，机器学习的方法，这也是为什么人工智能能发展的这么快。你给他数据他就可以学习，不管是深度学习还是其他学习方法，他都可以做出一个系统，可以做的很好，很智能的东西，数据永远不会嫌多。但是这跟人的智能还是有点不同的，人的智能事实上很多时候我们没有大数据，你们想想看，人的智能很多是没有大数据的情况下，我必须要做一个判断，然后往前走。
　　你是国家领导人也好，你要买卖股票也好，你不可能有所有的数据。这时候跟人的智能不太相同，人不可能读所有的文章，你读了这些文章就要做一些决定。机器可以读所有的文章，它要看什么东西必须是人写程序，一个算法。目前一个新的职业叫做数据科学家，数据分析师，实际上今天所有的公司，包括刚才大家听到李总讲的沃尔沃，里面有几百个计算机。今天几乎所有这些，包括高科技公司，可能有一半的人所招聘的都是做数据分析的工作，学校也是成立了很多数据相关的课程。什么叫数据分析师，数据科学家呢？他懂算法，也会编程，会看数据，看了数据以后从数据里面找到关键点，然后怎么用最好的算法来解决问题。
　　事实上你如果看全人类文明的发展，其实就是一个反馈回路。什么叫反馈回路？今天我有一个想法，我有一个算法，我有一个工具，我有一个假设，我就去做实验，我就收集实际的数据，从数据里面来洞察、理解，来知道它的关键点，来想下一个实验做什么，下一个产品是什么。不管你是做传统产业还是什么，每个东西都是这样的反馈回路。今天所谓的大数据，所谓的机器学习，所谓的人工智能，都是能够帮你，能够更多的把这些数据传起来，你每一次回路，你的东西应该能进步一些。以前我们可能要花数十年，百年，才能把一个回路给转起来，今天我们可以很快的转这个回路。以前做一个回路的时间我们可以做一百次回路，那我们的进步是不得了的。
　　回过头来，我们到底应不应该担心机器呢？机器这么聪明，机器这么快，又不会累。那什么叫智能？我觉得智能起码有下面四种定义。
　　第一个定义是功能，功能是毫无疑问的，今天这辆车多少匹马力，多少气缸，能跑多快，0—60公里能够跑3秒或者6秒，这叫功能。计算机有多少内存，能算多快，功能大家都没有争议。
　　智能是随时间而定的，我记得70年代那时候的智能是什么？当电视第一次有摇控器的时候，那个时候就叫智能电视。因为你不用到前面去就可以转台了，实际上摇控器改变了我们的形态。以前你要到前面转台，转台的几率一定没有那么多，更没有“沙发土豆”，当年的智能电视是这个定义，今天的智能电视不用我讲你也知道了，我相信20年后的智能电视又有改变。那计算机、算盘，当时我很羡慕会打算盘的人，包括开根号，谁能开的很快，小时候还有这样的算术比赛，今天已经没有这样的算术比赛了。这跟下棋一样，今天人已经下不过机器了在象棋方面，所以象棋也是一样，相当于看谁能下的比较深，有点跟开根号一样，所以智能随时间而改变。
　　智力又更高一层了，就是创造力，人最宝贵的东西就是创造力。刚才讲的那些所谓智能，都是人想好的算法叫机器去做，人都不知道我们下一个创造力来自什么。我给你个选择题有五个答案，我说都不是这个，是另外的东西，这才是创造力，创造力绝对不是选择题。
　　智慧，大师级的，历史上有这么多有智慧的人讲的东西，能启发我们，能激励我们的，这个我觉得是更高一层的，计算机远远没有达到这种程度。
　　那计算机到底是什么？图灵很了不起的就是把计算机的理论奠定了，而且还没有把计算机做出来以前，他就说所有的有算法的东西都可以拿到计算机来执行。计算机相当于我们的左脑，做重复性的计算。比如说开根号，下棋，我想下这一步你就会下哪几步，把算法算好。包括深度学习，都是我们人想出一个算法叫计算执行，今天我没有看到任何一个情形出来，你做一个算法他可以想出另外一个新的算法解决问题，因为人都不知道下一个问题怎么解，你怎么可能让计算机去做呢？
　　即使是这样，计算机+大数据是非常非常有能量的，原因很简单。到底信息是不是智能？我觉得有两个观点。我们说一个人博学多文是一个例子，还有一个反例就是内线交易。内线交易是违法的，谁不想赚钱呢？你要投资股票，今天有一个人，张三有内线的资料，他不应该用的时候用了，这样的人是要吃法律官司的，我们不会认为这个人比较聪明。但的确他有这个信息我没有，他一定会做出更好的判断，所以信息到底是不是更好的智能？这是可以辩论的。
　　刚才提到了很多问题，其实人的算法加上计算机，我们不能看全世界所有的文章，我们可以让计算机去看。但是计算机去看不是扫过弄进来而已，没有意义，我们必须要有一个算法，叫计算机看文章的时候去针对什么东西。比如说今天很多人做投资，他可以写一个程序，他说我去看文章的时候看哪些东西，让计算机去看，把全世界所有的文章，针对每个公司的文章看一遍，看完之后得到一些分析，根据这个分析我做一个决定该怎么买卖股票。但是别忘了，那个算法还是来自我们，所以我们跟计算机的关系有点像左脑和大脑的关系，计算机是最好的左脑。那我们的右脑是什么？我们的想象力、算法，左脑和有脑搭配，就可以有更多的小心求证和创新。
　　最后人工智能危不危险？有很多人说人工智能非常危险，比核子武器还要危险，甚至有人说临界特点。我认为这些担忧完全没有必要，因为计算机其实就是一个工具，它是最好的左脑。我们把算法交给它，它不会喊累，就一直算，根号算到13700位都可以算，计算机就是这么一个东西。要说意识，人有意识，我知道我为什么讲这些东西，我也知道你怎么看我做这件事情，就是笛卡尔说的我思故我在，计算机是没有意识的。小冰在做一些有意识的东西，但是这都是我们写好的，故意不告诉你答案，吊吊你，这是我们做好的程序。
　　如果有人把计算机做一些坏的意识，那你要怪后面的那个人，大家不会认为飞机是不好的东西，但是也有人拿飞机做坏事，但是你怪的是用飞机做坏事的人，不是怪飞机。所以计算机不可能有意识要消灭人类的，如果有那一天，一定是有一个人把计算机设置成那个样子。拿无人车做一个例子，今天做无人车的都是想怎么能避免怎么不撞到人，那你同样会问，如果我做一个车看到人就撞，一定不会比避免希望撞人更难，那为什么没有人做这样的事情？因为良知嘛。如果有一辆车看到人就撞，我们怪的一定是做车的人，而不是怪汽车。
　　所有的机器我们希望都是可控的，没有人希望造一个不可控的机器人。那么计算到底有没有危险呢？唯一一个我觉得是将来我们可能要避免的危险，就是大、虫。所有的计算机里面都会有虫，虫会产生一些我们无法预期的后果。如果虫遇到人就伤害，这几乎是零，BUG会产生不好的解决，但是我们可以避免。1950年代计算机还没开始的时候，《时代》杂志就说，人们不怕做出大卡车这样的东西，但是我们怕做出一个比我们聪明的人，到现在60年过去了，我们还在担心这个问题，我觉得没有必要。人的良知可以让世界很和谐，人类加机器一定会帮我们做出人类本身自己不能做的很多事情的，像飞机一样。所以我认为人类+机器是超人的关系，用英文来讲就是增强智能。
　　A.I让我们加上机器，做出我们做不到的事情，是超人的关系，谢谢大家！

网友评论

视频

品牌人物·诚信楷模

品牌人物·艺术人生

品牌人物·华夏名家

图说社会

负债的“90后、00后”日

进口葡萄酒扫码价虚高，

除了“酒托茶托饭托”，

去叶莴笋不享受“绿通”

品牌人物·创业英才

品牌人物·杰出儒商