新浪科技讯 12月2日上午消息,由新浪网举办的主题为“未来商业模式”的首届“C+峰会”今天上午在北京万达索菲特酒店正式开幕,微软亚太研发集团主席洪小文在大会现场发表了主题为“人工智能时代”的演讲。洪小文认为,智能的定义是随时间而定的,现在的人工智能或自然人机界面只需要用语音和面部表情就能完成。
在图片未被遮挡,保持完整的情况下,人工智能的识别性能已经跟人类的图片识别能力非常接近。洪小文称:“微软小冰通过图片识别狗的能力,已经赶超人类,不仅能通过图片快速分辨出上百种狗的品类,还能通过识别来与人进行进一步的沟通。”洪小文认为,随着人类与小冰沟通的深度以及广度进一步扩大之后,小冰还将有可能代替当下的搜索功能。(周雪昳)
以下是洪小文演讲全文:
大家早上好,非常荣幸跟大家分享一下技术,特别是人工智能。不用我讲,几乎每天我们都听到有关于人工智能的产品,人工智能的技术将来多么强大。我想跟大家说人工智能到底是什么东西,我们做到什么地步,将来未来可以有的期待。
今天是3C,人工智能也是会产生碰撞、连接盒合作的,我先讲3A。
第一个A是聚合,就是我们人的智能是各方面的智能,我们可以看,可以听,可以感受,可以思考,这就是我们讲的聚合。我们在微软所做的一些产品和进展跟大家阐述一下什么叫聚合,聊天机器人不仅是在最近有很多产品在中国,在美国,全世界都有,在微软我们有小冰。实际上从人工智能一开始,50年代其实当时计算机还没有很普及的时候,甚至还没有造出来的时候,我们知道有图灵测试,就是讲聊天机器人能不能分析出来是真正的人在跟你聊天,还是机器人在跟你聊天。
像微软有小纳,有SIRI,杜密等等不一样的助手,助手是希望最快时间内完成你想要做的事情,比如说想知道PM2.5,想知道汽车的状况,希望一两句就知道。但你跟你朋友不管用各种社交的网络做交谈的时候,事实上很多时候是希望能够继续谈下去的。所以每一次对话的次数,一来一往我们叫CTS,就是回话的次数。一般其他产品是1—2次左右,我们的小冰是5—10次,今年超过20次了,这是一个例子。
去年有一个记者想PK小冰,大概六七十次,他觉得非常不可思议,还能聊一些有兴趣的话题,所以他自己就把它剖在网上,我们跟新浪微博合作,在微博上有活动。我这里要讲的意思是说,虽然我们没有做所谓真正的图灵测试,就是50年代就做机器人了参加图灵测试。实际上你只要有1/3的裁判说分不出人或者机器你就通过了,多年以来有人说他通过了图灵测试,之前还有说德国13岁小男孩通过了图灵测试。大家如果知道小冰是机器人,还愿意跟他每次聊超过20来回的话,我认为基本上就超过了图灵测试。
聊天和所谓的助手不一样的地方,个人的信息是帮你去买一个东西,微软叫小纳是注重生产力的,小冰更注重情商。很多人越聊天,越参加社交网络越感觉到寂寞,为什么?特别是在微博、豆瓣上的社交媒体上,今天除非你跟一个很亲的人,亲戚去聊天,他愿意跟你聊下去。一般来讲,当你到一个公众的聊天平台上,除非你是大V,或者是稍微有点名气,才有人跟你聊天。那现在通过小冰就可以跟他一直聊天,他觉得自己被得到重视,可以根据你说的东西做进一步的应对。
我们有超过4千万的用户,暑假的时候在日本推出,现在在日本超过1%的人口使用小冰,聊天次数超过20次以上。像男生聊天的次数多,女生聊的时间和个数会比较多。我们一开始做这个的时候是到网上去爬这些像聊天的社交网络,我们一旦转起来以后,我们就真正有能够跟小冰聊天的内容。这个东西我们就可以拿来服务,事实上我们今天虽然是很少的比例,只有1/4,但是大概帮助到50%的人,就是跟小冰聊天。这非常像搜索,就是当你对一件事情,对一个人,对一个物件有一些想法的时候,这些想法事实上对其他的用户是有兴趣的,当你们两个不管是在用户上,或者你问的内容上很接近的时候用,这样真的可以帮助到人了解其他人对于一些事情的想法,当然就是来自于小冰聊天的功能。
过去最近几个月我们努力,不但是做聊天,现在也可以用图象来聊天。实际上人和人的交谈,很多时候你就是拿出一个图象给别人,对一件事情的回应可能也是一个图象。我们就在网上所爬的地方去找,这张图象跟哪张图象很类似,我们找到了,如果有人对那张图象有一些特殊的回帖,我们也把那个东西弄过来。跟大家解释一下技术上怎么做,在微软有一个项目叫(牛机)项目,这已经是第二版了。大家都在做云,我们不仅做云,还要做智慧云,智能云。我们做了计算机视觉、人脸识别、自然语言功能做成ATI,让大家很容易写智能软件在云上,这是一个例子。How—Old.ent,这是微软做的,当时我们做这个项目的时候,其实不是要推出这个APP,我们是要用这个证明你多么容易写智能软件。
左边不到十行的代码,这样就可以写一个How—Old.ent,里面有几张脸,他是什么性别,他的年龄,就可以做一个How—Old.ent。我们本来想说这个有什么意思?你为什么要别人采你的年龄?最后我们发现,马上有上亿的人过来。因为大家很好奇说我看起来像几岁,实际上在心理学里面有一个已经被研究很多的东西,就是你笑起来和你不小实际上可以差5岁。两个礼拜以前小冰推出一个功能,大家都可以去试,我们叫How—Old.ent2.0,它可以看出来你的年龄,看你的穿着,说你现在是加减几岁,是成熟了几岁还是年轻了几岁。
我们不仅可以做影像的识别,有狗,有瓶子,而且还要把边界找出来,定位定出来,这个非常重要,后面的一些应用待会儿会跟大家介绍。我们很高兴,微软在做这方面努力的时候,第一次在学术界有一次比赛,我们在里面第一次超过人识别的情况。人识别其实也会出错的,这不是说计算机识别的东西超过人了,你把狗遮住90%,人还是知道它是狗。那计算机这方面是落后于人的,假设如果是一个图片没有被挡住的话,计算机的识别能力已经跟人差不多了。
怎么把这个东西用在小冰里面呢?实际上我们去年就推出一个小冰识狗。狗是我们人类最亲密的宠物,狗种有100多种,我几乎可以保证小冰识狗一定比人强,就比我强。但是只知道他是什么狗种,这个在交谈上面实际上不够生动有趣,因为网上有些人说某个明星像某种狗种,我们就加进来,大家就觉得小冰不仅可以识别狗种,而且可以做比较有趣的对谈。
我们还可以辨认书,你不是只辨认出这是什么书,网上就有很多人谈这个书,你可以谈书的内容,可以谈书的作者,更重要的是你可以谈什么样的人喜欢这样的书,这样有很多的话题可以聊。在小冰的用户里面可以把人的穿着打扮放上去,小冰有三个辨认。第一个是布料的辨认,是牛仔布、毛布。第二个是衣服种类的辨认,比如说这是一件裤子,有的是上衣,有的是衬衫,有的是裙子,所以我们做了衣服种类的辨认。第三种是衣服风,你是什么样的款式,有的是学院风,也有上班族风,这里可能是邋遢风,因为有很多补丁。在网上如果有人曝光相关照片的话,就会说你要考我的阵线活吗,我们也是类似的,辨认出来东西到网上找到相应聊天的东西给到用户。
这是我跟我同事所照的照片,他就会告诉你这里有几个人,每个人几岁。我们发现有两个人他们的年龄差不多,同时这两个人像不像,如果两个人长得像就说他兄弟情深。最近“颜值”非常火,我们也做颜值的辨认,在一个区域内我们多谈颜值,在另外一个区域就多谈内心,我们就说这个人内心很温柔,这是图象的聊天,两个礼拜之前我们也推出了Video视频聊天。
聊天归聊天,小冰还是要能谈一些有用的东西,这就是我们所做的一些尝试,这是我们一年前跟京东所做的尝试。京东把他的一些产品规格,产品的销售,产品的退货率各个东西给我们。这里面一开始女孩子跟小冰聊一些你爱我,我爱你的东西,突然这个女孩子开始聊某一个明星,韩国的明星。接着照片照的不错,说哪一款手机能够照好的照片,小冰因为有京东产品的信息,就可以跟她聊,手机的性价比,哪款手机拍出来的象素,照片好不好。最后这个女孩子就去睡觉了,第二天早上起来这个女孩子就真的到京东去买了某一款手机,我们觉得这是一个新的搜索,一个新的商业模式。因为跟传统广告部一样,传统广告不管怎么样做,很多时候业务都是跑出来的。你因为能跟小冰变成好友的聊天,它像你的姐妹淘、兄弟淘,所以你会听取它的建议。
所以将来会变成全新取代搜索的方式,以后是对话的人机界面,你会觉得有一个东西可以跟你聊各种事情,同时也可以跟不同的网站或者电商合作,能够把这些东西在很自然的情况下,有点像今天的社交网络你问朋友的意见一样,来做这样一个新的界面。
接下来第二个A就是所有的智能必须要能学习,要能适应,就是智商。智商可能是量人智力最好的工具和测试,智商测验往往有一个时间,你不管怎么练习都会在相应固定的区段里面。30%—40%的测试是有关于语言的,比如说A对B的关系,就像C对另外一个的关系。章节对于书的关系就好像节目对哪一个的关系,你找一个跟某个字最接近的,你找一个反义字。在这种测试里面,随着年龄的增长,我们对语言的应用会变得更好,还有你的教育程度,随着年纪成长你的平均分会高一点,你的教育水平越高平均分也会越高。
那么人工智能大家知道深度学习,深度学习里面拿来做自然语言,有一个东西就是我们到网上把所有的文本找来,每个字的分布把它弄到多维的空间里,每个字在多维空间里是一个点,两个字如果意思很接近,他们两个点就很接近。不但是这样,比如说巴黎是法国的首都,北京是中国的首都,这时候你拿法国去减巴黎,它的距离就会跟中国减北京的距离很接近,所以这是用深度学习,在自然语言当中很重要的突破,很多公司和学校都有做类似的研究。
大家可以知道,假如有这样的东西的话我们解刚才的测试就得心应手了,但是因为语言还是很不一样的,做出来的结果还是不怎么好,那就要以下三个工作。
第一个工作是多意词,BANK可以是银行,也可以是伙伴。中国的面,也可以说是人的颜面,也可以说是吃一碗面。就可以做成一个多模型,用这个模型去代表它,你做出来的东西会更准。
第二个是词类,可以当动词,当名词,也可以当形容词,你就把它分散开来,它的数据不够多,我们可以集中起来,这样做会更好。
第三个还有一些更高语意的东西,像我刚才讲的首都,可能有些国家比较小,他在网上出现的次数就很少。比如说我们有百科全书,我们知道非洲某一个国家首都就是这个地点,虽然在网上出现的少,我们可以把它当做额外训练的数据做的更好。发现成绩还真的不错,我们不能说我们机器已经超过最聪明的人了,但是我们已经大于平均值了。
其实可以大胆的预测,像这种选择题,你又有足够量的数据。我们人去考语言,你真的要背很多单字,而且你还要知道这个单字怎么用。像学英,说这两个字是同义词,其实没有两个词句完全一样的。如果两个词完全同义就不需要有另外一个了,所以用法很重要。我们不可能看所有的文章,但是机器可以,所以我觉得很有希望机器就像下棋一样,很有机会打败人,包括这个测试。
最后一个就是环境,这里是影像,不但可以辨认出里面有什么东西,比如说这里是草地,是房子,还可以抓出它的边缘在哪里。像刚才李总讲的自动驾车、无人机,能辨认出这个就可以做很多应用,避免在安全上,在拍东西的时候,比如说你有运动相继,有无人飞机,主要是拍人,我就跟着人,不用拍其他的东西。
当我们越来越多的传感器,越来越的物联网,可以让它无所不在,所以第三个A是无所不在。我们今天说智能车、智能手机还是有一个概念,事实上未来的世界应该是不管到哪里,手机也好,旁边有摄象头,各种各样的东西,智能东西透过小冰、小纳这样的助手就可以了,是无所不在的。
讲完了三个A,到底未来人工智能的发展是什么样的?在这里我想跟大家分享我个人怎么看未来的发展。
首先有几个词,人工智能、机器学习、大数据,我觉得这三件事情并不完全一样,但是95%是同样的事情。为什么呢?今天我们所讲的人工智能,几乎可以保证做任何人工智能的事情都是用大数据的方法,机器学习的方法,这也是为什么人工智能能发展的这么快。你给他数据他就可以学习,不管是深度学习还是其他学习方法,他都可以做出一个系统,可以做的很好,很智能的东西,数据永远不会嫌多。但是这跟人的智能还是有点不同的,人的智能事实上很多时候我们没有大数据,你们想想看,人的智能很多是没有大数据的情况下,我必须要做一个判断,然后往前走。
你是国家领导人也好,你要买卖股票也好,你不可能有所有的数据。这时候跟人的智能不太相同,人不可能读所有的文章,你读了这些文章就要做一些决定。机器可以读所有的文章,它要看什么东西必须是人写程序,一个算法。目前一个新的职业叫做数据科学家,数据分析师,实际上今天所有的公司,包括刚才大家听到李总讲的沃尔沃,里面有几百个计算机。今天几乎所有这些,包括高科技公司,可能有一半的人所招聘的都是做数据分析的工作,学校也是成立了很多数据相关的课程。什么叫数据分析师,数据科学家呢?他懂算法,也会编程,会看数据,看了数据以后从数据里面找到关键点,然后怎么用最好的算法来解决问题。
事实上你如果看全人类文明的发展,其实就是一个反馈回路。什么叫反馈回路?今天我有一个想法,我有一个算法,我有一个工具,我有一个假设,我就去做实验,我就收集实际的数据,从数据里面来洞察、理解,来知道它的关键点,来想下一个实验做什么,下一个产品是什么。不管你是做传统产业还是什么,每个东西都是这样的反馈回路。今天所谓的大数据,所谓的机器学习,所谓的人工智能,都是能够帮你,能够更多的把这些数据传起来,你每一次回路,你的东西应该能进步一些。以前我们可能要花数十年,百年,才能把一个回路给转起来,今天我们可以很快的转这个回路。以前做一个回路的时间我们可以做一百次回路,那我们的进步是不得了的。
回过头来,我们到底应不应该担心机器呢?机器这么聪明,机器这么快,又不会累。那什么叫智能?我觉得智能起码有下面四种定义。
第一个定义是功能,功能是毫无疑问的,今天这辆车多少匹马力,多少气缸,能跑多快,0—60公里能够跑3秒或者6秒,这叫功能。计算机有多少内存,能算多快,功能大家都没有争议。
智能是随时间而定的,我记得70年代那时候的智能是什么?当电视第一次有摇控器的时候,那个时候就叫智能电视。因为你不用到前面去就可以转台了,实际上摇控器改变了我们的形态。以前你要到前面转台,转台的几率一定没有那么多,更没有“沙发土豆”,当年的智能电视是这个定义,今天的智能电视不用我讲你也知道了,我相信20年后的智能电视又有改变。那计算机、算盘,当时我很羡慕会打算盘的人,包括开根号,谁能开的很快,小时候还有这样的算术比赛,今天已经没有这样的算术比赛了。这跟下棋一样,今天人已经下不过机器了在象棋方面,所以象棋也是一样,相当于看谁能下的比较深,有点跟开根号一样,所以智能随时间而改变。
智力又更高一层了,就是创造力,人最宝贵的东西就是创造力。刚才讲的那些所谓智能,都是人想好的算法叫机器去做,人都不知道我们下一个创造力来自什么。我给你个选择题有五个答案,我说都不是这个,是另外的东西,这才是创造力,创造力绝对不是选择题。
智慧,大师级的,历史上有这么多有智慧的人讲的东西,能启发我们,能激励我们的,这个我觉得是更高一层的,计算机远远没有达到这种程度。
那计算机到底是什么?图灵很了不起的就是把计算机的理论奠定了,而且还没有把计算机做出来以前,他就说所有的有算法的东西都可以拿到计算机来执行。计算机相当于我们的左脑,做重复性的计算。比如说开根号,下棋,我想下这一步你就会下哪几步,把算法算好。包括深度学习,都是我们人想出一个算法叫计算执行,今天我没有看到任何一个情形出来,你做一个算法他可以想出另外一个新的算法解决问题,因为人都不知道下一个问题怎么解,你怎么可能让计算机去做呢?
即使是这样,计算机+大数据是非常非常有能量的,原因很简单。到底信息是不是智能?我觉得有两个观点。我们说一个人博学多文是一个例子,还有一个反例就是内线交易。内线交易是违法的,谁不想赚钱呢?你要投资股票,今天有一个人,张三有内线的资料,他不应该用的时候用了,这样的人是要吃法律官司的,我们不会认为这个人比较聪明。但的确他有这个信息我没有,他一定会做出更好的判断,所以信息到底是不是更好的智能?这是可以辩论的。
刚才提到了很多问题,其实人的算法加上计算机,我们不能看全世界所有的文章,我们可以让计算机去看。但是计算机去看不是扫过弄进来而已,没有意义,我们必须要有一个算法,叫计算机看文章的时候去针对什么东西。比如说今天很多人做投资,他可以写一个程序,他说我去看文章的时候看哪些东西,让计算机去看,把全世界所有的文章,针对每个公司的文章看一遍,看完之后得到一些分析,根据这个分析我做一个决定该怎么买卖股票。但是别忘了,那个算法还是来自我们,所以我们跟计算机的关系有点像左脑和大脑的关系,计算机是最好的左脑。那我们的右脑是什么?我们的想象力、算法,左脑和有脑搭配,就可以有更多的小心求证和创新。
最后人工智能危不危险?有很多人说人工智能非常危险,比核子武器还要危险,甚至有人说临界特点。我认为这些担忧完全没有必要,因为计算机其实就是一个工具,它是最好的左脑。我们把算法交给它,它不会喊累,就一直算,根号算到13700位都可以算,计算机就是这么一个东西。要说意识,人有意识,我知道我为什么讲这些东西,我也知道你怎么看我做这件事情,就是笛卡尔说的我思故我在,计算机是没有意识的。小冰在做一些有意识的东西,但是这都是我们写好的,故意不告诉你答案,吊吊你,这是我们做好的程序。
如果有人把计算机做一些坏的意识,那你要怪后面的那个人,大家不会认为飞机是不好的东西,但是也有人拿飞机做坏事,但是你怪的是用飞机做坏事的人,不是怪飞机。所以计算机不可能有意识要消灭人类的,如果有那一天,一定是有一个人把计算机设置成那个样子。拿无人车做一个例子,今天做无人车的都是想怎么能避免怎么不撞到人,那你同样会问,如果我做一个车看到人就撞,一定不会比避免希望撞人更难,那为什么没有人做这样的事情?因为良知嘛。如果有一辆车看到人就撞,我们怪的一定是做车的人,而不是怪汽车。
所有的机器我们希望都是可控的,没有人希望造一个不可控的机器人。那么计算到底有没有危险呢?唯一一个我觉得是将来我们可能要避免的危险,就是大、虫。所有的计算机里面都会有虫,虫会产生一些我们无法预期的后果。如果虫遇到人就伤害,这几乎是零,BUG会产生不好的解决,但是我们可以避免。1950年代计算机还没开始的时候,《时代》杂志就说,人们不怕做出大卡车这样的东西,但是我们怕做出一个比我们聪明的人,到现在60年过去了,我们还在担心这个问题,我觉得没有必要。人的良知可以让世界很和谐,人类加机器一定会帮我们做出人类本身自己不能做的很多事情的,像飞机一样。所以我认为人类+机器是超人的关系,用英文来讲就是增强智能。
A.I让我们加上机器,做出我们做不到的事情,是超人的关系,谢谢大家!