商汤科技徐立:很多公司现在炫耀的不叫人工智能

7月15日下午,极客公园在上海科技馆举办了“奇点·创新者峰会”,在AI闭门论坛上,商汤科技CEO徐立发表了演讲。

商汤科技CEO徐立认为,其实人工智能的定义是通过人的工程使第三方主体拥有类人的思维和类人的意识,所以它的目的是仿人类。现在我们大部分计算机工程,或者工程学所做的事情,其实叫机器智能,它的目的并不是仿人,是在做一些人类所指定的存储任务情况下超越人,只有在超越人的标准上其实才有更广泛的应用。

现在大家做的事情其实都是机器智能,商汤科技定位于机器视觉,除了人脸识别以外,还有感知。而在整个机器视觉,或者人工智能分值上超越人的眼早就实现了,而且已经成为一个必然。徐立称,人是通过两只眼睛感知深度的,深度感知有两种模式,一种是用两只眼睛感知深度;另外鸟类两只眼睛长在一边的,它是从运动感知,只有在动的时候,它的视觉才是立体的。不管是说通过运动也好,通过天生的双目,或者有更多眼睛这种情况来说,他得到的是整个场景当中一个背后的深度。基于这样一些深度,可以真正形成刚才所说的大光圈的渲染,市面上也有一些手机装备了我们的技术。

机器视觉的第三步是理解,徐立称,理解这个事情其实和人类对于人工智能这个概念是最接近的一个。视觉上的理解可以做车辆的识别,或者文字的识别。而在人脸技术方面,目前商汤科技已经在金融身份认证、安防破案等行业有很多的应用。

徐立

以下为徐立在极客公园峰会上的演讲:

徐立:谢谢主持人!我们是一家做机器视觉的公司,因为今天主题是关于人工智能。对于人工智能这个词,我个人有一些反感,大家不停地在炫耀这个词,其实人工智能的定义,或者从5、6年这个会议上确定人工智能,通过人的工程使第三方主体拥有类人的思维和类人的意识,所以它的目的是仿人类。但是和我们之后做的事情不完全一样,或者有比较大的差别。

从我的个人理解,我要用第三方主体并不是通过计算机,可以通过生物科学,我增强一只猴子,说我个人更像一些。现在我们大部分计算机工程,或者工程学所做的事情,其实叫机器智能,它的目的并不是仿人,是在做一些人类所指定的存储任务情况下超越人,只有在超越人的标准上其实才有更广泛的应用。

首先先讲一下我们商汤在这个行业当中所做的事情,我相信这个是很多企业所做的目标。我们一直讲信息的连接到最后万物互联,目前来看,万物互联走向一个万物智能的阶段,商汤我们目的在万物互联这个大势之下,为更多合作伙伴和更多企业提供智能的核心。

刚才讲到人工智能和机器智能区别的时候,其实在今天,我们做了很多事情,一上来就要超越人类,如果做不到,接下来就不用做了。视觉当中一直讲机器视觉,因为这方面我做了10多年,从我本科开始第一个项目一直到我博士、博士后整条线都做这个方向,我对视觉这个链条有比较多的话语权的。人家说商汤是一家人脸识别的公司,其实不是,我说我们是一家视觉公司,还有感知,人有两只眼睛,通过眼睛的对照,还有场景3D运动都有更好的理解,这个是背后的东西称为感知。之后有了这些完备的输出,才有识别和理解。

其实我们讲智能手机,智能拍照,已经了很多内容,它其实做了很大一部分机器来做这样的智能。比如说左边这张图是模糊的处理,其实人很难跟机器在这方面PK的,我们上次有一个节目问我,能不能说人和电脑做一个PK,看看电脑在什么样一些场景之下能够超越人,我说其实很简单,比如说对于模糊图片的识别,假设这张车牌,大家能看清楚这里面的字,人是非常能看到,但是对于电脑来说是非常简单的,这个其实在大家生活当中非常普遍了,它也是智能的表现,它可以用一些算法来完成。包括现在讲的光线的变化,暗光,视觉的增强,或者手机上面美颜相机,这些都是帮助电脑获取人类所获取不到的图像,甚至把图像质量做得更好。

这个是我做得非常多年我的一个代表作之一,是做模糊图像的处理。左边这张图是我08年在马赛拍了一个照片,这个是马赛一个著名的经典,当时天色比较昏暗,我拍出来的照片还是糊的,其实我只拍了这么一张,所以很可惜,因为马赛也不常去,只保存这么一张照片,最后拿出来看到是一张不清晰的照片。当然我没有那么挑剔,我也把这张照片存下来了。在很久之后,我可以发现,我可以用我自己做的算法把这张照片恢复出来。右边就是这张照片恢复出来,你可以看到是一个帆船,对面岸上有很多桅杆,这个也是我一直说的,一个是看清楚船上面的字,第二个可以看清楚后面的桅杆有几跟。在整个机器视觉,或者人工智能分值上超越人的眼早就实现了,而且已经成为一个必然。

这是第二个例子,这个是互联网的照片,这个是美国一条国道通向硅谷,它表现的是硅谷的速度,这是一辆车,用这种强烈的对比,表现出硅谷演进的速度非常快,这个是非常著名的硅谷的照片。我们来做一个实验,我把这张照片路牌给截出来,大家看一下这条国道号码是什么?有没有人能够认出来。虽然这个照片质量不是完美的,但是它真正意义上能够帮助人从里面得到这样一个信息。

我再举一个例子,这张照片是我用三星手机拍摄的,三星手机是非常好的手机,它有一个自动相机暗光增强的功能,所以我就尝试了一下把家里的灯都关了,拍了一下桌面的场景。大家能看清楚里面的内容吗?其实里面有一本书,能看清楚书上的字吗?这边有一个七喜的罐子,有一个袋子,还有一本书,这本书是教女性怎么职场说话。其实在我家,我太太比我会说多了,我不明白这个书的目的是什么。在这种情况下,确实人类极限可以被机器打破的,这个也是视觉必然的。

再来看这张照片,这张照片是2015年北京的雾霾天,在座可能有一些投资人,投资人经常问我,你们现在盈利模式以及未来的盈利模式是什么样子?我就给他们看这张照片,因为雾霾天你根本看不清前面的路,在创业当中,有一个很关键的点,我们还是要有希望,一定要有希望的,所以在雾霾天的希望是蓝天,我们算法可以做到,把整个雾霾消除,得到一个更好的蓝天。微信上面大家分享北京是蓝天白云,大家不要相信,因为用我们技术完全可以是蓝天白云。机器可以完成一个严肃的任务,但是它可以带来一种浪漫的思维,特别是很有意思的事,可以把它转换成有点像艺术的风格,原始的照片没有什么意义,我可以画出一种风格,如果这张图不明显的话,还可以有另外一个例子,这个是我家门口一个雾霾天特别严重,这个雾霾的情况下,我就苦中作乐,生成一些比较好看的海报。

我还翻了一下我去年的相册,去年带小孩子去了巴黎,左边这张是埃菲尔铁塔的照片,大家注意一下铁塔的细节是一个一个格子非常清楚,但是我们也让机器照着这个机器画了这一幅华,机器表现出埃菲尔铁塔格子的时候,它就用了比较有意思的艺术风格,它带来不一样的视觉冲击。所以在某种意义上,机器不是一定要走模仿人或者靠近人的思维的做法来做,我们现在讲人工智能这个词并不确切,机器它的目的它能够有创新,它能够带来超越人的水平。

最后再举一个例子,这张画也是特别的,我家以前种了非常多的花,是中国南部一种非常常见的花,开花非常漂亮,而且花期很长。我们用这张花也生成了一个艺术花的作风,我挺喜欢这幅画,所以我拿来给大家分享,我觉得有中国画的感觉。之前看到阿尔法狗打败人类,我觉得有点失落,因为我父亲喜欢下围棋,因为下围棋之前要沐浴,有一种禅的境界,人类才特有的这么一种文化的境界,突然间机器什么事都不做,就把人类干掉了。

我现在做的这些事情,人类高比格也好,这样一些活动机器都能够记下来,现在机器智能的演进朝着一种快速发展的状态下带来不一样的场景。

如果大家对刚才去雾霾,增强这些感兴趣,其实可以下一些APP,新浪微博的相机可以把北京的雾霾天变成蓝天,就可以说我其实在国外度假。

第二部分是感知,从2D变成3D,感知深度,通过各种三角画,通过结构光,这个也是视觉上很常见的问题,同时还可以感知细微的运动,2D、3D,这个也是我们比较领先的技术。

刚才讲到拍照的事情,接下来再给大家看一张照片。大家觉得这张照片是用什么拍摄的?单反、卡片机还是手机?说用手机拍摄的真的是好眼光。我们觉得现在手机、相机的演进已经代替了卡片机,大家现在还是有单反的欲望,因为单反有很大的变焦。但是我们可以通过感知深度生成这样一张照片。
人是通过两只眼睛感知深度的,深度感知有两种模式,一种是用两只眼睛感知深度。另外鸟类两只眼睛长在一边的,它是从运动感知,只有在动的时候,它的视觉才是立体的。不管是说通过运动也好,通过天生的双目,或者有更多眼睛这种情况来说,他得到的是整个场景当中一个背后的深度。基于这样一些深度,可以真正形成刚才所说的大光圈的渲染,市面上也有一些手机装备了我们的技术。
我们可以做什么呢?这是一张酒会的照片,如果使用单反,要拍这样的照片最好是景深,这个景深是用整个深度来获得的。如果我们把焦距放在前面,背后就会有比较大的模糊。同时我们选用中间比较清晰,两边就会比较模糊,我们也会选择背后的聚焦。
另外一个例子,这是一个很普通的试衣间的场景,用我们手机拍摄,就可以形成各种不同类型的称之为大光圈也好,或者很有意思的景深照片。
第三块是理解,我这边有几张图,理解这个事情其实和人类对于人工智能这个概念是最接近的一个,所以我放了这几张照片,大家基本上就知道我们是做什么了,可以做一些美颜,甚至做一些属性相关的事情。下面是一些人群、车和字,就可以做车辆的识别,或者文字的识别。这部分和人们对于这个应用,或者对于行业理解最接近,所以我不需要特别多的介绍。
人脸我们在这方面做得比较前沿的。因为我们定义的工业界一个应用时间点,所有的技术都有一个改变,技术不在于你领先后面几家多少,真正的技术爆发点,我们理解它过了一个实用的线,那条线我们现在看来,人眼睛识别的准确率。现在网上也经常说,特斯拉自动驾驶出车祸了,任何算法都不会100%准确,它肯定会有一些有问题的情况,我们判断它能不能大规模使用的,唯一一个准则,如果这件事情换人上,是不是能做得更好,假设特斯拉无人车它的事故率远远低于人的开车事故率,这件是可以接受的。但是目前只要能上机器,大家对它的期望,一定要100%准确。
人脸技术刚才应用也讲了很多的,我们确实有非常大的应用,人工智能的应用,或者机器智能的应用,我认为分为两波,有点像早年的蒸汽机发明的时候。第一波在一些非常强劳动力的行业,真正去代替劳动力,它会形成一个广泛的应用。现在在一些行业,比如说我们做金融的身份认证,我们去柜面上交上身份证,别人会把身份证和人进行一个比对,你过机场闸机口,如果人工智能第一个应用爆发是在说,如果这些智能东西加到它现有人力方面,它能多做30%或者50%的业务,这个业务才可以解决人口红利下降的这么一个问题。甚至在商业上,相当于多了30%—50%的毛利。所以我认为这是人工智能第一个,而且现在来看是最容易通向现实的商业点。
第二,我们所谓的创造出一些原来没有的行业和新兴行业。第一个行业的发展到头的时候,可能会形成劳动力过剩,会把一部分劳动力解放出来做第二个行业,那个行业需要我们在座的企业家教育市场,对新兴的应用和技术有更好的认知。
我来做一个比较有意思的例子,最右边是我们的同事,换成左边的人脸,通过我们技术可以实时识别当中进行这样一个换脸。这个在移动互联网或者娱乐APP当中都有比较有意思的一些应用。背后人脸技术,包括贴纸一些内容,其实都是我们在做的,其实我们是这部分娱乐性提供更精准的新兴功能。
说到这个变脸,我们一开始想要用来真正用人去驱动陌生人的人脸,用他的表情做一些操作,是不是能攻击现有的金融系统,机器智能有一个好处,它本身是大数据的业务,我们搜集大量的,或者攻击性的数据之后,这个本身就是一个互相引进的过程,随着时间的变化,随着数据量的增多,技术往往会达到一个极限,它只要能超越,它的实用性会越来越广。
这块有一个很重要的行业叫安防行业,一旦发生案件,这种在大的城市,一线城市是能够做到纠一大堆人过来看。像这种小的县城里面,如果发生一个事情,有这么多监控视频全部看完人工成本非常高,我们的技术就可以帮助他们解决这些问题。刚才说到一些绑架案,用我们技术把视频导进去,发现第一个找到的通缉犯就是犯人。
现在还有一些线上视频的梳理,我们有场景识别、人脸识别和物体识别,我们把整个视频进行结构化的分类,使大家便于检索和便于识别。
最后,给大家讲一讲,我们现在商汤来看,有哪些应用我们觉得已经达到了人眼睛识别准确率的这么一个点。同时,我们发现它有比较大的商业价值。
第一块是人脸,人脸关注度很高,它其实有一个比较大的突破。像我们小米和华为做的智能相册,完全基于现在图像识别和分类。当然背后所有的算法都是基于统一的深度学习的框架。行业来看,金融、商业地产、商超、安防监控。