新智元推荐
时间:2015年9月13日(周日)22:00
嘉宾: 1. 贾扬清:谷歌大脑资深科学家,全球最普遍使用的图像识别开源软件 Caffe 的作者 2. 徐伟:百度深度学习实验室杰出科学家 3. 赵勇:格灵深瞳创始人,前谷歌研究院资深科学家,谷歌眼镜核心成员
主持人: 雷鸣:北大大数据与机器学习创新中心主任;百度七剑客,酷我创始人
形式: 实时互动,多群转发主群内容
雷鸣:各位,今天我们非常荣幸地请到了三位人工智能专家:贾扬清、徐伟和赵勇。欢迎他们的到来!
雷鸣:首先,请三位嘉宾分享一下当前图像识别的现状,现在达到了什么样的水平?
赵勇:图像识别在过去几年取得了惊人的进步。五年前我刚加入谷歌研究院时,同事们都在研究这个问题。如今,即使只是浏览 ImageNet、ILSVRC 上的得分,也会让人感觉计算机图像识别的能力似乎已经超越了人类。但这些进步主要得益于深度神经网络技术、大数据的发展以及大规模高性能计算的发展。
贾扬清:确实,计算机视觉在物体识别方面进展显著,尤其在人脸识别和特定物种识别等方面,已经超过了人类在某些任务上的识别能力。
徐伟:我认为在一些特定任务上,计算机确实已经超过了人类,比如人脸识别。
雷鸣:特定任务是指在聚焦一类问题并匹配相应的算法和数据训练下,计算机可以接近甚至超过人类,但在开放数据集上,与人类的差距依然较大,对吗?
贾扬清:对的。例如,华盛顿大学最新推出的 MegaFace 项目表明,一些在 Labeled Face in the Wild 上表现优秀的算法在更大规模的 MegaFace 数据集上可能会遇到瓶颈。因此,在更开放的数据集上,我们还有很多提升的空间。
雷鸣:各位觉得,以现在的速度,在未来五年内,在开放数据集上会有重大突破吗?
赵勇:我不认为超越人类是一个合理的目标。毕竟,人类拥有许多独特的技能,在某些方面人类的能力远超机器,而在其他方面机器早已超越人类。例如,人脸识别在庞大的数据库中识别人,这是人类可能做不到的,因为大多数人的记忆能力有限,最多只需要识别几百人。但对于熟悉的人,人类的识别能力极其精确。俗话讲,“对于特别熟悉的人,人眼可以做到‘烧成灰我都认识你’”。
徐伟:此外,与人比较时,需要说明是与普通人还是专家比较。不少任务已经超过了普通人,比如动物识别、花卉识别。
雷鸣:也就是说,人类在识别熟悉的人时,不仅仅依赖图片信息。
赵勇:我的意思是,徐伟的意思。对于识别熟悉的人,每个人都是专家。今天的计算机仍然比不上人类的专家。
徐伟:对于特定人的识别,目前还缺乏这样的数据。人是在积累了大量数据后才会做得很好。
贾扬清:我对视觉领域的进展持乐观态度。例如,今年的 ImageNet 挑战赛不再包含物体分类,而是增加了物体检测和视频检测的比例,这说明研究界对新问题的兴趣。
赵勇:首先,对于识别熟悉的人,人类掌握了大量数据,例如识别自己的亲人。其次,人生活在时空连续的世界中,识别不是发生在一张照片中。这里面的机理可能非常复杂。今天的深度学习尚未达到这种程度。
徐伟:过去几年的进步很大程度上是因为有了合适的数据,比如 ImageNet、LFW。
贾扬清:正如徐伟所说,数据可能是将来研究这些算法的一大需求。
徐伟:如果有人提供了这样的数据,相应的结果很快就会出现。因为计算能力现在已经具备了。
雷鸣:我们现在许多识别集中在图片上,对于视频流数据以及三维的深度信息,对识别有多大帮助?将来这些信息是否会极大提升识别质量?
赵勇:动作识别领域,三维信息的作用非常大。Kinect 技术就是一个依赖深度传感器的例子。然而,无论是 Kinect 还是 OpenNI,本质上仍然解决的是人机交互过程中的动作识别问题。在这些应用中,识别对象通常站在相机正面,用配合的姿态被识别。因此,大多数情况下不存在多个物体之间的相互遮挡,人体各部位之间的相互遮挡也不严重,而且人体形态比较简单。
贾扬清:很有帮助。去年 TechCrunch 上有一个有趣的演示叫 IsItYou,使用三维信息和时间维度可以获得比单纯图片更丰富的信息。
徐伟:目前,视频图像学习方面,计算能力还有所欠缺。
赵勇:在完全不可控的场景中(例如安防监控),首先要应对更多的人,这些人之间可能有严重的相互遮挡,而且由于这些人都没有主动配合识别,与相机的视角方向可能不一致。加上实际情况的复杂性,比如人们可能携带各种无法预测的物体,人与人之间可能非常接近以至于纠缠在一起。在这种不可控情况下,动作识别的挑战很大。
赵勇:实际上,格灵深瞳在过去两年基于 RGB-D 相机,研发了一款用于安防监控领域的视觉系统。在动作识别方面我们遇到了严重挑战。在面对这些挑战的过程中,深度神经网络技术和针对人体结构的先验知识起到了重要作用。尽管如此,实时动作识别仍然面临运算成本高等现实问题。当然,也有学者通过大量样本的深度学习,在传统彩色相机捕捉的数据上试图识别肢体动作,这些研究也产生了一些有趣的结果。但是,与基于深度信号的方法相比,这类技术目前只能较好地处理简单的姿态。在对结果要求较高的实时系统中,基于深度图像的方法更为可靠。
贾扬清:现在视频学习很多还是一些大公司在做,关键是因为数据和运算能力还未达到普及的程度。
雷鸣:看来随着计算能力的提升,在视频信息处理上会有巨大的发展!下面我们谈谈具体应用领域,首先是安防领域。
赵勇:我希望高性能运算技术能够取得更大突破,尤其是低成本低功耗的异构运算技术,使得我们能够更高效、低成本地在实时环境中使用深度神经网络技术。目前的深度学习技术严重依赖 GPU 平台。虽然在训练模型阶段,这样的成本是可以接受的,但在大规模应用深度学习,尤其是在移动设备、机器人等实时应用中,使用 GPU 进行模型测试并不是最理想的方式。为了迎接这些挑战,我们需要更强大、更高效的半导体运算架构。
雷鸣:图像识别对公共安全、企业安全和家庭安全有哪些潜在作用和贡献?
赵勇:我希望传感器方面有所突破。在彩色传感器方面,希望敏感性和动态范围有大的改善。在深度传感器方面,希望尺寸更小、工作距离更远、功耗更低的传感器能够推向市场。这方面大家可以关注 solid-state LiDAR 技术。个人认为这项技术对机器人领域有很大的影响。
徐伟:安防还是很有空间的。我在家安装了一个视频监视器,什么风吹草动都会触发。
赵勇:实际上,计算机视觉在今天的安防领域中的存在感很小。市场上绝大多数安防产品仍然停留在网络录像机阶段。
贾扬清:在美国,有许多传统的家庭安防公司,使用的技术都很古老,因此效果不佳。要么是“风吹草动”就会有误报,要么就是在真实时间内很难触发。Dropcam、Nest 等在这方面做了一些尝试,但目前还没有真正的产品问世。但我认为这会是一个很大的市场。
赵勇:要大规模在安防领域推广计算机视觉,首先需要把数据平台和运算平台结合起来。今天的安防系统大多数达不到这样的条件。
雷鸣:现状不是太理想,但如果存在需求,恰恰说明未来有希望。各位畅想一下未来五年,这方面有哪些机会?
徐伟:实时监控需要大量计算能力仍然是一个瓶颈。
赵勇:格灵深瞳在过去两年一直研发安防系统使用的计算机视觉。我们使用了深度信号,使得问题简单一些。但是即使如此,在一个小小的摄像头里运行检测、跟踪、识别,甚至是深度学习识别,对于运算系统的挑战还是很大的。
贾扬清:我认为将来的安防系统应该配备智能摄像头,在本地就能实现视频理解、物体识别及跟踪等技术,这样就不需要长时间与服务器通信,并且避免服务器端被大量计算请求淹没的问题。专用芯片在这个领域可能会很有帮助。
雷鸣:徐伟,这个问题能够通过一些专用的计算机视觉芯片解决吗?直接安装在本地?
徐伟:目前的算法如果不计成本,应该可以做得不错。低成本功耗的计算能力很重要。
贾扬清:比如 NVIDIA 的 Tegra 和 Movidius 的 Myriad2 正在致力于解决本地计算能力的压力,但目前的确还在初步尝试阶段,成本和功耗速度比方面还有提升空间。
赵勇:在安防领域,有些公司正在采用云计算方案,即把所有图像数据上传到云上,然后利用云的计算能力来分析。但这样做成本很高。所以我还是把希望寄托在高性能的嵌入式系统上。
雷鸣:你们觉得考虑现在软硬件的综合发展,在未来五年,安防领域计算机视觉会有巨大的机会吗?会有成熟可以接受的解决方案并大规模被使用吗?
徐伟:我同意赵勇的观点,都在云端计算代价太高。
赵勇:我还是乐观的。至少在一些特殊领域,计算机视觉已经可以解决实际问题了。比如银行安防(室内小场景)、道路安防(汽车是比较容易处理的目标)。家庭安防的困难在于对成本要求很严格,几乎不可能承受高成本的计算机视觉运算。而且家庭安防需要应对的情况更加复杂,难以预料。我更看好需求明确的政府和企业应用。
雷鸣:说到汽车相关,我发现很多停车场已经不发卡了,直接拍照识别车牌。
贾扬清:对,还有一个应用是婴儿监护器。在这方面,人们往往会愿意投入不小的费用。
雷鸣:下面我们再聊聊身份识别这一块,你们觉得会广泛应用吗?
贾扬清:停车场管理是另一个巨大的市场,比如如何提供停车场内部的车流引导,如何动态计算停车场中空余车位的分布,等等。比如,大城市机场停车场非常迫切需要这样的技术。
赵勇:是的,车牌识别已经非常成熟了。但目前套牌车很多,所以我们又开发了车行车款识别软件,能够在几千车型车款和年份中精确识别目标。结合联网的大数据,我相信以后套拍车就没有生存空间了。
雷鸣:本来邀请 Face++ 的创始人印奇过来,他们在这块做得很好,但因时间冲突未能成行,略感遗憾。
雷鸣:赵勇,打击套牌车,好啊!
贾扬清:在身份识别方面,我想提一下 Google 做的 Project Abacus,这个项目我一直参与,前一段时间公开了。想法是通过检测和识别用户使用 Android 设备的各种行为和生物信息(点了什么 app,说了什么话,人脸是否匹配用户)来实现无密码的身份识别。人工智能在这一点上是非常核心的技术。
贾扬清:我知道有很多国内同行在合作开发这个项目,比如香港中文大学的汤老师团队。更加智能的身份识别,特别是隐式的身份识别,可以明显提高单纯基于密码的系统的安全程度。
赵勇:总体来说,安防领域的挑战还是很大的。虽然市面上的产品基本上都是录像机,但用户对计算机视觉产品的期望值还是很高的。如果不能解决实际问题,产生大量误报,用户宁可不使用。比如人脸识别技术,在安防系统中的使用量很低。
雷鸣:当前在照片理想的情况下,人脸识别的错误率是多少?人脸识别与其他生物特征识别相比,孰优孰劣,比如指纹、虹膜、声音等?
徐伟:人脸识别需要和传统的刷卡方式结合,确保刷卡人正确。
贾扬清:我个人的感觉是,单独使用人脸识别还是不够的。我们在 LFW 上可以达到大约 0.2 的错误率,这个对银行来说还是太高。
雷鸣:是否人脸识别在未来很长一段时间内,都只能作为身份识别的辅助手段,而很难作为主要手段使用?
贾扬清:所以需要增加其他信息,比如密码、语音等。
赵勇:虹膜识别肯定更准确。有文献表明,虹膜识别的能力达到 192 位熵(注:熵,平均信息量),人脸现在大概只有十几个比特。但虹膜识别的侵入性强,距离近。不过人脸识别目前工作距离也不远。
徐伟:语音不见得比人脸好。
贾扬清:我觉得整合多种方法才能达到最佳效果。偷一张照片容易,但偷照片+偷语音+偷密码+偷卡,并且一一匹配起来就难多了。
雷鸣:那么所谓的刷脸支付,如何理解?
贾扬清:每个单独的方法可能都只能达到十几个比特。
徐伟:卡和脸结合已经很好了。刷脸支付可以保证你的卡不被偷用,就是刷卡不用密码。
雷鸣:徐伟,刷脸支付实际上是卡+脸(卡是唯一的)。
赵勇:人脸支付的活体检测可能是个问题。如何区分一张真的人脸还是一张照片,或者视频里的人脸。现在的活体检测往往要求人脸按照软件指引产生一些对应的移动,但这体验不好。
徐伟:比如商场买东西,不用担心活体的问题。
赵勇:无论如何,使用多种手段,结合各种优势,来提高可靠性,必然是未来主流。
雷鸣:下面我们再聊聊计算机视觉对智能硬件和机器人发展的影响。
雷鸣:大家觉得计算机视觉和机器人发展之间会有什么相互关系?
赵勇:机器人从很多角度来看,只剩下感知技术一个瓶颈了。如果能够解决感知问题,机器人这件事情就能大规模发生。
雷鸣:记得和李飞飞教授聊的时候,她认为当前的机器人对世界的感知因为图像理解不深入,所以有很多局限,解决得好会非常促进。
贾扬清:机器人一直是人工智能的一个大方向。但我认为机器人所需的可能是广义的计算机视觉——因为它可以使用多种传感器,不仅仅是单独图片或视频的信息。
徐伟:认知技术是更大的瓶颈。关键是听到了、看到了,该做什么。现在的机器人仍然缺乏决策推理的能力。
贾扬清:机器人领域的另一个挑战是如何通过理解后的信息实现机器人的行为。在机器人领域,目前很多方法都是 case-by-case 的,如何找到一个通用的算法(比如强化学习)是一个很大的挑战。
赵勇:现在是听到、看到,但听不懂、看不明白,尤其在现实世界里。
贾扬清:我想到 DARPA 的机器人大赛。
徐伟:现在语音识别做得不错了,但计算机还是不知道该干什么。
赵勇:先不去想特别复杂的、有类人思想和行为的机器人,就说能够在现实世界里完成具体功能的机器人,例如汽车。现在核心问题仍然是如何将可靠的感知技术变成可以大规模推广的现实。
雷鸣:徐伟,语义理解确实在继续进展中。
徐伟:是的,所以即使解决了计算机视觉问题,也只能作特定任务的机器人。
贾扬清:这方面我觉得首先会在特定方向上有突破(比如自动驾驶汽车),因为从大规模推广的角度说,最后零点几的错误率是很重要的,这需要很多工程上的努力。有时候开玩笑说,“机器学习最擅长的就是解决问题到一半”。
赵勇:谷歌在无人驾驶方面做了很多领先的工作。据说近期也要量产无人驾驶汽车了。但目前这种技术依赖的激光雷达、差分 GPS 和高精度 IMU,都价值不菲。距离走入普通汽车还有遥远的距离。
徐伟:特定任务的机器人离人们心目中的智能机器人还有差距。
雷鸣:徐伟,估计机器人的发展还是先发展和完善特定机器人。
赵勇:人们心目中的智能机器人,我觉得还不是未来五年讨论的目标。
徐伟:是啊,所以我说认知是最大的瓶颈。
雷鸣:我突然在考虑,是否人类设想的那种强人工智能机器人根本就不会出现?回想工业革命,估计人类在工业革命初期也设想了一个像人一样什么都能做、都能做好的机器,但最终我们到现在为止还是各种专用机器……
赵勇:我觉得既然人都可以依赖视觉系统开车,我希望未来的计算机视觉也能帮助自动驾驶汽车完成任务。毕竟这项技术的成本低得多,而不是目前以谷歌汽车为主的这种路线。
贾扬清:谷歌汽车现在其实也越来越多地使用计算机视觉技术,所以这应该是一个大方向。
雷鸣:专用设备性价比更高,而综合的东西性价比低,虽然都能做,但不如一组各自擅长不同功能的设备合作来得好。
徐伟:依靠视觉自动开车,五年内应该有戏,但如果激光雷达大规模生产,说不定就便宜了。
赵勇:提到所谓的“强人工智能”,我个人比较悲观。可能不是未来二十年能看到的东西。
徐伟:二十年不算悲观,一百年才算悲观。
贾扬清:我觉得强人工智能的概念可能是一个伪问题,因为从某种程度上“智能”在语义上就是我们还无法理解的东西。如果我们了解了一个东西是如何实现的,就不算智能了。这一点可以从人工智能解决各种游戏(如跳棋)后大家的反应上看出来。
赵勇:关键是,我根本没见过很多靠谱的“强人工智能”团队。这个概念已经在市场上被炒得泛滥了。
雷鸣:我们回到视觉,大家对计算机视觉在其他领域的应用,还有什么想法?比如农业、测量、医学、军事等有什么已知的有意思的公司或产品,或者未来五年可能有的机会?
徐伟:医学方面会有很大希望。
贾扬清:这方面应用很多,农业、医学方面的公司都有。赵勇:人工智能的发展,肯定是由弱到强。现在连“弱智能”都没搞定,太早讨论“强智能”似乎不靠谱。
贾扬清:加州有一个公司采用视觉技术来实现生菜的苗距管理,可以实现 3%-10% 的产量提升,这方面的效果非常明显。
赵勇:我看好商业数据分析、生命科学研究以及安全领域(例如金融安全、公共安全领域)。
贾扬清:军事也有很多应用,比如卫星图像的目标检测。
贾扬清:在医学上,很多公司,比如 MetaMind、Enlitic、CellScope,都有很好的应用。
雷鸣:贾扬清,你最近刚刚发布了 2.0 版本 Caffe,相对于前一个版本有什么重要更新?
贾扬清:简单地说是希望使得大家在科研应用上更加容易一些,比如可以更容易地构建一个 SGD 算法。这个目前是我们的一个尝试性的重构,具体就不多打岔了。民用的卫星检测也很有市场,比如通过监测港口的货船来预测经济走势(这对很多金融公司都是有用的信号)。
赵勇:最近我看到华大基因创始人王俊讨论用大数据和人工智能解决生命科学问题,觉得很有趣。
赵勇:说到机器人,除了家里用的扫地机器人,我个人最看好自动驾驶汽车成为人类历史上最早实现的大规模机器人。我很看好这项技术。如果成功,可以改善安全、交通效率和环保问题。
以上是对原文的改写,确保内容的核心信息和事实没有扭曲,同时提高了文章的紧凑性和可读性。