一花一树一城,走进三维重建的绚丽世界|专访权龙
图说:在雷锋网举办的“第二届中国人工智能安防峰会”中,权龙教授发表了“三维视觉重新定义人工智能安防”的演讲。
他在九十年代视觉三维重建(3d reconstruction)的基础理论奠基方面做出了杰出贡献。 在2000年以后,他又在三维重建应用领域做了一系列基于图像的建模(image-based modeling)的工作。最近,他还和学生创建了altizure公司,打造了世界上最好的三维重建平台。
撰文 | 邸利会
二月的圣地亚哥阳光明媚,春暖花开。2019年cvpr(ieee国际计算机视觉与模式识别会议)的领域主席会议后,30多名华人主席在拉荷雅海滩边的一个中餐馆聚餐,回顾近40载的计算机视觉研究,颇为感慨——
八九十年代参加cvpr会议的华人寥寥无几,而2019年的cvpr,华人的领域主席就有40多位,可谓“三分天下有其一”,还有2位程序委员会主席,1位总主席。在这一领域,华人的实力已是今非昔比。
筚路褴褛,以启山林。在有影响的华人研究者中,不乏我们耳熟能详的名字,如马颂德、谭铁牛、沈向洋、张正友、朱松纯、马毅、汤晓鸥、李飞飞、孙剑等等。权龙教授更是最早的少数几个为整个领域所熟悉的华人教授。
从1988年第二届国际计算机视觉大会(iccv)开始,权龙教授就开始在这些视觉顶级会议上发表论文,他长期担任该会的领域主席,2011年还担任了该会的大会主席,2022年将再次出任cvpr大会主席。
三维重建的欧洲力量
权龙的计算机视觉研究始于改革开放后的八十年代。1984年毕业于北方交通大学(现北京交通大学)后,同年考取教育部派遣的留学生赴法留学,在法国国家信息与自动化研究院(inria)获得博士学位,加入法国国家研究中心(cnrs),他也是1990年建立的inria grenoble计算机视觉组最早的成员。
在法国国家实验室inria 任职多年后,2001他回国加入香港科技大学,建立计算机视觉研究组。几十年来,他一直活跃在学界和产业界前沿。
在计算机视觉领域,权龙教授建树颇丰。
他在九十年代视觉三维重建(3d reconstruction)的基础理论奠基方面做出了杰出贡献。 在2000年以后,他又在三维重建应用领域做了一系列基于图像的建模(image-based modeling)的工作。最近,他还和学生创建了altizure公司,打造了世界上最好的三维重建平台。
计算机视觉是非常宽泛的研究领域,涉及多个学科(如算法、几何、光学、机器学习等)的交叉。在各个时期,计算机视觉研究也有着非常显著的不同。2012年后的主要风尚毫无疑问是以卷积神经网络为代表的深度学习下的识别。但在此之前的相当长时间里,计算机视觉研究的中心问题是三维重建。
权龙教授曾介绍说,计算机视觉中的三维重建的核心问题就是通过多目的视差获取三维信息,识别不同视角下的图像,对每一个像素进行识别与匹配,然后进行三维重建。在完成几何三维重建后,再进一步对三维信息进行语义识别,这也是重建的最终目的。
回顾计算机视觉的发展,1992年olivier faugeras 的论文“what can be seen in three dimensions with an uncalibrated stereo rig”发表,标志着三维视觉的崛起。到2001年richard hartley和andrew zisserman 的教材”multiple view geometry in computer vision”出版,标志着三维视觉领域的基本理论框架确立。这十年是三维视觉群星闪耀的十年,涌现了oliver faugeras, richard hartly, andrew zisserman, luc van gool 等等一系列以欧洲学者为代表的如雷贯耳的名字。
当时在法国国家实验室inria工作的权龙、张正友(现腾讯 ai lab 主任)就是这群星当中的华人代表。
六点算法
权龙教授的代表作是他1995年发表的六点算法(“invariants of six points and projective reconstruction from three uncalibrated images”)。
90年代计算机视觉领域的第一热点是三维重建,而用非标定相机(uncalibrated camera)重建则是三维重建的终极目标。oliver faugeras和richard hartley在1992年各自独立地解决了非标定相机两张图像下的三维重建问题,引入了基于七点算法的基础矩阵(fundamental matrix)的概念。也正是这项工作开创了三维视觉的黄金时代。
权教授的六点算法解决了非标定相机三张图像下的三维重建,进而也在理论上彻底解决了多视重建的几何问题(multi-view geometry)。因为更多的图像并不引入新的几何约束和结构,而更少的两张图像并不具有重建的唯一性。所以这项工作和oliver faugeras/richard hartley的工作一起奠定了三维重建的理论基础。
权教授1995年的这篇论文可以说完全是一篇几何学论文,论证严密,思路清晰,富有技巧。在计算机视觉领域这种风格的论文并不多。
这篇文章从几何不变量的角度研究三维重建,首次建立了六个三维点的不变量和它们在图像中的投影点的不变量之间的一个双线性方程,并构造性的给出了在三张输入图像下三维点的不变量的代数闭式解(closed-form solution),最终从这些不变量推导出相机的三维姿态和重建的三维点的坐标。
这篇论文奠定了非标定相机三维重建的最小数据与重建的唯一性,即六个点和三幅图像。几乎所有的基于非标定相机的三维重建都是基于这个算法。
在很长一段时间,权龙教授实验室的三维重建算法在性能上处于遥遥领先的地位。然而,了解这项工作的年轻学者并不太多,一方面是因为论文太数学,不好懂。另一方面,现代数码相机的标定相对容易,因此很多后继实际工作都可用david nister于2004年提出的定标下的五点算法。但这些都不能掩盖六点算法在计算机视觉三维重建的理论贡献、数学优美和历史地位。
从头发到城市
在三维重建的基本问题得以解决以后,一个最自然而然的应用就是用图像来建立物体的完整几何模型。这个应用就是所谓的基于图像的建模。它是计算机视觉和图形学的结合以及共同关注的问题。
权龙教授实验室利用领先和强大的三维重建算法与技术,将基于图像的建模推到了一个新的高度。
2005年,权龙教授实验室发表了第一篇基于图像的对细小物体头发的建模。紧接着,又在2006年、2007年分别发表了基于图像的植物、树木建模。到了2008、2009年更是把这个基于图像的建模拓展到了街道、城市的规模。
这一系列论文都发表在图形学界的顶级刊物siggraph大会,标题整齐划一,都是统一的“image-based x modeling”。x从2004年的hair一直变换到2009年的city。这些工作引起了图形学界的惊叹。
权教授很多学生都是计算机视觉领域的佼佼者。
在inria grenoble时他指导的学生peter sturm和maxime lhuillier,如今是引领法国视觉界的知名教授。1998年,peter sturm在权教授指导下的博士论文获得了法国首届最优计算机博士论文奖。权教授的学生还有在三维视觉与机器人领域颇出色的谭平教授、自动驾驶公司autox 创始人肖健雄、altizure ceo 联合创始人方天、北大教授曾刚,旷世上海研究院负责人危夷晨,微软研究院资深研究员王井东、袁路,大疆张宏辉等等,可谓桃李满天下。
除了学术研究、培养学生,权龙教授近年更是把这些计算机视觉重建科研成果转化成产品,和学生共同创办了altizure人工智能初创企业。普通用户可以通过手机或是无人机拍摄图像,并通过altizure的云平台识别图像以及从图像中重建出高质量的三维模型。这一云平台更发展为大规模城市重建以及智慧城市时空平台的核心。
作为三维重建领域的顶尖学者,权龙教授还被邀请在各个场合向业界、公众普及计算机视觉,尤其是三维重建的研究与应用。在最近雷锋网举办的“第二届中国人工智能安防峰会”中,权龙教授发表了“三维视觉重新定义人工智能安防”的演讲。在演讲结束后,权龙教授接受了《赛先生》的独家专访(liao tian),聊了聊他眼中的计算机视觉、三维重建以及可能对我们产生的影响。
《赛先生》:您刚开始是怎样走上计算机视觉研究的路?
权龙:我是80年上北方交大的,1984年毕业考取教育部赴法留学生。八十年代,人工智能也是热点,和现在有点像,我当时去法国第一志愿就是“人工智能”。八十年代,当年法国的prolog作为人工智能语言引领人工智能以及第五代计算机的发展。
那个时候我本来是想做人工智能的研究,在修“人工智能”这门课时,发现讲来讲去实质上就是一些搜索算法,并没有太多我所期待的“智能”。我其实对这样定义的人工智能是比较失望的。
法国那个大的研究中心有做语音的、图像的、逻辑的、专家系统的,什么都有,当时已经在做神经网络,也叫连接性或连接主义(connectionism)。我同办公室的两个法国同学就是做的神经网络,当时拿不出很好的结果,还不够有说服力。
在我选择研究方向时,因为我小时候在太原市少年宫学美术,我对图像和空间有着浓厚的兴趣,就决定做图像理解,就是计算机视觉了。
1987年的时候,我的博士导师roger mohr教授去参加了第一届在伦敦举办的国际计算机视觉大会(iccv),第一届会议论文集我现在还保留着。第二年,第二届的国际计算机视觉大会在美国佛罗里达的坦帕(tampa)举办,我发了一篇论文。当时我们视觉小组在我导师的带领下一行四人,mohr、tombre、masini,先乘火车到卢森堡,再飞到佛罗里达。那也是我第一次从法国到美国。
《赛先生》:当时欧洲计算机视觉研究状况是怎样的?
权龙:最早很多人认为计算机视觉就是一些图像处理,但其实图像处理和计算机视觉还是不一样的。欧洲计算机视觉发展飞快。 他们可能更加理性与笛卡尔主义, 在一定意义上把视觉当作一个应用数学问题。
欧洲当时有欧盟的联合基础研究项目,三维视觉其实就是在这些欧盟的联合项目中发展起来的,当时比较活跃的有法国的inria、牛津大学、瑞典kth,、比利时 ku leuven 等等。三维重建需要更多的传统数学知识,这批研究人员都有非常好的应用数学基础,那就用数学工具去解这些视觉问题。
在美国一直有着最大和最活跃的视觉研究人员与学生,大家一直也在尝试不同的方向,在应用领域比较活跃,但方向并不是非常清晰。这要等到2012年之后的这一波人工智能,大部分视觉分类,识别与特征提取与表述的任务都被卷积神经网络重新定义了。
卷积神经网络发明者lecun是1987年从法国获得博士学位。他能够在神经网络没有被视觉界接受时,能相信、坚持与发展卷积神经网络,太值得我们研究人员的学习与尊敬。2012年之前,所有计算机视觉文章里面,如你用了神经网络,可能直接就被拒掉了。而今天是反过来,如果你文章中没有神经网络,审稿人可以怀疑你的创意。
《赛先生》:但不少学者也表示,深度学习引领的计算机视觉也有很多挑战,比如对噪声不敏感、稳健性不好、缺乏可解释性等?
权龙:当然有这样的问题。计算机视觉研究是个反向逆问题, ill-posed, 没有完美的答案。研究是不会有止境的,需要持续往前走。需要更好的理论来解释现在取得的成果。三维重建的应用,主要是两个问题,一个是设备,说的是数据采集是不是方便;另外就是算力也是不够的。现在很多视觉的应用,比如自动驾驶、ar、vr都需要实时三维重建,要做到实时三维重建,哪个不酷?问题是算力跟不上。
《赛先生》:算法不是那么太重要,是吧?
权龙:不是。算法最重要!但要达到实用,只有算法是不够的,还要有算力。从1998年到2012年,那个卷积神经网络算法和模型基本上没有太大的改动。不过,工程实现上的进步也非常伟大。如此庞大的数据量和如此大规模高维的优化或学习算法能够收敛成功也确实是创举。
其实,现在很多算法先是考虑结果。所以,实践者是先行者,先把这些算法设计和调试出来,然后再去验证,然后希望在数学上能够得到更好的解释与证明。路漫漫,还有很多理论工作需要完成。
《赛先生》:深度学习这一波还会持续一段时间,下一步有没有看到一些苗头,突破在哪里?
权龙:没有人可以预测未来。社会对人工智能的热情,这是一件好事,全社会各行各业都在关注,推进人工智能的发展。但作为一个研究人员,我们也要讲究严谨,可能会更趋向保守一些,因为我们确实知道现时的深度学习能够做什么事情,做不到什么事情。有太多的事情现在并做不到。
《赛先生》:感觉好像还没有杀手锏式的落地的例子?
权龙:落地应用已有很多,但也要看我们的期望。视频监控以前没有深度学习也照样监控,不是吗?监控里面一个关键问题是如何采集数据,如果可以高效地采到高质量的数据,许多问题也将不是问题。
《赛先生》:怎么看自动驾驶?
权龙:你应该问问autox的肖健雄(参见 )。我个人认为自动驾驶现在理论、技术上是成熟的,关键是成本问题。如果放几百万昂贵的传感器放进车里,许多问题都不是问题了。
《赛先生》:您培养了很多优秀的学生,在培养学生方面有什么样的诀窍?
权龙:没有诀窍,要有最优秀的学生,然后方向正确即可。要有好的学校,这样才有可能招到优秀的研究生。如果要在学术的最高层次去创新的话,最优秀的学生是必须的。
《赛先生》:具体怎么培养?
权龙:因为你自己要非常清楚这个领域的发展,你知道问题所在,你可以指出正确的方向。差别就在这里,世界上搞研究都是这样的,你是不是知道问题在哪里,不是这样吗?确实是外行看热闹,内行看门道。
《赛先生》:说说您创立的公司altizure,当初创办这样一家公司的想法是怎样的?
权龙:三维重建中数据的来源是关键。硬件的普及是最大的推动力。相机已是相当普及,每个人的智能手机都有一个像机,并且足够好可以用于重建。不只是手里的相机,消费级无人机的出现,也改变了我们的视野,有了会飞的像机,利用无人机数据采集可以完全自动化,推出了许多激动人心的应用场景。地面上现在车载相机也在推动着无人驾驶这个极为广泛的市场。
《赛先生》:现在每个人上传照片以后,就可以合成一个三维图像,感觉很好玩,但从产品或者服务形态上,力道似乎不够?
权龙:你看到的这个网站只是我们面向消费者的一个门户,首先我们希望无人机飞手慢慢把整个地球一块一块的要重建出来,打造一个众包的google earth。
面向消费用户只是一个方面,更多的应用是面向企业和政府,2b和2g。
我们在做城市级的实景三维,它是智慧城市和安防的基础,市场巨大。我们也为企业提供数据处理,这些大规模数据更多是来自测绘和地理信息行业。
《赛先生》:学术界和产业界之间如何建立一个良好的互动?
权龙:计算机视觉的初期由于算法和算力,应用场景局限大,更偏向于学术研究。现在的计算机视觉,它的应用场景非常宽,市场也很庞大。
这个变化是好事,科学与技术的发展如能够提高生产力,产生实用价值,这才是它的终极目标。当然另一方面也会影响学术气氛,学术纯净度会降低,因为也参杂了资本和市场的干预。总的来说,我认为学术界、产业界人才互相流动是好事,有助于领域的健康发展。
《赛先生》:所以您对学生也不做什么推荐,比如说留在学界或者去产业界?
权龙:没有。我觉得所有东西都是一个自然发展,每个人的追求是不同的,有些人可能更喜欢走学术,另外一些人可能更喜欢走工业界,这都是很自然的。但你要看到这个现实,几年前计算机视觉在工业界是没有市场的,那做的好的唯一能干什么,不就是到学校去吗?现在有了这样的市场,多了一份选择,我觉得对学生来讲是好事。
《赛先生》:现在建设港粤港澳大湾区,您怎么看?
权龙:这是非常好的一件事。香港培养那么多人才,是因为之前经济发达有条件建了一些好学校,可以培养好学生,这些学生出来可以活跃在这些行业。
广东本来的学术是偏弱的,深圳也没有太多的研究性的高校,没有北京上海那么多。因为人才毕竟会考虑学术和生活的兼顾,如果有一个生活不错的地方同时可以静下心来做研究,才是比较理想的。从宏观角度来讲,大湾区的建设是非常好的一件事情。现在大家都是一家湾区人,我觉得大湾区是非常有生命力的,欣欣向荣,甚至比硅谷更有生命力,要相信人,相信资本,相信市场,只要给他好的条件,其实很多东西你不需要去管它,就会生长。