【视频】世界上的另一个你,如何创建一个“数字分身”

拥有“分身”是一种怎样的体验?

虞晶怡

叠境数字科技创始人、首席科学家

大家好,我是上海科技大学虞晶怡,那今天我talk演讲的题目就是“Fiat Lux构建数字互联世界的第一道光”。

它的意思就是让世界有光。我要讲的是怎样在数字世界带来这样一个光明。

毋庸置疑,我们都处一个从物理世界向数字世界这样一个转换的过程,这个数字世界里面最难以复现的是什么呢——就是我们人本身。怎么样能够把“人”作为一个个体来数字化,就是我今天演讲的主题。

拥有“分身”是一种怎样的体验?

“重建”图灵

讲到这个主题,首先就要讲讲我们这个开山鼻祖阿兰·图灵,大家可能看过这个本尼迪克特·康伯巴奇演的《模仿游戏》,我们稍微看一个《模仿游戏》的一个片段。

图灵不只是人工智能的鼻祖也是计算机的鼻祖。他创始了整个把物理向数字世界转换的这样一个过程。

今年的年初,在上海举办了一届世界图灵大会,当时的主办者来问我说,虞老师你是很擅长把人物进行三维数字化的,你能不能帮我把图灵三维数字化呢?

这个难度非常的高,为什么呢?图灵早在1954年就已经过世了,我怎么能够三维数字化他呢?所以我们想了一个办法。

我们找了一个学生,他长得瘦瘦高高的,非常像图灵,当然他的脸不是很像图灵。那么我们就用三维数字化的方法,把他整个三维几何数字化了,我们直接用“卷福”的脸对他的脸做了一个三维的移植。

最后我会给大家秀这样一个demo,怎么样把真的和假的融合在一起,形成一个虚拟的人物。

小提琴演奏者

那我给大家看一些我们最近做的很有意思的项目。第一个项目是我们和美国朱莉亚音乐学院拍摄的音乐教学。

这个人手里拿了一个小提琴,然后我们在这样一个Dome System里面,用75个相机进行拍摄。我们能够重建它非常高清的三维几何,大家可以看到,它的小提琴对于人身体的遮挡是非常严重的,很多相机都看不到被小提琴遮挡住的人的手臂。

但是用深度学习的方法,能估算出人的手臂大约是在什么地方。然后再用几何的方法把它填充过去,就能产生这样一个接近完美的、三维360度观看的这样一个体验。

健身教练

我们再来看一个很有意思的demo,这个demo大家都会用keep或者是用fit time。大家经常看到的健身的demo,无非就是一个2D的图片,其实你并不能看到你的训练者他到底是怎么来进行运动的。

这是我们做的,这是我的学生,他练得非常好。所以我们拍了一个他的三维健身的片段。因为我们是用360度3D拍摄的,所以你可以从任意角度进行观看。

更有意思的是,你可以把虚拟的肌肉绑定在一个模型身上,然后再把它进行分离。这样当你训练的时候,你就知道哪一块肌肉是发力正确的,哪一块肌肉是发力错误的。这个相信大家会在新的健身平台上看到这个demo。

“三维重建”——感知、行为、认知

回过头来讲图灵,在图灵逝世两年之后开了一个全世界最重要的大会,叫达特茅斯大会。启动了AI人工智能,大家确定了研究人工智能的一个方法,这个方法就是大家中学的时候学到的笛卡儿的方法。

它是把整个人工智能的问题分解为三个不同的部分,第一个是Sensing,就是怎么样来对三维世界进行感知;第二部分是Action,怎么样通过感知的数据进行行动,今后就会发展成机器人等等;最后一部分是Cognition,认知,如何把采集到的数据,像人一样进行思考和分析。

在经过了整整60年之后,由于深度学习的高速发展,使得这三个问题又重新整合在一起了。这个方法论是亚里士多德的方法论,叫做Holism。把这个三维一体重新整合在一起来进行这样一个分析。

我们今天要讲的就是把人数字化,这样一个解决方案其实就大大地借鉴了Holism的方法。

感知,眼睛的启示

我们一步一步来看,感知、认知和行为分别是怎样影响到新一代的数字化的技术。

这里就要讲到人的眼睛了。人的眼睛是一看到“我”,你就知道“我”是三维的,你不需要通过移动等等。所以人的眼睛应该是最好的一个三维分析器。人的眼睛很神奇,它有几大功能。

第一,称之为Stereo或者叫Stereo Parallax(立体视差)。人有两只眼睛,两只眼睛分别看到不同的物体,你在不同的角度可以看到我。

第二,叫做Refocusing(再次对焦)。闭上一只眼睛,你仍然能够判断出,我站在了这样一个屏幕的前面,因为你的焦距发生了变化。当你对焦到我身上的时候,我的脸是清晰的,当你对焦到后面的时候,你会发现后面的图像是清晰的。

第三,人的眼睛是跟人的大脑相连接的。那就确定了人的大脑可以通过分析数据,产生语义的分析。它可以分析我这个图像,知道我是一个人而不是一个兔子,对不对?所以它可以根据这三个功能产生一个三维的分析。

而我们现在的人工智能核心算法也正是借鉴人眼这样一个核心技术。

我们一步一步来,先说说Sensing,就是感知。在过去的10年里,感知取得了巨大的变化。我不知道在座多少人在家里玩过Microsoft Kinect,你可以在里面跳舞,进行三维的这样一个skeleton,叫骨骼抓取。

通过这样的技术,你可以产生比较高清的三维的几何。这个几何并不是非常的精确,它没有纹理,它只能产生一个几何的这样一种信息。

最近VIVO推出了一款新手机,其实iPhoneX也提出了这样用结构光的方法,一张就能拍出三维的效果,这样的三维感知技术会越来越会深入到大家的生活之中。

今后大家可以通过手机拍摄自己三维的几何结构。当然,这样的几何结构仍然不够高清,怎么样能够把它做得更高清?

我们做过一个拍摄,五张图片就能够产生超高清的三维的人脸。因为各位太关心自己的人脸了,如果人脸拍得不好怎么发朋友圈,对不对?我们通过这五张照片能够把脸上所有的皱纹、胡茬全都呈现出来。

有了这样一个技术,你可以做3D美颜,你可以把这个皱纹去掉等等。可以通过这样一个多视角的拍摄系统,加上结构光的拍摄系统,产生一个高清的三维的几何,完成第一步感知。

重建—虚拟三维世界的建立

第二部分是重建,重建的意思是说,你如果没有结构光这样的三维感知器,可以用自己的眼睛围着一个物体看。

比如说,当你看一样东西的时候,你通常会围着它看,以获取它的三维的结构。我在十年以前在美国做的一个项目,为这个脚进行一个三维高清的一个建模。当时是因为很多老兵的脚受了很多的伤,所以想建造出一个非常高清的三维的骨骼的固定器来修复脚的损伤。

通过这个技术我们可以发现,如果我能够从不同的角度进行拍摄,就可以把一个三维的物体进行重构。

这是因为人的大脑通过观看三维的这样一个物体,产生了Correspondence。你知道这个点对应那个点,然后通过移动就产生一个三维的预计的感知。

在上海科技大学只要30分钟就可以了,我们搭建了一个用75个相机组成的对内环拍系统,它可以360度无死角地对一个动态的人进行拍摄,然后像人眼睛一样Correspondence,把整个的三维的人体进行一个高清的重建。

这样一个高清的重建本身其实还是有很大的难度的,为什么呢?人是移动的,人的手、身体的遮挡的关系能产生非常复杂的变化。

当我的手遮住我的身体的时候,在座的观众仍然能够知道我的手是在身体的前面还是后面。你不会因为有这样的遮挡而无法判断身体的三维几何。那么人是怎么做到的呢?

人是通过大量的三维训练的数据得到的。从小到大我们明天都在看人,所以我们知道人是怎样做这个移动的,怎样做这个行为的。

通过这样的训练的数据,你可以在非常强的遮挡下仍然获取非常高清的几何,这就是深度学习的魅力了。

深度学习采集到了大数据,用这些数据来填补了很多复杂的问题。

认知,一切从认识世界开始

当我们在网上逛淘宝看到一个杯子的时候,我一看就知道这是一个三维的杯子,我不需要360度进行观看;当看到一个人脸的时候,我只要看一张图片,就能够瞬间把这个三维的2D的人脸转化为3D的人脸。

这是为什么呢?是因为人看了大量的3D处理的数据,根据大量数据可以从2D的图片直接推算出大概它3D的样子是什么样的。

这就是认知。

整个的技术核心,就是把这三个技术,用亚里士多德Holism的方法三维一体地结合在一起,进行一个高清的人体的三维重建。

全息通话、在线试衣离我们有多远?

刚刚讲的所有的重建都离线重建,需要大量的时间进行三维的重建,因为需要深度学习的过程。

我们展示的一个最新的技术是和中国移动合作的,实时进行三维转播。

大家可能看过《星球大战》,《星球大战》里最酷的一个就是叫hologram,对不对?叫做全息通话。

这个全息通话离大家非常非常近了。我们用十相机的系统拍摄,这个人拍摄出来就是一个3D人物。然后通过和华为的5G合作,和中国移动合作,把这样一个人物栩栩如生地直接展现在你的平台上面。

如果你有一个全息投影系统的话,你就会看到这个人实时地跟你在进行全息通话,是无延时的一个实时重建。

最近我们做的是如何试衣服,对于人体来说,试衣服几何的重建是简单的,衣服的重建也是简单的,但是衣服有一点比较难。

因为衣服是具有光泽的,传统的这些衣服有丝织的、有棉布的,不同的材质有不同的光泽。那如何进行这样一个光泽的一个重现呢?

这就需要在采用了一个多视角拍摄以后,根据多个视角采样得到的图片,用机器学习的方法识别出不同的物体的材质。

这是早期我们采用了机器学习的方法,重建唐三彩这样一个非常复杂的马。这样的材质是半金属半陶瓷的一个结构,进行材质的分析和三维的复现。

那现在我们用同样的技术把它转换到人的试衣服上,我们看一下人试衣服,这可能是大家可以看到的最接近真实的试衣服效果。

我们看一段视频,这是我们用系统产生的一个高清的三维的人体模型。然后我可以选择不同的衣服套在她身上,我可以实时地进行试衣、换衣。

我给大家做一个demo,这是用无限网络传播的,可能速度稍微慢一点。

第一个demo是我们拍摄的一个女明星的三维的效果,这个女明星是吉克隽逸,我想很多人粉吉克隽逸,但是可能从来没有人这么近距离地看过她。

你还可以看到她非常高清的三维的人脸,而且她的遮挡都是正确的。我想今后的娱乐体验是大家在看《我是歌手》等等节目的时候,这个明星就会在你面前进行表演了。

第二个demo是我们最近拍摄的一个极限运动。这个自行车的复现,我们当时非常担心拍不出来,因为它非常复杂,又有人,又有车。

自行车很常见,但是大家没有看到过慢速的,那我想今后观看娱乐节目,都会通过VR和AR看到一个人冲进去的效果。

最后一个demo,我想大家也是会很感兴趣。这是我自己,大家看了半天,第一想到的就是,这个技术能不能复现一个我自己,对不对?用这个技术,每个人都可以复现一个自己,然后放在一个虚拟的世界里面,放在一个智慧的城市里面,放在一个智慧的未来里面。

其实“他”是在说话的,他说To see is to believe,to believe is to see。

因为看见,所以相信,因为相信,所以看见。

文字 | 王锐;校对 | 其奇

广告等商务合作,请点击这里

本文为转载内容,授权事宜请联系原著作权人。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开