【视频】世界上的另一个你，如何创建一个“数字分身”

虞晶怡

叠境数字科技创始人、首席科学家

大家好，我是上海科技大学虞晶怡，那今天我talk演讲的题目就是“Fiat Lux构建数字互联世界的第一道光”。

它的意思就是让世界有光。我要讲的是怎样在数字世界带来这样一个光明。

毋庸置疑，我们都处一个从物理世界向数字世界这样一个转换的过程，这个数字世界里面最难以复现的是什么呢——就是我们人本身。怎么样能够把“人”作为一个个体来数字化，就是我今天演讲的主题。

拥有“分身”是一种怎样的体验？

“重建”图灵

讲到这个主题，首先就要讲讲我们这个开山鼻祖阿兰·图灵，大家可能看过这个本尼迪克特·康伯巴奇演的《模仿游戏》，我们稍微看一个《模仿游戏》的一个片段。

图灵不只是人工智能的鼻祖也是计算机的鼻祖。他创始了整个把物理向数字世界转换的这样一个过程。

今年的年初，在上海举办了一届世界图灵大会，当时的主办者来问我说，虞老师你是很擅长把人物进行三维数字化的，你能不能帮我把图灵三维数字化呢？

这个难度非常的高，为什么呢？图灵早在1954年就已经过世了，我怎么能够三维数字化他呢？所以我们想了一个办法。

我们找了一个学生，他长得瘦瘦高高的，非常像图灵，当然他的脸不是很像图灵。那么我们就用三维数字化的方法，把他整个三维几何数字化了，我们直接用“卷福”的脸对他的脸做了一个三维的移植。

最后我会给大家秀这样一个demo，怎么样把真的和假的融合在一起，形成一个虚拟的人物。

小提琴演奏者

那我给大家看一些我们最近做的很有意思的项目。第一个项目是我们和美国朱莉亚音乐学院拍摄的音乐教学。

这个人手里拿了一个小提琴，然后我们在这样一个Dome System里面，用75个相机进行拍摄。我们能够重建它非常高清的三维几何，大家可以看到，它的小提琴对于人身体的遮挡是非常严重的,很多相机都看不到被小提琴遮挡住的人的手臂。

但是用深度学习的方法，能估算出人的手臂大约是在什么地方。然后再用几何的方法把它填充过去，就能产生这样一个接近完美的、三维360度观看的这样一个体验。

健身教练

我们再来看一个很有意思的demo，这个demo大家都会用keep或者是用fit time。大家经常看到的健身的demo，无非就是一个2D的图片，其实你并不能看到你的训练者他到底是怎么来进行运动的。

这是我们做的，这是我的学生，他练得非常好。所以我们拍了一个他的三维健身的片段。因为我们是用360度3D拍摄的，所以你可以从任意角度进行观看。

更有意思的是，你可以把虚拟的肌肉绑定在一个模型身上，然后再把它进行分离。这样当你训练的时候，你就知道哪一块肌肉是发力正确的，哪一块肌肉是发力错误的。这个相信大家会在新的健身平台上看到这个demo。

“三维重建”——感知、行为、认知

回过头来讲图灵，在图灵逝世两年之后开了一个全世界最重要的大会，叫达特茅斯大会。启动了AI人工智能，大家确定了研究人工智能的一个方法，这个方法就是大家中学的时候学到的笛卡儿的方法。

它是把整个人工智能的问题分解为三个不同的部分，第一个是Sensing，就是怎么样来对三维世界进行感知；第二部分是Action，怎么样通过感知的数据进行行动，今后就会发展成机器人等等；最后一部分是Cognition，认知，如何把采集到的数据，像人一样进行思考和分析。

在经过了整整60年之后，由于深度学习的高速发展，使得这三个问题又重新整合在一起了。这个方法论是亚里士多德的方法论，叫做Holism。把这个三维一体重新整合在一起来进行这样一个分析。

我们今天要讲的就是把人数字化，这样一个解决方案其实就大大地借鉴了Holism的方法。

感知，眼睛的启示

我们一步一步来看，感知、认知和行为分别是怎样影响到新一代的数字化的技术。

这里就要讲到人的眼睛了。人的眼睛是一看到“我”，你就知道“我”是三维的，你不需要通过移动等等。所以人的眼睛应该是最好的一个三维分析器。人的眼睛很神奇，它有几大功能。

第一，称之为Stereo或者叫Stereo Parallax（立体视差）。人有两只眼睛，两只眼睛分别看到不同的物体，你在不同的角度可以看到我。

第二，叫做Refocusing（再次对焦）。闭上一只眼睛，你仍然能够判断出，我站在了这样一个屏幕的前面，因为你的焦距发生了变化。当你对焦到我身上的时候，我的脸是清晰的，当你对焦到后面的时候，你会发现后面的图像是清晰的。

第三，人的眼睛是跟人的大脑相连接的。那就确定了人的大脑可以通过分析数据，产生语义的分析。它可以分析我这个图像，知道我是一个人而不是一个兔子，对不对？所以它可以根据这三个功能产生一个三维的分析。

而我们现在的人工智能核心算法也正是借鉴人眼这样一个核心技术。

我们一步一步来，先说说Sensing，就是感知。在过去的10年里，感知取得了巨大的变化。我不知道在座多少人在家里玩过Microsoft Kinect，你可以在里面跳舞，进行三维的这样一个skeleton，叫骨骼抓取。

通过这样的技术，你可以产生比较高清的三维的几何。这个几何并不是非常的精确，它没有纹理，它只能产生一个几何的这样一种信息。

最近VIVO推出了一款新手机，其实iPhoneX也提出了这样用结构光的方法，一张就能拍出三维的效果，这样的三维感知技术会越来越会深入到大家的生活之中。

今后大家可以通过手机拍摄自己三维的几何结构。当然，这样的几何结构仍然不够高清，怎么样能够把它做得更高清？

我们做过一个拍摄，五张图片就能够产生超高清的三维的人脸。因为各位太关心自己的人脸了，如果人脸拍得不好怎么发朋友圈，对不对？我们通过这五张照片能够把脸上所有的皱纹、胡茬全都呈现出来。

有了这样一个技术，你可以做3D美颜，你可以把这个皱纹去掉等等。可以通过这样一个多视角的拍摄系统，加上结构光的拍摄系统，产生一个高清的三维的几何，完成第一步感知。

重建—虚拟三维世界的建立

第二部分是重建，重建的意思是说，你如果没有结构光这样的三维感知器，可以用自己的眼睛围着一个物体看。

比如说，当你看一样东西的时候，你通常会围着它看，以获取它的三维的结构。我在十年以前在美国做的一个项目，为这个脚进行一个三维高清的一个建模。当时是因为很多老兵的脚受了很多的伤，所以想建造出一个非常高清的三维的骨骼的固定器来修复脚的损伤。

通过这个技术我们可以发现，如果我能够从不同的角度进行拍摄，就可以把一个三维的物体进行重构。

这是因为人的大脑通过观看三维的这样一个物体，产生了Correspondence。你知道这个点对应那个点，然后通过移动就产生一个三维的预计的感知。

在上海科技大学只要30分钟就可以了，我们搭建了一个用75个相机组成的对内环拍系统，它可以360度无死角地对一个动态的人进行拍摄，然后像人眼睛一样Correspondence，把整个的三维的人体进行一个高清的重建。

这样一个高清的重建本身其实还是有很大的难度的，为什么呢？人是移动的，人的手、身体的遮挡的关系能产生非常复杂的变化。

当我的手遮住我的身体的时候，在座的观众仍然能够知道我的手是在身体的前面还是后面。你不会因为有这样的遮挡而无法判断身体的三维几何。那么人是怎么做到的呢？

人是通过大量的三维训练的数据得到的。从小到大我们明天都在看人，所以我们知道人是怎样做这个移动的，怎样做这个行为的。

通过这样的训练的数据，你可以在非常强的遮挡下仍然获取非常高清的几何，这就是深度学习的魅力了。

深度学习采集到了大数据，用这些数据来填补了很多复杂的问题。

认知，一切从认识世界开始

当我们在网上逛淘宝看到一个杯子的时候，我一看就知道这是一个三维的杯子，我不需要360度进行观看；当看到一个人脸的时候，我只要看一张图片，就能够瞬间把这个三维的2D的人脸转化为3D的人脸。

这是为什么呢？是因为人看了大量的3D处理的数据，根据大量数据可以从2D的图片直接推算出大概它3D的样子是什么样的。

这就是认知。

整个的技术核心，就是把这三个技术，用亚里士多德Holism的方法三维一体地结合在一起，进行一个高清的人体的三维重建。

全息通话、在线试衣离我们有多远？

刚刚讲的所有的重建都离线重建，需要大量的时间进行三维的重建，因为需要深度学习的过程。

我们展示的一个最新的技术是和中国移动合作的，实时进行三维转播。

大家可能看过《星球大战》，《星球大战》里最酷的一个就是叫hologram，对不对？叫做全息通话。

这个全息通话离大家非常非常近了。我们用十相机的系统拍摄,这个人拍摄出来就是一个3D人物。然后通过和华为的5G合作，和中国移动合作，把这样一个人物栩栩如生地直接展现在你的平台上面。

如果你有一个全息投影系统的话，你就会看到这个人实时地跟你在进行全息通话，是无延时的一个实时重建。

最近我们做的是如何试衣服，对于人体来说，试衣服几何的重建是简单的，衣服的重建也是简单的，但是衣服有一点比较难。

因为衣服是具有光泽的，传统的这些衣服有丝织的、有棉布的，不同的材质有不同的光泽。那如何进行这样一个光泽的一个重现呢？

这就需要在采用了一个多视角拍摄以后，根据多个视角采样得到的图片，用机器学习的方法识别出不同的物体的材质。

这是早期我们采用了机器学习的方法，重建唐三彩这样一个非常复杂的马。这样的材质是半金属半陶瓷的一个结构，进行材质的分析和三维的复现。

那现在我们用同样的技术把它转换到人的试衣服上，我们看一下人试衣服，这可能是大家可以看到的最接近真实的试衣服效果。

我们看一段视频，这是我们用系统产生的一个高清的三维的人体模型。然后我可以选择不同的衣服套在她身上，我可以实时地进行试衣、换衣。

我给大家做一个demo，这是用无限网络传播的，可能速度稍微慢一点。

第一个demo是我们拍摄的一个女明星的三维的效果，这个女明星是吉克隽逸，我想很多人粉吉克隽逸，但是可能从来没有人这么近距离地看过她。

你还可以看到她非常高清的三维的人脸，而且她的遮挡都是正确的。我想今后的娱乐体验是大家在看《我是歌手》等等节目的时候，这个明星就会在你面前进行表演了。

第二个demo是我们最近拍摄的一个极限运动。这个自行车的复现，我们当时非常担心拍不出来，因为它非常复杂，又有人，又有车。

自行车很常见，但是大家没有看到过慢速的，那我想今后观看娱乐节目，都会通过VR和AR看到一个人冲进去的效果。

最后一个demo，我想大家也是会很感兴趣。这是我自己，大家看了半天，第一想到的就是，这个技术能不能复现一个我自己，对不对？用这个技术，每个人都可以复现一个自己，然后放在一个虚拟的世界里面，放在一个智慧的城市里面，放在一个智慧的未来里面。

其实“他”是在说话的，他说To see is to believe，to believe is to see。

因为看见，所以相信，因为相信，所以看见。

文字 | 王锐；校对 | 其奇

【视频】世界上的另一个你，如何创建一个“数字分身”

热门评论

热门推荐

【视频】世界上的另一个你，如何创建一个“数字分身”

相关推荐

热门评论

热门推荐