快手Y-Lab实验室:不为融资和上市积累名声,目标更长远

“我希望Y-Lab能成为DeepMind这样在人工智能领域扛旗的实验室,我们希望能做出像AlphaGo这种能够对业界产生较大影响的东西。”

作者 | 刘丹如

快手悄悄成立了一个关于AI的科技实验室Y-Lab。如果不是它参与了即将上映的《猩球崛起3》的宣发,人们可能直到现在仍旧没有发这个实验室的存在。

为了配合电影《猩球崛起3》的宣发,快手上出现了能够将用户的面部变化为猩猩的魔法表情。除此之外, Y-Lab实验室还研发出另一项秘密武器:人体姿态捕捉。在电影活动预热的现场,Y-Lab实验室的负责人郑文博士介绍说,这种技术常用于电影特效,比如在《猩球崛起》中,演员们穿上特制的衣服进行表演,电影里呈现出来的便是经过加工的形象。

与电影中运用的特效技术有所不同,Y-Lab实验室研发出的人体姿态捕捉主要在手机端运转,且不需要用户进行任何外带设备的佩戴,手机摄像头会自动捕捉用户的身体部位和动作进行特效转化。按照郑文目前的规划,在这部电影上映期间,快手的这个功能可以让用户“一秒变凯撒”。

实际上,Y-Lab实验室在2016年9月已经成立,致力于通过最前沿的科技带给用户新奇的记录体验,研究领域涉及人工智能、机器学习、计算机视觉和计算机图形学等。郑文告诉《三声》(微信公号ID:tosansheng)说:“宿华一直想用一些高精尖的技术给用户带来一些比较新奇的玩法,所他很早就提出想做一个实验室的想法。”

郑文是宿华在清华期间的同学,同博士读到一半就去谷歌工作的宿华不同,郑文在清华毕业后在美国斯坦福计算机系读博士,其导师专注于电影特效,并两次获得奥斯卡科技奖。在博士期间,郑文的研究方向主要集中在计算机图形学和电影特效方面,毕业之后也一直在美国从事机器学习和计算机视觉相关的研究。

作为国内目前用户数最多的短视频平台,快手希望通过人工智能、计算机视觉、计算机图形学、机器学习等技术进一步推动短视频的玩法。2016年9月,在宿华的力劝之下,郑文决定回国加入快手,郑文对《三声》(微信公号ID:tosansheng)说:“我觉得他想要做的事情挺有趣,跟我的经验也非常吻合,我自己也感兴趣,所以就回来了。”

在快手内部,这是一个没有特别限定目标的神秘部门。除了郑文外,还拥有不少名校博士和对人工智能研究深入的技术专家。郑文介绍说,“我们会研究一些好玩的东西,只要能够对快速用户带来好的信息体验的都可以。”

Y-lab实验室里的“黑科技”

在位于五道口的快手办公楼里,Y-Lab实验室的工位看起来并不起眼,但有所不同的是,在Y-Lab实验室里,几乎每个人都会单独负责一个项目的开发,开发周期短则几周,长则几个月。这些“好玩的东西”,将陆续上线。

最近,Y-Lab实验室推出的教新的技术是人体姿态捕捉。在郑文看来,这项技术的功能并不止于帮助快手的合作方进行宣发活动,而是“还会衍生出更多的特效,或者和其他技术进行组合,形成新的玩法”。

郑文博士演示技术

在推出人体姿态捕捉技术之前,Y-Lab实验室已经在快手的产品上进行了几次小的试水。郑文现场为我们展示了其中两项技术:一个是帮助用户直接将背景抠掉,换成自带背景;另一个则是利用AR技术,使得人们通过手机摄像头拍出虚拟的、逐步盛开的多肉花朵。

在展示过程中,郑文用手机拍摄桌面,并轻触屏幕。尽管桌面上空无一物,但从屏幕里看过去,一颗种子从天而降,落在桌面上开出花的效果,他还在工作人员的手上进行了这个实验,同样出现手心开出花的效果。

对于第一项在视频中抠背景的技术,郑文表示,这项技术的模型已经有很多公开论文的发表,但更多的是基于PC端。“这个模型在手机上跑是非常困难的,我们要把它弄到非常小、非常快,所以在算法和底层技术上面,做了很多工作。”

在算法层面,Y-Lab实验室自主研发全新的神经网络架构,对模型的大小和计算量进行了几个数量级的缩减;在底层层面,Y-Lab是探视研发了一套可以在手机上高效运行的深度学习推理引擎,以支持CPU和GPU两种运行模式,同时针对硬件架构进行了高度的性能优化。

目前,快手在图像理解方面已经非常完善,对于Y-Lab实验室而言,他们则是要在图像理解的基础上增加新玩法:“我们的目的是可以理解视频里面所有的信息,所有理解出的信息都可以用于做出好玩的特殊效果。”

郑文以人体姿态捕捉为例,在能判断出人体的部位和动作后,他们能实现的特效不仅仅是一秒变凯撒,还可以有更多的特效玩法,“信息理解得越多,能做的事情越多”。

短视频行业的下一个阶段

视频理解对于快手的内容分发和生成都至关重要。

在8月5日的公开活动中,宿华如此说道:“使每个人都能够看到自己喜欢的内容、每个人能够找到喜欢自己的人,让自己的生活记录被他看到,背后是一整套机器学习和人工智能的算法、基础架构和数据分析的技术。我认为核心是理解,构建一个算法架构,操控计算机,让它能理解人、内容、人和内容的互动。”

在采访过程中,郑文解释了电影特效、计算机图形学、计算机视觉和视频理解的概念。其中,视频理解是目前快手领先于行业的成熟技术之一,快手用人工智能理解每一个上传到UGC视频,通过计算机视觉和音频理解等技术抽象出视频中的内容,再根据内容分发至最可能喜欢它的用户。

“视频理解就是计算机’看’一个视频,从里面抽象出各种层次的信息,”郑文说。目前,快手对于视频理解技术在推荐、审查等方面的应用已经比较成熟,而Y-Lab则是用视频理解技术来增加新的玩法。“我们从视频中提取出语义和几何等信息,然后用这些信息去修改视频内容。”

以狗为内容主体的视频为例。视频理解能够分辨出图像里狗的位置、种类、在图像中所占的像素区域等,甚至可以重构狗的三维模型,在此基础上,特效技术能够对狗进行视觉效果的修改和替换,这时就会用到计算机图形学的技术。“计算机图形学是从一个抽象的表达出发,比如说你要画一只狗,就要先建立它的三维模型,然后再把它渲染到二维图像上去,这个信息流向是与计算机视觉刚好相反的。”

AR 技术在快手的应用

AR也是Y-Lab重视的技术之一。郑文认为,虽然VR由于设备问题发展正在受限,但是各种手机平台都开始研发自己的AR技术,目前的趋势是从现有设备开始推动。“我们也是在这样做,但这是一个慢慢的过程。现在大部分AR都是通过视频完成,所以我觉得AR跟短视频结合得很好。”

实际上,这项技术有着更长远的可能性。“短视频发力已经是几年前的时候,下一步AR会不会成为一种新的记录和分享方式?我们也不知道,但现在出现了新的趋势,我们就要早一天做好准备。”

在中美两国都有长期科研经验的郑文看来,目前中国技术的发展速度,与国外相比并没有太大差距,甚至更快,但在深度方面依然还有差距。他以曾经工作过的美国电影特效公司举例,在国外电影特效行业,一部电影会有专门的技术导演和完整的工种团队,从总监到软件工程师开发的,整个团队会为了细节进行不断地钻研,最终打磨得很好。

郑文希望Y-Lab实验室能够具有这样的精神,“中国公司真的要成为谷歌那样的企业,目前就是缺一些精益求精。”

始终技术驱动的快手

Y-lab 实验室的首次亮相

在科技公司的实验室中,人们最容易联想到举世闻名的谷歌实验室GoogleX。在快手的诠释里,Y-Lab中的Y代表着Young,Y是x的下一个字母,所以也代表着超越x。在少数有关GoogleX的报道,这家位于美国旧金山的实验室,孕育合发展着物联网、无人驾驶汽车、机器人、谷歌眼镜等项目。

虽然目前的Y-Lab与GoogleX还差很远,但这并不阻碍快手有一个向往成为谷歌的愿景。2006年,宿华放下读了一半的清华大学博士学位,退学到谷歌工作了两年,此后与程一笑将GIF工具转型为短视频社区快手之后,他也把谷歌的公司文化带到了快手。

这种文化主要体现在这家公司对于技术的追求和推崇上。之前在接受《人物》杂志采访时,宿华曾经表示:“从早年的微软到Google,到现在的Facebook,最近这50年的产业变革需要的技术都是程序员掌握的。”

对于快手而言,尽管此刻已经逐步开始完善自己的商业版块和布局,但技术仍是最引以为傲的资本。在2017年年初完成总额为3.5亿美元的融资之后后,如今的快手人数规模已经扩充到800多人,但是程序员在其中所占比例仍旧高达80%左右。

“从个人愿望来说,我希望Y-Lab能成为DeepMind这样在人工智能领域扛旗的实验室,我们希望能做出像AlphaGo这种能够对业界产生较大影响的东西。”在郑文眼中,快手是一家靠技术驱动的公司,从创立至今,快手已经完成了6亿注册用户,8000万日活的数据累积,而这一切的背后主要依靠推荐算法进行支撑。在接下来的发展规划里,他们想把快手做成一个把技术做到很前沿的公司。

“成立Y-Lab实验室不是为融资、上市积累名声,快手的目标要更为长远。”郑文认为快手最终的目标是增加所有人的幸福感,而实现方式是通过记录生活和记录世界,革新记录的方式是一个大目标里面的小分支,“我们可以提供不同的好玩的东西吸引用户去玩,还有很多好玩的东西正在研究,很快都会出来。”

广告等商务合作,请点击这里

本文为转载内容,授权事宜请联系原著作权人。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开