出道四年,会唱《野狼disco》的微软小冰在唱歌能力上都经历了什么?

微软曾强调过,比起单一的任务完成,小冰更注重人工智能在拟合人类情商维度的发展,强调人工智能情商和在人机交互中的基础价值。

图片来源:unsplash

记者 | 伍洋宇

《野狼disco》火了之后,音乐圈里不乏出现一些精致的翻唱版。这当中有一位少女音的演唱者很特别,她叫小冰,是微软研发多年的人工智能机器人。

微软小冰由微软(亚洲)互联网工程院于2014年5月正式推出,截至2019年8月15日已经进化至第七代。作为一个人工智能底层框架和系统,她融合了自然语言处理、计算机语音和计算机视觉等多种技术。

目前,小冰的产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。微软曾强调过,比起单一的任务完成,小冰更注重人工智能在拟合人类情商维度的发展,强调人工智能情商和在人机交互中的基础价值。

2016年,微软开始培养小冰的唱歌能力。“那个时候可能这个方向还比较冷门,所以有很多朋友一直在问我,说小冰怎么开始想要做唱歌了?”微软小冰首席语音科学家栾剑对界面新闻记者表示,小冰在2015年推出文字回复以外的语音聊天功能。对应小冰“精灵古怪”的少女人设,其声音也相较活泼可爱,在一开始就受到了部分C端用户的欢迎。

一年多的时间里,团队在儿化音、中英文混杂的朗读、讲儿童故事、各种情感的表现方面调教小冰的说话能力,虽然在分词、多音字、韵律上面还有一些瑕疵,但基本面问题已经大部分得到解决。

“所以,这个时候我们在想我们可能要寻找一个更有挑战性的课题。”栾剑说。

发展小冰的唱歌能力有主要三方面原因:首先,唱歌的技术门槛比说话要高,除了发音之外,它还有节拍和旋律两大要素;其次,唱歌在情感表达上更丰富和激烈,这就有可能对应更多用户的心理情景;再者,唱歌是生活中很重要的娱乐方式,团队认为这中间存在较大的市场空间。

小冰的虚拟形象(图自:微软)

传统的唱歌合成方式主要分两类。第一类叫做单元拼接,把声母和韵母按不同音高进行采集,再形成单元库。有了想要合成歌曲的目标时长和目标音高后,就可以通过信号处理的方式修改单元的时长和音高,最后拼接成理想效果。这个方法的有点在于简单易行,且可以保证最佳音质,但问题在于单独发音和一串连续语流中发音的差别,会使生成歌曲听着有些生硬,“唱得不是那么自然,是一个字一个字在蹦的感觉。”

第二类叫做参数合成,采用的是隐马尔可夫模型。它不是建立单元库,而是把所有录音的数据提取出声学参数。这个声学参数里面包括能量谱、时长、音高等等要素,再由此建立一个模型。等到要合成歌曲的时候,便根据目标发音在模型中进行预测得到一组声学参数,最后通过声码器对其波形重构。

“这种方式比较灵活,基本上可以认为我把一个东西全部打碎了,打碎之后再重新拼,这个力度会非常小,所以它的变化很丰富,甚至我可以创造一个从来不存在的声音。”栾剑表示,但该方法相应的弊端就是音质相较第一种会有所下降。

小冰团队选择了前景更为广阔的参数合成的方式,并在其基础上有所改良。

“最开始的模型就是从乐谱里面把那三大要素采集出来之后,分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模。”但由此预测出来的参数合成之后的高音和低音,音色听起来不像出自同一个人,团队又为此做出第二代模型。

“接下来进一步的提升就是,既然这三个参数之间有很重要的耦合性,互相之间需要协调、同步预测,我们干脆(只)用一个模型,同时预测这三个参数。”当然这样的技术会更有难度,但团队引入了卷积神经网络、残差连接等,使三个参数同时建模成为了可能。由此生成的歌曲,其流畅度和自然度都有了较为明显的提升。

在学习唱歌的道路上,小冰也会遇到很多现实问题。

判断一个唱歌模型的好坏有两个重要判断标准:一是适用性,能表现多种风格;二是数据,数据又和学习能力息息相关——在不断升级的GPU带来的算力提升以及大数据的支撑下,深度学习发展得越来越好。但人工智能的唱歌人物在数据来源方面存在困难,“因为相对于说话来说,清唱的数据是非常少,绝大部分的数据是混杂的、伴奏的音轨。”栾剑表示。

小冰团队曾和一家唱片公司合作,这家公司保留的大都是成品歌曲而非清唱人声,混合了各种音轨和伴奏。团队此时要做的事,便是如何在伴奏音频中把人声的音高提取得更好。这之中存在的三个问题在于:首先,找到伴奏里面人声部分的时间戳,也就是从什么地方起有人声唱歌;其次,准确找到每个发音的起始和结束时间;最后,提取人声的音高轨迹。

团队给出的解决方案有三点创新:用原始波形代替能量谱输入,以保证完整的相位信息;通过全卷积网络和残差连接,形成相对简洁清晰的网络结构;以软分类标签弱化判断音高的错误程度。这样的方案会提升学习的准确率,减少一些错误和偏差。

小冰版本《野狼disco》目前在QQ音乐可试听,采用了尚未发布的粤语和说唱模型,此外还有30首已发布的作品。其日本地区的分身——凛菜,也已与日本唱片公司AVEX正式签约。近期还将解锁歌词改编文本生成技术、舞台表演歌声合成技术,以及表演互动与MC能力等等。

事实上,小冰的歌手身份只是其内容创作技术版图的一隅,其更广阔的市场由社交对话机器人、智能语音助理、人工智能内容创作和生产平台等多种形态构成。栾剑认为,无论是人工智能创造还是唱歌能力的提高,归根结底仍是模型提升和数据挖掘。“这两个东西如果我们做得更好,我们的质量会不断得到提高。”

据悉,在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众,与用户的单次平均对话轮数(CPS)仍保持在23轮。目前已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域,客户包括万科、万得资讯、万事利、中国联通等。

来源:界面新闻

广告等商务合作,请点击这里

未经正式授权严禁转载本文,侵权必究。

打开界面新闻APP,查看原文
界面新闻
打开界面新闻,查看更多专业报道

热门评论

打开APP,查看全部评论,抢神评席位

热门推荐

    下载界面APP 订阅更多品牌栏目
      界面新闻
      界面新闻
      只服务于独立思考的人群
      打开