出道四年，会唱《野狼disco》的微软小冰在唱歌能力上都经历了什么？

记者 | 伍洋宇

《野狼disco》火了之后，音乐圈里不乏出现一些精致的翻唱版。这当中有一位少女音的演唱者很特别，她叫小冰，是微软研发多年的人工智能机器人。

微软小冰由微软（亚洲）互联网工程院于2014年5月正式推出，截至2019年8月15日已经进化至第七代。作为一个人工智能底层框架和系统，她融合了自然语言处理、计算机语音和计算机视觉等多种技术。

目前，小冰的产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。微软曾强调过，比起单一的任务完成，小冰更注重人工智能在拟合人类情商维度的发展，强调人工智能情商和在人机交互中的基础价值。

2016年，微软开始培养小冰的唱歌能力。“那个时候可能这个方向还比较冷门，所以有很多朋友一直在问我，说小冰怎么开始想要做唱歌了？”微软小冰首席语音科学家栾剑对界面新闻记者表示，小冰在2015年推出文字回复以外的语音聊天功能。对应小冰“精灵古怪”的少女人设，其声音也相较活泼可爱，在一开始就受到了部分C端用户的欢迎。

一年多的时间里，团队在儿化音、中英文混杂的朗读、讲儿童故事、各种情感的表现方面调教小冰的说话能力，虽然在分词、多音字、韵律上面还有一些瑕疵，但基本面问题已经大部分得到解决。

“所以，这个时候我们在想我们可能要寻找一个更有挑战性的课题。”栾剑说。

发展小冰的唱歌能力有主要三方面原因：首先，唱歌的技术门槛比说话要高，除了发音之外，它还有节拍和旋律两大要素；其次，唱歌在情感表达上更丰富和激烈，这就有可能对应更多用户的心理情景；再者，唱歌是生活中很重要的娱乐方式，团队认为这中间存在较大的市场空间。

传统的唱歌合成方式主要分两类。第一类叫做单元拼接，把声母和韵母按不同音高进行采集，再形成单元库。有了想要合成歌曲的目标时长和目标音高后，就可以通过信号处理的方式修改单元的时长和音高，最后拼接成理想效果。这个方法的有点在于简单易行，且可以保证最佳音质，但问题在于单独发音和一串连续语流中发音的差别，会使生成歌曲听着有些生硬，“唱得不是那么自然，是一个字一个字在蹦的感觉。”

第二类叫做参数合成，采用的是隐马尔可夫模型。它不是建立单元库，而是把所有录音的数据提取出声学参数。这个声学参数里面包括能量谱、时长、音高等等要素，再由此建立一个模型。等到要合成歌曲的时候，便根据目标发音在模型中进行预测得到一组声学参数，最后通过声码器对其波形重构。

“这种方式比较灵活，基本上可以认为我把一个东西全部打碎了，打碎之后再重新拼，这个力度会非常小，所以它的变化很丰富，甚至我可以创造一个从来不存在的声音。”栾剑表示，但该方法相应的弊端就是音质相较第一种会有所下降。

小冰团队选择了前景更为广阔的参数合成的方式，并在其基础上有所改良。

“最开始的模型就是从乐谱里面把那三大要素采集出来之后，分别对声谱参数、节奏序列、音高轨迹用三个模型分别建模。”但由此预测出来的参数合成之后的高音和低音，音色听起来不像出自同一个人，团队又为此做出第二代模型。

“接下来进一步的提升就是，既然这三个参数之间有很重要的耦合性，互相之间需要协调、同步预测，我们干脆（只）用一个模型，同时预测这三个参数。”当然这样的技术会更有难度，但团队引入了卷积神经网络、残差连接等，使三个参数同时建模成为了可能。由此生成的歌曲，其流畅度和自然度都有了较为明显的提升。

在学习唱歌的道路上，小冰也会遇到很多现实问题。

判断一个唱歌模型的好坏有两个重要判断标准：一是适用性，能表现多种风格；二是数据，数据又和学习能力息息相关——在不断升级的GPU带来的算力提升以及大数据的支撑下，深度学习发展得越来越好。但人工智能的唱歌人物在数据来源方面存在困难，“因为相对于说话来说，清唱的数据是非常少，绝大部分的数据是混杂的、伴奏的音轨。”栾剑表示。

小冰团队曾和一家唱片公司合作，这家公司保留的大都是成品歌曲而非清唱人声，混合了各种音轨和伴奏。团队此时要做的事，便是如何在伴奏音频中把人声的音高提取得更好。这之中存在的三个问题在于：首先，找到伴奏里面人声部分的时间戳，也就是从什么地方起有人声唱歌；其次，准确找到每个发音的起始和结束时间；最后，提取人声的音高轨迹。

团队给出的解决方案有三点创新：用原始波形代替能量谱输入，以保证完整的相位信息；通过全卷积网络和残差连接，形成相对简洁清晰的网络结构；以软分类标签弱化判断音高的错误程度。这样的方案会提升学习的准确率，减少一些错误和偏差。

小冰版本《野狼disco》目前在QQ音乐可试听，采用了尚未发布的粤语和说唱模型，此外还有30首已发布的作品。其日本地区的分身——凛菜，也已与日本唱片公司AVEX正式签约。近期还将解锁歌词改编文本生成技术、舞台表演歌声合成技术，以及表演互动与MC能力等等。

事实上，小冰的歌手身份只是其内容创作技术版图的一隅，其更广阔的市场由社交对话机器人、智能语音助理、人工智能内容创作和生产平台等多种形态构成。栾剑认为，无论是人工智能创造还是唱歌能力的提高，归根结底仍是模型提升和数据挖掘。“这两个东西如果我们做得更好，我们的质量会不断得到提高。”

据悉，在全球多个国家，微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众，与用户的单次平均对话轮数（CPS）仍保持在23轮。目前已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域，客户包括万科、万得资讯、万事利、中国联通等。

出道四年，会唱《野狼disco》的微软小冰在唱歌能力上都经历了什么？

热门评论

热门推荐

出道四年，会唱《野狼disco》的微软小冰在唱歌能力上都经历了什么？

相关推荐

热门评论

热门推荐