当前位置: 主页 > 次元壁 > 从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境内容

从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境

2019-06-24 16:24 作者:本站作者 来源:网络整理 次阅读

导语:换言之,“虚拟歌姬”之所以可以成为偶像,原因就是在于创造他们的是用户/粉丝本身,他们投入的精力与自发传播造就了这个偶像,唱功则是其中最不重要的一个条件,说真的,无数圈外人都曾吐槽过初音miku的歌声过于怪异,但这丝毫不影响她被人所喜爱。

漆黑的大厅中,一个年仅5岁的女孩歌声在回荡,而台下数十个中年男女沉浸其中,不时露出惊讶神情,暗自赞叹歌声宛如天籁,不负昭华。

从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境

这并不是中国好声音的选拔现场,这是微软举办的一场特殊“演唱会”,听众皆是科技媒体的专业编辑与记者,而演唱者则是微软小冰——一个诞生于2014年的对话式人工智能。

一、小冰开腔:她也许是最接近人类的一位歌手

单单用文字无法让大家感受到小冰的歌喉,但前方的编辑听完后后用颤抖的手在QQ上发回两句话:

“震惊了!”

“超越人类了!”

随后笔者抱着怀疑的态度试听了一下小冰演唱片段,片段分为3种唱腔,一种普通歌声,另一种是难度较高的戏腔,第三种是日语唱腔。

从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境

首先是普通唱腔,片段中由于背景配乐仅有吉他/钢琴,所以女声较为突出,接近清唱,极为考验演唱者的功底。在小冰的演绎下,歌声中的细节十分丰富,其中唱到一些需要咬牙发音的部分(例如“轻轻”)时,隐约可以感觉到齿声和口腔共振,在每句歌词之间,可以听到较为明显的换气声,高音部分也能明显感觉到嘴中气息的流动。

从听感上讲,小冰的声音流畅自然,较为完整地还原了人类在唱歌时的特有的细节与表现,极少有特别明显的“电子音”,尽管未达到绕梁三日的水准,但也称得上是相当出色的拟人表现,普通人很难直接分辨出唱歌的是一位“虚拟歌姬”。

从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境

戏腔笔者了解不多,不过小冰的表现依然令人印象深刻,其演唱的片段是广为人知的《新贵妃醉酒》,戏腔中可以明显听到很浓重的口水音与鼻音,因为戏腔每句发生较长,换气声也更为明显。

至于日语唱腔,笔者在听完第一句之后就“震惊了”,这并非过誉,如果说中文唱腔中你还能隐约听到“电子音”,在日语唱腔中这个瑕疵就完全消失了,整个日语唱腔片段表现堪称完美,在不提示的情况下,笔者打包票你100%听不出来这是一位“虚拟歌姬”在演唱,这里我建议大家还是亲耳听一下。

演唱片段听完之后,笔者的综合评价:8/10,小冰也许是最接近人类的一位AI歌手。

二、难以置信的AI:微软如何调教这位年仅5岁的歌唱家?

小冰让人“震惊”的背后,则是堪称黑科技的微软V5版音乐演唱模型。

微软表示微软小冰基于深度神经网络的歌唱模型,已顺利完成V5新版本的研发。新的V5模型实现了重大突破,它使微软小冰第一次能够像人类歌手一样,使用充沛的“中气”来烘托演唱,从而将人工智能虚拟歌声质量提升至新的高度。

从小冰AI唱戏说起:微软“虚拟歌姬”的钱景与困境

由于V5模型过于逼真,在演示时,微软甚至不得不专门提醒现场媒体:“我必须提醒大家听的时候注意,这不是人,没有这么一个人。”

此外,该模型不仅限于优化微软小冰的声音,还支持对任何人类歌手的声线进行学习、模拟和建模,演绎与再现歌手们巅峰状态下的演唱水平。

V5新模型还具有许多其他技术特征。例如实现了多声部的合成技术,使人工智能歌手可以在不同声部间自然切换,用多个声音来源组成新的虚拟歌手等。建模过程中,所需的训练数据量较上一个版本减少70%。从技术角度,新模型可针对任何人声建模,形成丰富多彩的人工智能歌手阵营。

三、钱景与困境:再聪明的AI也要赚钞票

微软是一家商业公司,对利润自然有着明确的追求,但自2014年诞生起,微软尚未公布过小冰诞生5年来的营收情况,不过今天小冰的歌喉的确为她打开了一扇门。

推荐阅读: