微软新AI能从三秒音频克隆你的声音
2023-01-17 14:16:58行业资讯

微软表示,其新的文本到语音人工智能可以克隆你的声音,音调和所有,从一个三秒钟的音频片段。它叫VALL-E,我们的心情很复杂。

WechatIMG2865.jpeg

系统背后的底层技术,微软在 新报作为“神经编解码器语言模型”是复杂的,但是在实践中,使用该系统看起来非常简单。插入音频样本,然后插入一些文本,瞧:听起来真实的讲话。

当然,许多文本语音转换应用已经存在。例如,包括我们在内的大多数新闻网站都提供机器驱动的听写服务,而Siri和Alexa等语音助手非常受欢迎。

然而,大多数现有的语音生成程序需要大量的输入。他们也没有完全弄清楚如何使人工智能的声音听起来特别人性化,主要是因为情感基调和微小的音调变化是令人难以置信的复杂传达。

如果微软的系统真的能在输入端只需要那么一点的情况下提供音调?真的可以在输入端只需要一点的情况下在音调上交付吗?这是件大事。

百感交集

据其创建者称,VALL-E有许多应用程序,包括“零镜头TTS、语音编辑和内容创建”,并补充说OpenAI的GPT-3语言建模系统- a微软根据其 绝对巨额投资 投入了大量资源, 已在工作 变成 多个产品-将是一项特别有用的技术,与新的语音发生器相联合收割机,作为大量生产内容的手段。

如果后者是你可能喜欢的东西,微软确实有道理。从理论上讲,通过结合VALL-E和GPT-3这两种强大的人工智能驱动技术,你可以拼凑出大量听起来真实可信的内容, 难以置信地 快点。

当然,这也是一些伦理上棘手的假设进入画面的地方。

虚假和误导性的声音字节显然是一个问题-毕竟,如果你只需要三秒的音频,理论上你可以使用任何东西,从名人采访到真实的的Instagram故事来模仿某人。

也就是说,微软很小心地解决了这个问题,解释说,它正在克制-至少现在-使代码开源,由于“滥用模型的潜在风险。“他们还声称,他们正在努力整合某种系统,检测音频是否是使用VALL-E创建的,但也许他们应该问问他们在OpenAI的朋友,这真的有多容易。