微软新AI能从三秒音频克隆你的声音-北京着陆云科技有限公司

微软新AI能从三秒音频克隆你的声音

2023-01-17 14:16:58行业资讯

微软表示，其新的文本到语音人工智能可以克隆你的声音，音调和所有，从一个三秒钟的音频片段。它叫VALL-E，我们的心情很复杂。

系统背后的底层技术，微软在新报作为“神经编解码器语言模型”是复杂的，但是在实践中，使用该系统看起来非常简单。插入音频样本，然后插入一些文本，瞧：听起来真实的讲话。

当然，许多文本语音转换应用已经存在。例如，包括我们在内的大多数新闻网站都提供机器驱动的听写服务，而Siri和Alexa等语音助手非常受欢迎。

然而，大多数现有的语音生成程序需要大量的输入。他们也没有完全弄清楚如何使人工智能的声音听起来特别人性化，主要是因为情感基调和微小的音调变化是令人难以置信的复杂传达。

如果微软的系统真的能在输入端只需要那么一点的情况下提供音调？真的可以在输入端只需要一点的情况下在音调上交付吗？这是件大事。

百感交集

据其创建者称，VALL-E有许多应用程序，包括“零镜头TTS、语音编辑和内容创建”，并补充说OpenAI的GPT-3语言建模系统- a微软根据其绝对巨额投资投入了大量资源，已在工作变成多个产品-将是一项特别有用的技术，与新的语音发生器相联合收割机，作为大量生产内容的手段。

如果后者是你可能喜欢的东西，微软确实有道理。从理论上讲，通过结合VALL-E和GPT-3这两种强大的人工智能驱动技术，你可以拼凑出大量听起来真实可信的内容，难以置信地快点。

当然，这也是一些伦理上棘手的假设进入画面的地方。

虚假和误导性的声音字节显然是一个问题-毕竟，如果你只需要三秒的音频，理论上你可以使用任何东西，从名人采访到真实的的Instagram故事来模仿某人。

也就是说，微软很小心地解决了这个问题，解释说，它正在克制-至少现在-使代码开源，由于“滥用模型的潜在风险。“他们还声称，他们正在努力整合某种系统，检测音频是否是使用VALL-E创建的，但也许他们应该问问他们在OpenAI的朋友，这真的有多容易。