微软表示,其新的文本到语音人工智能可以克隆你的声音,音调和所有,从一个三秒钟的音频片段。它叫VALL-E,我们的心情很复杂。
系统背后的底层技术,微软在 新报作为“神经编解码器语言模型”是复杂的,但是在实践中,使用该系统看起来非常简单。插入音频样本,然后插入一些文本,瞧:听起来真实的讲话。
当然,许多文本语音转换应用已经存在。例如,包括我们在内的大多数新闻网站都提供机器驱动的听写服务,而Siri和Alexa等语音助手非常受欢迎。
然而,大多数现有的语音生成程序需要大量的输入。他们也没有完全弄清楚如何使人工智能的声音听起来特别人性化,主要是因为情感基调和微小的音调变化是令人难以置信的复杂传达。
如果微软的系统真的能在输入端只需要那么一点的情况下提供音调?真的可以在输入端只需要一点的情况下在音调上交付吗?这是件大事。
百感交集
据其创建者称,VALL-E有许多应用程序,包括“零镜头TTS、语音编辑和内容创建”,并补充说OpenAI的GPT-3语言建模系统- a微软根据其 绝对巨额投资 投入了大量资源, 已在工作 变成 多个产品-将是一项特别有用的技术,与新的语音发生器相联合收割机,作为大量生产内容的手段。
如果后者是你可能喜欢的东西,微软确实有道理。从理论上讲,通过结合VALL-E和GPT-3这两种强大的人工智能驱动技术,你可以拼凑出大量听起来真实可信的内容, 难以置信地 快点。
当然,这也是一些伦理上棘手的假设进入画面的地方。
虚假和误导性的声音字节显然是一个问题-毕竟,如果你只需要三秒的音频,理论上你可以使用任何东西,从名人采访到真实的的Instagram故事来模仿某人。
也就是说,微软很小心地解决了这个问题,解释说,它正在克制-至少现在-使代码开源,由于“滥用模型的潜在风险。“他们还声称,他们正在努力整合某种系统,检测音频是否是使用VALL-E创建的,但也许他们应该问问他们在OpenAI的朋友,这真的有多容易。
- OpenAI 推出语音模型全家桶 03-22
- 目前国际上有哪些好用的AI代码编辑器? 03-20
- 教育部部署加强中小学人工智能教育 12-09
- 比特币的价格已突破10万美元 12-07
- 美国当选总统唐纳德·特朗普提名前参议员戴维·珀杜出任美国驻华大使 12-06
- 恭喜中国春节申遗成功 12-05
- Sam Altman表示,明年他最兴奋的事情是实现AGI 11-12
- 借助 AI 之力:不懂编程也能制作游戏 11-12