OpenAI 和微软通过实施新的语音聊天机器人Vall-E ,继续在人工智能领域与谷歌展开较量。这是一款语音合成软件,只要听三秒就可以模拟出人声。
换句话说,这是微软和 OpenAI 开发的生成式人工智能系统的最新部分,自 2019 年以来,比尔盖茨的巨头通过多年、数十亿美元的合作关系与它联系在一起。
Valle-E是AGI, Artificial General Intelligence的工具,即可以模拟人类智能的“通用”或“强”人工智能。因此,与我们目前所知道的“窄”或“弱”人工智能相反。
后者能够对特定任务做出预设动作,但不能对计划外动作做出反应。近年来,AI 聊天机器人的表现不如其创造者预期,因为它们仅限于执行小任务且错误率高。
开发 Valle-E 是为了与高质量语音合成工具一起使用,并从示例样本创建原始音频。 OpenAI 将 Valle-E 定义为“自然编解码器语言模型”,因为它的操作基于一种称为EnCodec的技术。
这家由Elon Musk和 Sam Altman等人资助的初创公司还拥有 ChatGPT 的创建,这是一种聊天机器人,可以通过记住和学习以前的行为和先例来维持与用户的互动对话。
因此,正如ChatGPT能够自主生成代码一样,Valle-E 也旨在通过收听音频样本来创建离散音频编解码器。
完全像人一样行事。
与用于文本的GPT-3软件和用于图像的Dall-E/Stable Diffusion一起,Valle-E 音频系统完成了 ChatGPT 三联,旨在彻底改变生成 AI领域。
OpenAI 和微软推出的新工具的精妙之处在于 Valle-E 能够识别说话人的音色、音调和情绪基调,并在听完三秒钟后重播。
音频编辑中的应用程序很多,对软件可能被操纵和滥用的批评也很多。毫不奇怪,与 ChatGPT 不同,微软没有提供 Vall-E 的代码供其他人试验。
该软件已经合成的语音样本也可以在 Valle-E 网站上找到。特别是,可以听到多种采样变体,包括: Speaker Prompt、Ground Truth、Baseline 和 Vall-E。
第一个选项是一个音频片段,其语音内涵必须由 AI 再现;在第二个中,人工智能必须提出一个比较的句子。另一方面,第三个是使用当前可用的语音合成技术生成的示例。最后,Vall-E 是微软软件生成的原始语音。
微软和 OpenAI 研究人员似乎意识到了这项技术的潜在危害。事实上,他们在一份公开文件中传达了以下信息:
“由于 Vall-E 可以合成保持说话者身份的语音,这种技术可能会带来与模型使用不当相关的潜在风险,例如欺骗语音识别或冒充某人。”
因此,微软补充说,为了减轻这种风险,可以建立一个检测模型来区分音频片段是否由 Vall-E 合成。对此,两大巨头在进一步的模型开发中也将贯彻微软的人工智能原则。
然而,效仿的风险并不是产生怀疑和恐惧的唯一因素。 Vall-E 使用Meta制作的 LibriLight 音频库进行训练,其中包含60,000小时的英语演讲,主要从公共领域的有声读物中提取,由志愿者录制和阅读。
无论如何,要提高综合能力,Vall-E 需要将学习池扩展到整个互联网。下一步使 ChatGPT 的前身 GPT-3 能够实现令人印象深刻的句子处理、编写和组装功能。
尽管如此,该软件还容易制定暴力、性别歧视和种族歧视的内容,正是因为它处理了从整个网络上不分青红皂白地获取的示例。新的 Vall-E 也可能发生这种情况。
在这种情况下,过滤操作将需要使用大量人力,鉴于影响大型科技公司的裁员浪潮,目前大型数字巨头似乎没有预见到这一点。
正如预期的那样,与微软和 OpenAI 竞争的是谷歌,它将推出Bard ,这是来自DeepMind 的聊天机器人,该公司已被谷歌的Alphabet收购。 Bard 看起来就像是 ChatGPT 的精确副本,但没有更新缺陷。
谷歌 CEO 桑达尔·皮查伊 (Sundar Pichai)介绍了这款新软件,它是一种从网络上获取信息以提供新鲜、高质量回复的工具。他所说的“新鲜”是指不断更新,这是微软的 AI 仍然无法做到的。
简而言之,Bard 的目标是为简单的问题生成详细的答案。它的操作基于LaMDA ,即对话应用程序的语言模型,谷歌自己的一位工程师之前曾将其描述为“有感知力”。
不可否认,谷歌宣布推出巴德是科技爱好者们期待的。毕竟,根据《华尔街日报》的报道,谷歌母公司 Alphabet 在 2021 年在人工智能方面的投资超过310 亿美元,超过任何其他竞争对手。
在 ChatGPT 取得成功后,该公司因此决定召集最优秀的人才:创始人拉里佩奇和谢尔盖布林。无论如何,毫无疑问,人工智能软件是创新领域的宝贵资源。
的确,即使是亚马逊、Meta 和苹果,也肯定不会坐视别人在做什么而不采取行动。然而,虽然竞争在研究方面是一个很好的加速器,但也存在这样的风险,即在最佳人工智能的竞赛中,存在错误、局限性和风险的有缺陷的系统将被使用,而不会过多关注全局。