关键的外卖
- 当您无法从真实的事情中讲述计算机生成的演讲时,这一天很快就会逼近。
- 谷歌最近揭开了LAMDA,这是一个可以允许更多自然对话的模型。
- 产生人类的言论也需要大量的处理能力。
现在,何时与电脑交谈时,很容易告诉,这可能很快就会因艾美最近的进步而变化。
谷歌最近揭开了拉德达,该公司声称的实验模型可以提高其对话AI助手的能力,并允许更自然的对话。拉达旨在最终通常谈论几乎任何事情,没有任何事先培训。
这是越来越多的AI项目之一,可以让您想知道您是否正在与人类交谈。
“我的估计是,在未来12个月内,用户将开始暴露在一起并习惯于这些新的,更多的情感声音,”詹姆斯卡普兰,首席执行官Meetkai,会话AI虚拟语音助理和搜索引擎,在电子邮件采访中说。
“一旦发生这种情况,今天的合成演讲会对用户今天初影为我们的发言来声音。”
具有性格的语音助手
谷歌的LAMDA建于谷歌研究中发明的神经网络架构。与其他语言模型不同,谷歌的LAMDA培训了真正的对话。
谷歌的Eli Collins的谈话是谈话的开放性本质的一部分挑战是谈话的开放性质在博客帖子中写道。
“与电视节目的朋友聊天可能会讨论展示在争论展示之前的国家,然后在争论关于该国最好的区域美食的辩论之前,”他补充说。
事情与机器人语音快速发展。埃里克·罗森布鲁姆,一个管理伙伴清远企业投资于对话AI,表示计算机辅助演讲中的一些最根本问题几乎解决了。
例如,理解语音中的准确率在诸如通过的转录等的服务中已经非常高软件otter.ai.或由此采取的医疗票据deep。
“但是,下一个边疆,更困难,”他补充道。
“保留对上下文的理解,这是一个超越自然语言处理的问题,以及与人类互动的计算机需要了解沮丧,愤怒,不耐烦等的同情。这两个问题都在工作,但两者都是远远令人满意。“
神经网络是关键
为了产生类似生活的声音,公司正在使用像深神经网络的技术,一种机器学习形式,通过层,Matt Muldoon,北美总统在ReadSpeaker,该公司开发语音软件的文本,在电子邮件采访中说。
“这些层改进了信号,将其分类为更复杂的分类,”他补充道。“结果是合成语音,听起来像是人类的。”
正在开发的另一种技术是韵律转移Muldoon Muldoon表示,这涉及将一个文本与语音声音的声音与另一个文本的声音相结合。还有转移学习,这减少了产生新神经文本到语音语音所需的培训数据量。
Kaplan表示,生产人类的言论也需要大量的加工能力。公司正在开发神经加速器芯片,这些芯片是与常规处理器配合使用的自定义模块。
“下一阶段,将这些芯片放入较小的硬件中,因为当时需要对愿景进行愿景时,它已经为摄像机完成了较小的硬件。”他补充说。“在耳机本身上有这种类型的计算能力之前,它不会很长。”
开发AI驱动讲话的一个挑战是每个人都以不同的方式讨论,所以计算机往往很难了解我们。
“思考格鲁吉亚与波士顿与北达科他队的口音,以及英语是否是你的主要语言,”莫妮卡德马,在语音搜索分析上工作mdinc.,在电子邮件中说。“在全球范围内思考,为德国,中国和印度的所有地区做这件事的昂贵,但这并不意味着它没有或无法完成。”