基于人工智能的实用语音界面:

一语胜过千图

voice-assistant-with-IOT-icons-1200x800-1

 

我们上一篇博文介绍了两种人工智能模型之间的区别,一种通过语言来理解您的话语意义,另一种则主要抓取您演讲的“要点”。在今天的文章中,我们将深入探讨后者。

 

 
“好的,电脑”


如今,短语触发成了与语音人工智能交互的主要方式,对此我们都非常熟悉。“Hey Siri”和“Hey Alexa”已经成为我们日常生活的一部分。


发明出这种方法的人曾经试图解决的两个问题是:首先,他们需要一种明确的方法来确定用户何时在和人工智能对话;第二,他们需要人工智能持续监听、快速响应,但是这对人工智能的能力要求很高。“好的,计算机”不是一种自然的语言模式,但用它来触发人工智能却是很容易实现;理想情况下,我们应该像对待拥有智慧的人类助手一样与人工智能交谈,并且相信它们会根据语境知道我们何时说话,而不仅仅是当我们明确说出它们的名称时才作回答。发明这种关键词触发机制是为了应对人工智能的现有能力,同时考虑到能效限制。 

 

 

当您说出关键词时,设备背后做出响应的实际是一个有趣的多阶段唤醒系统,以及一系列旨在节省电力的算法和人工智能模型。从一直处于监听状态的语音活动检测器(VAD)开始,任何语音的出现都会触发 KWS 模型,它会检测语音是否为预定义的关键词,例如“Hey Alexa”。只有在这一切都符合设定时,更复杂的处理才会继续。这种级联设计的目的是提高能效——在每个阶段执行对算力要求最低的算法。 

 

“当您只有一把锤子时...”


当前有非常多的可用于识别关键词的神经网络训练方法,但是(至少对我来说)最有趣的无异于基于频谱特征的识别方式。频谱图是音频转换为频域的图片,而人工智能非常擅长对图片进行分类。训练一个能识别猫的人工智能图像分类模型需要大量猫的照片。而训练一个关键词识别模型在概念上是相同的:记录数千个人说出某个短语的实例,计算每个人的频谱图(基本上就是一张图像),然后训练模型以识别这些图像。 

 



这种训练方法有一些局限性,最重要的一点是音频不能很长。频谱图只能在固定时间段内捕获一段音频片段的频率,这会使处理时间过长,同时,响应速度和准确性会下降。这意味着这种方法只适用于两到五秒的短语,不适用于较长的句子。 


图像分类是历史最为悠久、最容易理解的人工智能可实现功能之一,因此利用此类算法很有意义。图像分类的许多特征也可以转化为音频。其中最具可用性的方案是,为神经网络设计多个“主动匹配模式”来取代“被动匹配模式”,如果是这样,就意味着人工智能可以通过迁移学习的方式来学习一个新短语,而不是完全从零开始。 

 
 
“不要只听我的语音,要懂我的意思”


事实证明,一旦您准备以图像的方式处理音频,就可以训练人工智能做更多的事情,而不仅仅是只能接收唤醒词。合理的下一步动作是使用大量命令词来训练模型,这些命令词可用于创建简单的用户界面,例如当您说“导航”来打开汽车的导航系统。 


事实上,我们可以做的不仅仅是发出简单命令。有些模型可以从口语短句中推断出说话者的意图。这些 Speech-to-Intent 模型经过了几十个短语数千种变体的训练,可以自行归纳出以前从未听过的变体。这些模型可用于创建基于语音的用户界面,最终让设备摆脱一成不变的固定短语界面。 

 

实际问题


Apollo4凭借超低功耗、192Mhz 性能、超高效音频外设、2MB MRAM、大容量缓存及紧密耦合内存,该产品非常适合运行 KWS 和 Seech-to-intent 等人工智能模型。模型大小因关键词或语言意图数量而异,但通常可在小于 200KB 的 RAM 环境下运行,每次推理演算的能效大约为 500 uJ。无需担心推理延迟的问题,它远低于短语长度——例如,KWS 大约需要 50 毫秒。 


虽然算法和设备的稳步进展还需在未来一两年内实现,但是基于深度语言模型的语音识别已向前迈进了一大步。 

 

主要优势


正如我们所写的,大多数基于人工智能的语音用户界面都基于工程限制而设计,它们乏善可陈、不关注用户需求,这导致 Alexa 或 Siri 用户不得不一直重复发布简单命令,例如“启动计时器”和“提高音量”。 


总有一天,跟手表对话会变得与人交流一样:您的设备会根据各种语境信息知道您的交流对象是手表还是旁人,而不是像现在这样要求您必须记住几个关键词。它们终将能够理解您的意图,就像一个优秀的私人助理一样。 

 

 

Ambiq的贡献 

 

过去十年,Ambiq®一直致力于研发、推出市场上最具革新性的单片系统(SoC) 解决方案 解决方案。Ambiq 的超低功耗 SoC® 能够增强无线设备和可穿戴设备的处理能力,提高其电池寿命,从而让产品体验更上一个台阶。


通过先进的亚阈功率优化专利技术 (SPOT®) 平台,Ambiq 已助力众多世界知名厂商生产出高性能、低能耗的产品。只需使用锂电池或一次性电池,这些产品便可连续运行几天、几个月、甚至几年。访问https://ambiq.com/wearables以了解更多信息。

 

閱讀更多: 發展歷程 | 文檔 | 新聞稿 | 博客文章