语音助手大热,MEMS麦克风开启AI模式掘金
2016-05-31 09:52:22   来源:微迷   评论:0   点击:

人机交互停留在指尖的时间已经很长,自然语言成为下一个趋势的苗头越来越明显。而负责收集语音信息的MEMS麦克风技术也将伴随着这波人工智能风暴升级演进。

人机交互停留在指尖的时间已经很长,自然语言成为下一个趋势的苗头越来越明显。而负责收集语音信息的MEMS麦克风技术也将伴随着这波人工智能风暴升级演进...

在亚马逊Echo取得成功,谷歌宣布推出语音家居设备Google Home,最早引爆消费领域语音识别应用的苹果公司也传出将开源Siri给第三方应用程序等这一系列事件之后,市场对智能语音技术的关注也达到一个新的热度。

据CIRP上月发布的一份报告显示,亚马逊语音智能音响Echo的销售量已经突破300万台。这款被认为是亚马逊试水之作的产品,获得了比预期要好的成绩。Echo的成功很大程度上是源于其出众的语音识别率,远场识音以及语音唤醒功能。

亚马逊在Echo顶部配置了7个MEMS麦克风构成阵列,采用波束成型(Beam-forming)等技术进行降噪语音处理。从而实现远距离识音,整个过程不需要双手操作;且在有风噪、车声、小孩哭闹等较为嘈杂的环境下,也不影响正常使用。MEMS麦克风技术方案的提升与智能化创新,为新一代的智能设备提供了可靠的语音交互体验。本文将阐述,智能语音应用兴起大背景下,MEMS麦克风的发展趋势,以及MEMS麦克风元祖楼氏电子在最近的一次研讨会活动上展示的最新智能语音解决方案。

设备都在智能化,麦克风也一样

前面提到了亚马逊Echo的一大杀手锏,即语音唤醒。这就需要设备在语音交互上是一个一直在线的状态,能够随时倾听用户声音,等待关键词口令的出现来唤醒设备。

于是问题来了。倘若设备一直在收音,无疑会非常耗电,这对于移动设备来说是非常不适合的。因此,我们需要把麦克风变得更加智能。楼氏电子智能语音硬件负责人介绍:“我们将声学活动检测(Acoustic Activity Detector, AAD)单元放到了麦克风里面,实现一个自适应的实时监听模式。这种方式能够使整个系统节能70%。”例如,在一款CSR平台的蓝牙耳机上,使用普通数字麦克风时整个系统的待机电流至少为5 mA,而用智能麦克风时的待机电流约为0.6 mA左右,待机时间从42个小时提升到125个小时。

我们熟知的苹果iPhone的Siri,之前只支持充电状态下的锁屏语音唤醒,直到推出iPhone 6s,Siri才支持低功耗的锁屏语音唤醒。(还记得,去年苹果发布会邀请函上那句 “Hey Siri”吗?)

VQ3.0:让设备听懂“hey Siri.”or“百度一下”...

智能麦克风实现了让设备一直处于低能耗的监听状态。然而我们生活在充满各种嘈杂声音的环境下,汽车的噪音、地铁施工的噪音、街坊邻居的嬉笑声。所以设备需要了解哪些是噪音,哪些是有用的声音。去年楼氏并购了语音解决方案供应商Audience后,为楼氏带来几项重要的技术,其中就包括通过深度神经网络(DNN)的基于机器学习的语音识别。

机器学习是指提供大量不同的声音样本给人工智能DNN系统训练,并能够将这些资料做一些处理,加上噪音、调整频率和速度,产生更多的训练资料,从而可以将识别率提高到非常准确的程度。由于Audience的这种识别只是口令式的触发启动,并不涉及到复杂的信息交流,所以也就不存在语种差异等方面的障碍,只需要将口令的音认准,即完成任务。

据楼氏智能语音软件产品管理副总裁姜正耀透露,目前Voice Wake VQ 3.0语音唤醒方案已经放在联发科X20里面,并且和海思、高通等均有合作。

楼氏日前推出了基于ASIC的第二代智能麦克风Griffin IA210,内置声学检测单元AAD,采用Burst模式解决延时问题,从而能够及时响应。所搭配的低功耗语音DSP处理器eS814,放入了楼氏最新的语音唤醒软件方案VQ3.0。以软硬结合的完整方案实现高性能的语音处理。

实现远场识音、更好的压噪,多麦克风方案是必须

实际上,无论是前面说的机器学习,还是波束成型等压噪技术,都需要多麦克风方案来解决。我们看到,目前的智能手机一般都采用了3 ~ 4颗的MEMS麦克风。例如,iPhone 5s采用了3颗MEMS麦克风,iPhone 6s 系列则用到了4颗。而包括Echo智能音响在内的智能家居设备,要配备6 ~ 7颗才能够满足日常家居需求。楼氏MEMS麦克风业务副总裁Greg Doll表示,通过嵌入更多数量的MEMS麦克风,设备可以获得更好音质与用户体验。

楼氏在研讨会活动上还演示了5米远距离识音IoT方案,包括集成了语音算法的DSP以及3颗高性能麦克风阵列,从现场效果来看,识别率非常高。远场识音效果的好坏实际上是由麦克风压噪能力决定的。

Greg Doll对比展示了,在吵闹环境下,使用同样芯片和同样算法的两台智能手机,采用3颗MEMS麦克风的音质要明显优于采用2颗MEMS麦克风的。

对于麦克风的性能,除了众所周知的SNR(信噪比)外,AOP(声学过载点)也是麦克风重要的质量指标。高SNR能够让设备更好的远距离收音;而AOP是评估麦克风在高声压水平下的性能指标,比如,一些公司庆典上的录音往往有很多破音,就是由于MEMS麦克风AOP不够高的缘故。

这对于使用场景的越来越多样化的智能语音设备来说非常重要。有报告显示,64dB以上的高信噪比MEMS麦克风的市场占有率已经达到50%以上;而对AOP的要求,很多厂商也从之前的120dB上升到130dB以上的基础水平。

语音助手功能推动,MEMS麦克风市场持续成长

IHS最新报告指出,苹果 iPhone将麦克风数量增加至4颗,预期会带动其他厂商跟进;预计2015 ~ 2019年全球MEMS麦克风市场将出现13%幅度成长,销售量将达到60亿颗。分析师指出,开始增加麦克风数量,主要是受到免持通话与Siri、Cortana等语音助手功能所带动。

目前,智能手机市场仍旧是MEMS麦克风厂商主攻的重地,当然,一些当下大热的概念也值得注意。比如,文章前面提到的内置7颗麦克风的亚马逊智能音响Echo,按透露出来的300万销量算,其MEMS麦克风的采购量也能达到2100万颗。另外还有可穿戴、IoT设备以及MEMS麦克风还未涉及的VR领域。

MEMS麦克风龙头的挑战与应对

楼氏依旧是目前全球MEMS麦克风市场的最大市占者。据楼氏透露,其2015年全年的出货量接近16亿颗。但IHS分析指出,由于Goertek、意法半导体与瑞声科技都在奋起直追,成为苹果与其他公司供应商,楼氏的领先幅度正在缩小。

近几年,楼氏不断加大在DSP及算法等智能语音方面的投入,包括去年并购了Audience,开始从一家的声学元器件供应商向音频解决方案供应商转型。

日前,楼氏电子传出将移动消费电子扬声器、受话器产品线出售给正心谷创新资本的消息。笔者就此事联系楼氏方面了解到,楼氏此举是为了专注于MEMS麦克风、智能音频等核心优势业务领域,加强在高级音频解决方案领域的市场领导地位。另外,平衡电枢驱动单元扬声器(俗称动铁)是隶属于特种声学产品部门的另一条产品线,楼氏将继续这些产品的生产。

相关热词搜索:MEMS麦克风 语音助手

上一篇:低调的巨头:苹果、小米都在使用这家公司的MEMS麦克风
下一篇:智能MEMS麦克风市场开始兴起