AI助力语音应用崛起,MEMS麦克风需求旺盛!
2019-01-29 07:19:44   来源:麦姆斯咨询   评论:0   点击:

据麦姆斯咨询介绍,因为各种智能终端产品的外型、应用环境与使用方式不同,所以使用的MEMS麦克风数量和阵列模型也有差异,从麦克风使用数量来看,手机MEMS麦克风需求为2~4颗;智能音箱需求范围较广,依照产品设计和价格定位,MEMS麦克风需求2~8颗不等。

人工智能(AI)技术迅速发展,强化了语音识别能力,促使语音成为重要人机交互接口,应用层面从智能手机拓展到智能音箱、智能电视与车用等终端产品,进而带动市场对麦克风旺盛需求。但是,不同类型终端产品需要的麦克风阵列不尽相同,所以,各大厂商相继推出自己的麦克风阵列解决方案,也成为厂商竞争的一大利器。

语音控制一直被视为是最直观的操控方式,早在2011年苹果便推出iPhone手机语音助理Siri,但当时语音识别不成熟,导致语音助理成为手机娱乐产品。随着人工智能兴起,各大厂商通过自然语言处理(Natural Language Processing)训练机器人类语言逻辑、提升语音识别能力,加上亚马逊、Google、阿里巴巴与小米等厂商通过低价智能音箱打入市场,让消费者快速了解语音交互的应用范畴,包含信息询问、家电控制与购物等,大幅扩大语音应用的可能性,促使语音成为新的人机交互接口。

随着语音应用兴起,各厂商希望将新人机交互接口放到自家终端产品,推升麦克风需求,其中又以基于MEMS技术的麦克风需求成长最高。MEMS麦克风具备较高的可靠性、稳定性与一致性,声音收集品质佳,对语音识别有很大帮助。

据麦姆斯咨询介绍,因为各种智能终端产品的外型、应用环境与使用方式不同,所以使用的MEMS麦克风数量和阵列模型也有差异,从麦克风使用数量来看,手机MEMS麦克风需求为2~4颗;智能音箱需求范围较广,依照产品设计和价格定位,MEMS麦克风需求2~8颗不等。

由于智能音箱市场在2017年快速成长,推升整体MEMS麦克风产值达13.81亿美元,2018年MEMS麦克风进一步拓展到电视和可穿戴设备,产值因此年增11%、达到15亿美元。

汽车是语音应用的另一大市场,通过语音控制能让驾驶人在不移转视线的情况下直觉性操控、提升行车安全,因此车厂开始导入语音控制系统,其MEMS麦克风数量2~6颗不等,甚至采用更多颗麦克风以抑制噪音,有望带动另一波MEMS麦克风需求。

远距离语音识别,多麦克风系统问世

MEMS麦克风阵列随着语音控制需求增加而开始受到重视,语音控制存在的环境相当复杂,若使用时相隔距离较远,收音上就会遇到回音干扰、室内混响与多信号源干扰等问题,导致信噪比(SNR)降低,影响语音识别准确率。

过去手机大多采用单麦克风,能在低噪音、无混响与近距离下,获得信号品质较高的声音,但当环境中有许多声源和环境噪音,例如客厅、厨房与户外等,就无法做到声源分离,进而无法对声源定位和识别。为了远距离语音识别,多麦克风系统应运而生,通过几何结构组合成线型、环型与球型等阵列,数量从2~1000颗不等,目的是为了收集不同空间方向的声音信号来做噪音抑制、混响去除与人声干扰抑制后,方能做到声源侧向,再通过波束成形做声音定位。

近年随着语音识别能力提高,加上厂商希望缩小产品设计并降低成本,因此开始减少MEMS麦克风使用量,一般消费性产品采用的MEMS麦克风阵列型态以线型和环型为主。但线性麦克风阵列仍旧有其限制,仅能做到180度声源定位,无法针对全方位做空间指向性,像是亚马逊第三代Echo Dot就采用4颗麦克风,虽较前一代减少3颗,但仍是采用环型阵列。

1. 线型MEMS麦克风阵列:宽边阵列

电视和笔记本电脑等产品适合采用线性麦克风阵列中的宽边阵列,宽边阵列是指声波方向和麦克风阵列垂直,通过声波相加得出声源方位,且抑制来自阵列侧边的声音,使得前方和后方的响应一致,但该阵列具有轴对称性,无法分辨出前方和后方声源,因此适合声音仅来自前方或后方的产品。通过增加横向MEMS麦克风数量则能更有效抑制侧边声音,借此增加声源定位距离,不过,MEMS麦克风之间若间距过窄,会降低低频衰减、增加低频噪音干扰,但过宽又会造成机构设计困难,降低混迭频率,因此在产品设计上需特别衡量横向麦克风数量与其距离的安排。

以电视为例,其摆放的空间大多在较空旷的客厅,且人往往距离电视较远,因此电视需搭载远场语音识别让用户控制。要强化远场语音识别的能力和距离,需要将数个MEMS麦克风排列成宽边阵列,除了可以抑制电视两侧扬声器所制造的噪音外,也能增强声源定位距离,但远距离容易造成声音在室内不断反射,导致麦克风不断收到重覆信号,造成语音识别困难。

2. 线型MEMS麦克风阵列:端射阵列

针对单方向做声音检测的产品,例如手机、耳机、助听器、智能手环与智能手表等产品,就适合采用线性麦克风阵列中的端射阵列。端射阵列是指声波方向与麦克风阵列平行,当前方比后方先接收到声波时,就能通过麦克风拾取声波的时间差得知声波来源,通过讯号处理抑制其他方向的声音干扰,形成空间指向性。

以可穿戴设备为例,由于产品体积较小,难以通过多个麦克风做横向排列抑制周遭噪音,加上消费者使用可穿戴设备做语音控制时,往往会靠近嘴巴,代表定向声源只有一个方向,而需抑制的噪音源同样是来自嘴巴,并非声源的反方向,因此通过端射阵列设计,能专注收取单一方向的声音。

3. 环型MEMS麦克风阵列

环型MEMS麦克阵列是端射阵列的延伸应用,适用于需要针对全方位做声源定位和识别的产品,在设计上各MEMS麦克风需要等距且均匀分布在圆周上,且排列形成多个端射阵列,以利针对不同角度的声源做降噪、侧向与定位。目前运用最广的语音识别产品智能音箱,即是使用环型MEMS麦克风阵列。

由于智能音箱在使用上不具备方向性,多摆设在客厅、厨房与卧房,会因为环境多样性而使得噪声干扰方式不同,例如在客厅会受到多信号源干扰,在厨房则会受到诸多环境音干扰,在卧房则可能通过智能音箱播放音乐,导致噪音出现,加上用户声音可能来自四面八方,因此需通过环型阵列做波束成形的指向性收音和降噪,提高语音识别准确率。

市场百家争鸣,慎防边缘化危机

随着语音应用兴起,MEMS麦克风阵列成为语音控制系统中第一道关卡,若MEMS麦克风阵列收音状况不佳,将严重影响识别准确率,MEMS麦克风阵列解决方案成为各厂商重点角逐的市场。当前全球最大的MEMS麦克风厂商为楼氏电子(Knowles),市场占有率超过3成,同时也掌握MEMS芯片设计、MEMS麦克风封测与MEMS麦克风阵列模组,备受亚马逊青睐。

不过,并非所有厂商都有一条龙的生产模式,多数厂商涵盖设计到封测,或封测到系统整合厂部分,最后再由系统整合厂将MEMS麦克风模组或阵列出货给品牌厂商。像是意法半导体只提供MEMS芯片设计到MEMS麦克风封测,原因在于MEMS麦克风供应链呈现金字塔状,若意法半导体跨足MEMS麦克风阵列模组,将会与原先的合作厂商竞争;此外,如亚马逊这类提供语音识别授权的业者,也开始进入MEMS麦克风阵列模组市场,将使该市场竞争更加激烈。

歌尔股份和瑞声科技不具备MEMS芯片设计能力,仅提供封测到系统整合,为各类型产品提供不同解决方案,包含智能手机、可穿戴设备与智能音箱等,但随着语音厂商开始切入MEMS麦克风阵列模组市场,该市场竞争更加激烈,因此模组厂商开始向上游发展,像是瑞声科技开始自行开发ASIC,不仅能借此优化自身MEMS麦克风模组,同时也能增加产品毛利。

歌尔股份则通过封装方式将多个传感器集成,使得单一元件拥有多种功能,减少基板使用面积而具有成本优势。此外,部分声学厂商同时提供代工服务,例如歌尔股份、共达电声、奋达科技与美律等,皆提供智能音箱和耳机的代工,优势在于声学相关产品的机构设计是声学厂商强项,且能直接提供声学模组给品牌厂商。

近期语音厂商开始朝麦克风阵列模组发展,原因在于语音厂商希望达到最佳语音识别准确率,若采取非官方认证的麦克风阵列,语音识别可能会出现误差,导致消费者体验不佳。因此,为了让实际收音和训练样本一致,语音识别业者开始推出麦克风阵列解决方案,像是亚马逊、科大讯飞与阿里巴巴等,都提供相关解决方案,此外,语音识别业者可以通过麦克风阵列模组进行语音数据搜集,以优化自家语音识别,同时也能扩大自家生态圈,从而拓展到更多产品,可谓一举数得。

然而,语音识别业者跨入,导致下游MEMS麦克风阵列模组市场开始出现变化,语音识别业者通过软硬整合方式吸引厂商采用,厂商则能直接进入语音识别业者的生态圈中,这对硬件开发商而言,是有相当强的吸引力。

面对语音识别业者的挤压,原先的麦克风阵列模组厂商开始朝上游或代工发展,借此强化自身产品竞争力,否则只能转向中低端市场,最终面临被市场边缘化的风险。

延伸阅读:

《MEMS产业现状-2018版》

《Vesper压电式MEMS麦克风:VM1000》

《声学MEMS和音频解决方案-2017版》

《苹果iPhone X中的MEMS麦克风》

《iPhone 7 Plus中的楼氏MEMS麦克风:专利到产品的全解析》

《医疗、工业和消费类应用的超声波传感技术》

相关热词搜索:MEMS麦克风 人工智能 语音识别

上一篇:Vesper联手simplehuman打造智能垃圾桶,三颗压电式麦克风赋能远场语音识别
下一篇:智能音箱中MEMS麦克风性能测试的实现过程