我们都曾经在电影中看过这样的场景:由于怀疑有窃听设备,主角们运用纸张沟通并不出声响的进行任务。在语音助理应用普及后,许多人也都开始有了被智慧型产品监听的疑虑,以现在来说,「不说话」确实能够应对被监听的可能,只是随着科学家开发出能以高频率声波掌握环境的装置,在未来,即使是在独处不说话的时候,这些产品仍可能知道你的一举一动。许多动物都能通过
回声定位(echolocation)掌握周遭环境状况,过去研究也曾成功让盲人及视力正常者学会回声定位,而在武汉理工大学的研究中,团队则是成功运用麦克风阵列(microphone
array)和演算法让机器也具有相同能耐。在这项已刊载于《应用物理快报》(Applied
Physics
Letters)期刊的研究中,团队打造了一台与笔记型电脑大小差不多的设备,能够发出人耳无法听见的极高频率声波,并使用其中嵌入的数百个麦克风来监听回声,再通过
AI
技术从声音反射中解读人的行为,尽管目前技术仍处于发展阶段,但团队已经取得了一些有希望的初步成果。在初步研究中,团队对
4 名不同的大学生进行了测试,结果发现通过
回声定位,他们可以完全准确的辨识出确定这个人究竟是坐着、站着、走路还是摔倒,虽然这项技术是否适用于更多人、是否能辨别更广泛的行为都还有待确认,但这项研究已经显示出一种辨识人体动作的新技术潜力。就像现在流行的智慧手表一样,团队开发的设备也是收集讯号后通过
电脑进行分析,在设备收集回声之后,演算法会去除一些环境噪声并开始分析数据的模式,Guo
认为如果使用更多的麦克风来获取回声,各种动作间的音调差异将会更为明显,演算法的准确性也将随之提高。团队的麦克风阵列总计共有
256
个麦克风,由于太过笨重且成本过于昂贵,设备并无法大规模生产,团队在尝试提高精确度的同时也在试图在减少麦克风的数量。以目前来说,并未有公司将类似的行为检测技术发展为商业产品,但
Guo 已经对未来的应用有了一些想法。除了能将纳入类似 Amazon Echo
的设备中,让使用者能更轻松关心自己家中的老人,在一些影像监视无法很好辨别的环境,也能够作为影像辨识软件的替代品。Guo
甚至认为基于声音的监控能比影片监控更好的去保护个人隐私,这或许会使人们更愿意在家中接受这种技术。然而其他人并不这么想。纽约研究机构
Data&Society 技术伦理学家 Jake Metcalf
认为,声音监控很容易就能和影像结合,打造出一种更深入的监控形式。就像历史上的许多发明一样,尽管原始开发者希望的是某种正向用途,但他们并无法控制人们最终如何使用。Metcalf
认为,整合监控或许真能挽救一些年迈长者的生命,但也可能被黑客用来「偷听」特定对象的亲密行为。以目前来说,团队还必须进一步开发这种设备,才能将其应用到任何产品中。为了需要缩小硬件并保持功效,团队计划进行更多测试,来确保算法适用于更多族群及环境,随着设备越来越进化,也许有人会为其找到适合的应用方式。只是最终会应用在什么样的环境中,就不得而知了。关注“新海外”
海外资讯一手掌握声明:本页面内容,旨在为满足广大用户的信息需求而免费提供,并非广告服务性信息。页面所载内容,仅供用户参考和借鉴。

概述

科技世界网     发布时间:2017-05-28   
在车联网时代来临的前夕,我们车上已经有
GPS、行车记录仪、蓝牙喇叭等设备,营造更便利的驾驶环境。不过,在上路前免不了的一连串手动输入或设定,却又不是那么方便了,更遑论开车到一半时要进行变更。即使是趁着等红灯的空档,只要还得伸手去屏幕上按来按去,就多少增加了行车风险。于是,为了驾驶人与乘客更舒适安全的的乘车体验,语音助理搭配人工智能将是不可或缺的环节。然而,这样一来我们就得面对另一个难题,便是这些车用语音智能产品,如何能提供优异的语音辨识品质,提高辨识率,让机器准确接收我们的指令呢?想像一下,你载着满车朋友出游,在国道上高速行驶,大家快意谈笑,夹杂引擎运转与风噪声,可能还正好放着一首
Lana Del Rey 的《Burning
Desire》,使你不自觉脚踩油门。这时车内环境噪音绝对高于
70dB,而且还夹杂不同频率的声音。因此,让产品侦测说话的人并接收正确指令,是相当令人头痛的问题。环境噪音对语音通讯品质的影响在语音辨识的流程中,可分为五道程序:包含语音输入及语音讯号处理、语音特征撷取、以声学模型(acousTIc
model)进行语音单元辨识、以语言模型(language
model)来组织语音单元、解码及输出等。目前语音助理的市场上,Microsoft
耕耘最久,Apple、ogle 相继而起,以完善智能手机体验为目标;近期火热的 Amazon
Echo,其语音助理 Alexa
则一开始就以独立的声控家用平台为定位,建立自身生态系。以上这几家语音助理开发商,基本上已经掌握后面四道程序。不过,一旦来到车用领域,产品设备开发商则势必要在语音输入及语音讯号处理的程序上,投注更多心力。车用语音智能产品在车内环境中,与使用者的距离不出
0.5~1 米之内。一般汽车引擎发动后且车窗紧闭的情况下,车内噪音约 60dB
左右。假设使用者发出约 89dB
的声音(即一般说话音量的平均值),此时嘴边的讯噪比为
29dB,足以维持良好的通讯品质。但你不会想要每次下指令还得把脸贴到汽车面板前,因此
0.5~1 米是产品接收语音讯号的合理距离。然而,当说话声音传到 0.5
米时会衰减至 65dB,此时讯噪比只剩 5dB;说话声音到 1 米时则只剩
60dB,与噪音的音量相当,更不用说上述提到高速行驶的环境下,噪音都比发出指令的人声还要大。符合标准的车用通讯品质当面临车联网逐渐完善、语音应用普及化,越来越多车厂要求内建
Android Auto、Apple Carplay 等智能助理,而这些都需要按照 ITU-T
P.1110/P.1100 语音标准来设计,对代工组装或设计加工的车用电子系统厂来说,等于是踏入未知的领域,只能以现有产品不断侦错找出问题,相当耗费时间。因此像是贝尔声学这种第三方语音测试实验室,就会从麦克风模组、连接线材等部分测试,首先帮厂商判断选料是否正确。贝尔声学曾针对一款旧的车用麦克风模组进行测试,该模组配两颗
ECM
电容式类比麦克风,一颗为全指向性,主要用来收环境音,作为背景噪音消除演算法的用途;另一颗为单指向性,收音方向指向驾驶,用来接收驾驶的语音讯号。依据
ITU-T P.1110
测试方式,得出了以下数据:从结果可以看到,麦克风模组离标准建议值太远,感度差了约
30dB,因此讯号必须放大
30dB,才能满足标准建议值。然而,这意味着杂讯也会跟着放大,造成语音品质跟辨识率低落。代表这款麦克风一开始根本就不该出现在车用语音智能产品上。透过贝尔声学的协助,能让厂商快速找到症结点,避免进行过多无意义的测试。由于车子所处的环境噪音会随着车速、路段、路况、空调、乘客及音响等各种因素不断改变,而背景降噪演算法不易解决时时变动且突发性的声音,所以车用语音智能产品可以着重在一些细节,帮助提升通讯品质。例如采用两颗以上的麦克风阵列,以进行较佳的背景降噪演算法;采用讯噪比较高的麦克风,最好是
SNR 58dB
以上。其次,把麦克风置于离驾驶嘴巴最近的位置,如方向盘附近;但同时又要尽量缩短麦克风线材至主机的距离,且加强线材隔绝性,以减少外来的杂讯。最后,则是加上回音消除(Echo
cancellaTIon)、背景降噪(Background noise
reducTIon)以及麦克风自动增益(Mic auto gain
control)等三种功能,帮助提升语音辨识率。

    我们之前介绍过语音识别技术(ASR),随着ASR的逐步成熟,麦克风阵列也逐步得到重用。尤其在汽车里,空间有限,便于声音的近场定位,而麦克风的布线可以很方便和很规则,便于实现成阵列模式,不足的就是车辆运行过程中噪音比较大,当然其噪音还不算很复杂,加入CNN神经网络、深度学习等技术会有很好的除噪效果。

    下面就麦克风阵列技术进行详述。

图片 1

定义

    麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。

    麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。

    早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了21世纪的“声控时代”,这项技术的研究更是取得了长足进展。

    在语音识别中的WER(词识别错误率)、SER(句子识别错误率),以及虚警率(错误触发语音识别)指标,都是麦克风阵列在实现时需要一起考虑的问题。

图片 2

作用及关键技术

语音增强

    语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。

从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。目前基于线性阵列、平面阵列、空间立体阵列的波束形成和降噪技术,加上神经网络、深度学习在各种实际环境中的样本训练,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能。

图片 3

声源定位和测向

    现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。

    声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA(利用各麦克风对于声源的到达时差)技术。声源测向一般在语音唤醒阶段实现,VAD(语音活性检测)技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。

    当然对于汽车来说,各座位固定,人也不能到处移动,所以声源定位比较简单。

图片 4

噪声抑制

    语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,发动机噪声,轮胎噪声,风噪等,这类噪声通常不具有空间指向性,传入车内之后的能量虽然比较大,但还不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。

混响消除

    混响去除的效果很大程度影响了语音识别的效果。当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。

    利用麦克风阵列去混响的主要方法有以下几种: 

(1)基于盲语音增强的方法,即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。 

(2)基于波束形成的方法,通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。

(3)基于逆滤波的方法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。

    对于汽车来说,车内吸音材料很多,一般混响问题倒不是特别大。

图片 5

声源信号提取或分离

    声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。

    利用麦克风阵列做信号的提取和分离主要有以下几种方式: 

(1)基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离; 

(2)基于传统的盲源信号分离的方法进行,主要包括主成分分析和基于独立成分分析的方法。

图片 6

回声抵消

    严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的,在通信的电话机行业,这个叫消侧音。

波束形成

    波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰。

模型匹配

主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套是基于该硬件的匹配语音软件处理,还有基于云端的语音识别的深度学习处理。

原理

    因为汽车的拾音距离都比较近,适合使用近场模型。如下图所示是一个简单的基于均匀线阵的近场模型,声波在传播过程中要发生幅度衰减,衰减因子与传播距离成正比。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元接收信号的幅度差别。下图中,q为麦克风阵元的个数,r为声源到阵列中心(参考点)的距离,α为声源与阵元连线之间的夹角,rn为声源到阵元n的距离,dn为阵元n到参考点的距离,Δd为相邻阵元间距。

图片 7

    下图为均匀圆阵的近场模型,多个麦克风均匀地排列在一个圆周上,就构成了一个麦克风均匀圆阵列
(UCA)。以UCA中心(圆心O)作为参考点,d0
表示信源S与阵列中心的距离,A为信源到UCA平面的垂足,以OA连线所在的半径为参考线,号麦克风所在半径与OA夹角为Δφθ,表示信号到达方向(SO与参考线的夹角),di(i
= 1 ,2 , …, M)表示信源到第个麦克风的距离。 

图片 8

    UCA任意两个相邻麦克风对应的圆周角为2π/
M,M为麦克风的个数,如下图所示:

图片 9

    当信源离麦克风阵列较近时,大家熟知的基于平面波前的远场模型不再适用,必须采用更为精确也更为复杂的基于球面波前的近场模型。声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。信源到麦克风阵列各阵元的距离是不同的,因此声波波前到达各阵元时,幅度也是不同的。近场模型和远场模型最主要的区别在于是否考虑麦克风阵列各阵元因接收信号幅度衰减的不同所带来的影响。对于远场模型,信源到各阵元的距离差与整个传播距离相比非常小,可忽略不计;对于近场模型,信源到各阵元的距离差与整个传播距离相比较大,必须考虑各阵元接收信号的幅度差。

具体的算法既要考虑到麦克风阵列各阵元接收信号的相位差,又得考虑到各阵元接收信号的幅度差,从而实现对声源的二维(或三维)定位。根据声源的方位信息,可以使用波束形成技术获得形成一个或多个波束指向感兴趣的声源,从而更好地去噪,完成对该声源信号的提取和分离。由于可以利用的方位信息是二维的,因此,相应的波束具有二维特性。即除了对某一方向的信号有增强作用外,还能对同一方向、不同距离的信号有选择作用,这对于背景噪声和回声消除是非常有用的。

    下图为一个实际算法的仿真结果,可以看到,声源相对于参考点,它的角度和距离都相当清晰可辨:

图片 10

趋势

声学的非线性处理研究:现在的算法基本忽略了非线性效应,所以当前麦克风阵列的基本原理和模型方面就存在较大的局限,今后在非线性处理方面会有比较深入的研究。

麦克风阵列的小型化:现今的麦克风阵列受制于半波长理论的限制,现在的口径还是较大,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小。

麦克风阵列的低成本化:随着近年来新技术的应用,多麦克风阵列的成本下降将会非常明显。

多人声的处理和识别:现在的麦克风阵列和语音识别还都是单人识别模式,对于人耳的鸡尾酒会效应(人耳可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音),随着深度学习的研究深入和应用普及,这方面应该会有较大突破。

现状

    当前成熟的麦克风阵列的主要包括:讯飞的2麦、4麦和6麦方案,思必驰的6+1麦方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列又分为线形和环形两种主流结构,而2麦的阵列则又有同边和前后两种结构。

从汽车的整体结构来看,选用多麦是可行和必须的,至少6麦以上为好,每个前后每个座位处可以各放置1个,前端中控上可以放置1至2个(司机可多1个,另一个可以单独用来指向性收集噪声用来消噪),中部的扶手置物盒处可以放置1个,这样下来定位、消噪、消回声都能比较好的解决。

结论

总之,语音操作时代已经来临,尤其在于车机方面,已经要成为标配了,但是由于各个应用和底层系统之间的接口问题,比如采用的基础语音识别厂家不一、各个应用的语音命令可能冲突或不支持语音、进而车机整体层面语音命令混乱,从而导致语音操作还不具有统一标准,在实际使用中问题层出不穷。

这个问题可能需要等到各大原车厂意识到之后,统一指定语音识别的底层基础厂商,统一指定上层应用厂商的语音命令,进一步的统一控制和调度各个应用的语音命令之后才可能带来体验很好的语音操作。后装市场还没有哪家有实力和号召力实现这三个统一,所以目前国内还看不到很好用的语音操作车机。

发表评论

电子邮件地址不会被公开。 必填项已用*标注