声纹识别从“芝麻开门”到声纹识别（8分）　　①早在1000多年前成书的《一千零一夜》中，阿里巴巴的故事所描述的

声纹识别时间:2021-05-30 阅读:()

什么是声纹识别？

语音携带的信息非常丰富，大家普遍了解的语音识别是指对语音内容的识别技术，即解决了“给定语音到底说了什么”的问题。

????? 声纹识别简单的说就是判断给定的一句话到底是谁说的技术。

早在上世纪40年代末期就有相关研究者开始进行相关技术的探索，主要应用于军事情报领域。

其理论基础就是“每个人的说话特性都具有其独特的特征”，而决定这种独特特征的主要因素有： 1、声腔的差异，其包括咽喉、鼻腔、口腔以及胸腔等，这些欺诳的形状、尺寸和位置决定了声腔的差异。

因此大家可以感受到，不同的人说话，其声音的频率分布是不同的； 2、发声的操作方式，主要是指唇、口齿、舌头等部位在发声时的相互作用。

????? 一般而言，人在逐渐的学习过程中就会慢慢的形成了自己的声纹特性，正常说话时的声纹状态还是相对稳定的。

但是声纹特性仍然具有易变性，因为影响声纹特性的两个因素非常容易受身体状况、年龄、情绪等情况的干扰，从而导致声纹特性的变化。

例如：人随着年龄的变化声纹特性也在随之变化，尤其是小时候和成年后；人在感冒时由于鼻腔堵塞等问题会明显感觉到声纹特性的不一致等。

当然，人也可以通过刻意的模仿等形成不同的声纹特性。

总而言之，声纹特征是类似于虹膜、指纹等一种具有独特性的生物特征。

????? 声纹识别从任务上来说，主要分为声纹确认技术（1:1）和声纹识别技术（1：N）两类。

声纹确认技术回答的是两句话到底是不是一个人说的问题，而声纹识别技术回答的则是”给定的一句话属于样本库中谁说的”问题。

骨声纹识别是什么

骨声纹识别是利用耳机拾取使用者的声音信息传到手机进行进行声纹处理，实现手机屏幕解锁、调出支付二维码页面（海外版本不支持）等功能。

需要耳机手机同时支持。

华为FreeBuds 2 Pro采用半入耳式设计，搭配人体工学的矩形耳柄，佩戴时的贴合度和稳固性都不错；实测下日常使用不易掉落，长时间佩戴耳朵也不会觉得难受，这部分使用体验我觉得可以给个好评。

不足的是，半入耳式的隔音效果一般，日常办公、出街使用还好，到了地铁车厢里就比较不隔音了。

当然，这应该说是此类耳机的“通病”，厂家优先考虑的是用户佩戴的舒适度。

看看目前市面上主流手机厂商推出的真无线耳机产品，大部分采用的也都是半入耳式设计。

详解声纹识别：如何正确评价小度在最强大

本次最强大脑人机挑战的项目是听声识人，背后的技术背景是声纹识别技术。

实际上声纹识别是一种行为识别技术，是通过测试、采集声音的波形和变化，与登记过的声音模板进行匹配。

该项技术最早由40年代末的贝尔实验室开发，主要用于军事情报领域。

随着技术发展，逐步在法医鉴定、法庭证据等领域得到广泛使用。

声纹识别的理论基础每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

这种特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。

就像指纹一样，每个人的声音也就有独特的特征。

第二个因素是发声器官被操纵的方式，发声器官之间相互作用就会产生清晰的语音。

人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。

? 小度声纹识别技术解析最强大脑中，小度机器人拥有的声纹识别技术，实际上属于动态声音实时检测技术，同时还包括VAD、降噪、去混响等（VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰）。

???? 考虑到挑战场景是从合唱团中找到特点的人声，难点在于如何对语音信号中说话人相关的信息提取和表示，以及如何去区分类似人声的细微差异。

一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。

由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。

目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。

在得到声学特征之后，就是说话人信息的进一步提取。

这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经中国络算法。

通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。

最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。

这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。

（在实际的比赛过程中，21个合唱队员在进行唱歌时，我们通过分别将这21个队员的唱歌声音送入到该模型中，最后得到21个能够表征这些队员信息的模型）。

识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。

（在实际比赛过程中，这就相当于三次测试，每次测试，我们将线人的暗号语音送入到模型中，提取特征，然后再分别与21个模型进行打分比较，得分最高者即是机器认为的最有可能的线人）。

整个过程如下图所示：本次声纹识别的难度可能大家最感兴趣的是，最强人工智能的小度和我们的小选手小宝3题只对了1题。

这里我简单说下影响大家发挥的因素，如下： 1、噪音问题 2、多人唱歌 3、声音记忆遗忘 4、特征迁移排名第一的是噪音问题，包括现场噪音和音乐噪音，这个比上场人脸识别的影响更大（上期存在着光线的影响），音乐本身也会影响机器和选手的判断；第二是多人唱歌，众所周知，声纹的识别主要靠频谱特征，而多人会出现频谱混叠的现象，使得特征分离和识别难度较大；第三，主要是对人类选手的影响，一般的人记忆时间的序列会比空间的要难，尤其是在记忆三串声音序列后，容易出现混淆，这也是为什么doctorWei一再希望小宝多听几遍的原因；最后说下特征迁移，挑战中是通过记忆说话，到辨识唱歌。

而往往人们说话和唱歌声纹是不同的，这就存在一个特征迁移的问题，对应到我们的两位选手需要一定的归纳推理能力。

以上4个因素使得最终结果不是那么完美，但是也正是这些不完美才会让我们在技术上不断进步，不断超越过去的自己

声纹识别的关键问题

声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配(模式识别)。

特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。

与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。

虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。

从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：(1)声学特征(倒频谱)；(2)词法特征(说话人相关的词n-gram，音素n-gram)；(3)韵律特征(利用n-gram描述的基音和能量“姿势”)；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。

根据不同的任务需求，声纹识别还面临一个特征选择或特征选用的问题。

例如，对“信道”信息，在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响，因为我们希望不管说话人用什么信道系统它都可以辨认出来；而在银行交易上，希望用信道信息，即希望信道对说话人识别有较大影响，从而可以剔除录音、模仿等带来的影响。

总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。

当然，这些问题也可以通过模型方法去解决。

对于模式识别，有以下几大类方法： (1)模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)； (2)最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大； (3)神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好； (4)隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好； (5)VQ聚类方法(如LBG)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果； (6)多项式分类器方法：有较高的精度，但模型存储和计算量都比较大； (7)…… 声纹识别需要解决的关键问题还有很多，诸如：短话音问题，能否用很短的语音进行模型训练，而且用很短的时间进行识别，这主要是声音不易获取的应用所需求的；声音模仿(或放录音)问题，要有效地区分开模仿声音(录音)和真正的声音；多说话人情况下目标说话人的有效检出；消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响；消除信道差异和背景噪音带来的影响；……此时需要用到其他一些技术来辅助完成，如去噪、自适应等技术。

对说话人确认，还面临一个两难选择问题。

通常，表征说话人确认系统性能的两个重要参数是错误拒绝率(False Rejection Rate, FRR)和错误接受率(False eptation Rate, FAR)，前者是拒绝真正说话人而造成的错误，后者是接受集外说话人而造成的错误，二者与阈值的设定相关，两者相等的值称为等错率(Equal Error Rate, EER)。

在现有的技术水平下，两者无法同时达到最小，需要调整阈值来满足不同应用的需求，比如在需要“易用性”的情况下，可以让错误拒绝率低一些，此时错误接受率会增加，从而安全性降低；在对“安全性”要求高的情况下，可以让错误接受率低一些，此时错误拒绝率会增加，从而易用性降低。

前者可以概括为“宁错勿漏”，而后者可以“宁漏勿错”。

我们把真正阈值的调整称为“操作点”调整。

好的系统应该允许对操作点的自由调整。

声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。

比如下面举几个例子。

(1)信息领域。

比如在自动总机系统中，把身份证之声纹辨认和关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。

前者用于身份认证，后者用于内容认证。

同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。

(2)银行、证券。

鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。

(3)公安司法。

对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认（同一性鉴定）的旁证。

在监狱亲情电话应用中，通过采集犯人家属的声纹信息，可有效鉴别家属身份的合法性。

在司法社区矫正应用中，通过识别定位手机位置和呼叫对象说话声音的个人特征，系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所，有效地解决人机分离问题。

(4)军队和国防。

声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。

目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。

(5)保安和证件防伪。

如机密场所的门禁系统。

又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。

同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

从“芝麻开门”到声纹识别（8分）　　①早在1000多年前成书的《一千零一夜》中，阿里巴巴的故事所描述的

小题1:被识别人不需要亲自到场???作比较小题1:声纹就是对某个声音进行模型化，得到的声音模型和抽出的特征。

小题1:C 小题1:开放题，答案不唯一。

如：①住宅小区的楼房管理。

②公司内部的局域管理。

③国家机密、军事机密、核设施的管理等。

小题1:联系文章第③段可以提炼答案。

声纹识别身份与其他两种方法相比，最大的优点是被识别人不需要亲自到场。

对说明方法方法的考查，中学阶段重点考查列数据、举例子、打比方、作比较、分类别、下定义等，此处应该用指纹和虹膜识别身份与声纹识别身份进行比较。

小题1:为“声纹”下定义，应该联系第四段进行提炼：“声纹识别时，首先要把各个人的声音模型化，抽出其特征。

然后再把所获得的声音模型化并抽出特征。

”可以概括为：声纹就是对某个声音进行模型化，得到的声音模型和抽出的特征。

小题1:根据全文内容理解正确的一项是（ C?）（2分） A.开头介绍阿里巴巴用喊声打开宝藏之门，表明人类利用声音识别来实现自己要求的理想，但当时人们没有掌握声纹识别技术。

B.人们不愿意使用指纹识别身份的原因是使人在精神上觉得反感，对声纹并不反感。

D.“语音关卡”和“语音观察”不只是开发使用时间不同，“语音观察”正确率更高、优点更突出。

小题1:开放题，答案不唯一。

但要言之有理。

展开全文