模型阿里手机系统
阿里手机系统 时间:2021-04-05 阅读:(
)
扫一扫二维码图案,关注我吧「阿里技术」微信公众号「阿里巴巴机器智能」微信公众号本书著作权归阿里巴巴集团所有,未经授权不得进行转载或其他任何形式的二次传播.
|序言ICASSP(InternationalConferenceonAcoustics,Speech,andSignalProcessing)是由IEEE信号处理协会(IEEESignalProcessingSociety)组织的语音研究领域的顶级会议之一,和INTERSPEECH(AnnualConferenceoftheInternationalSpeechCommunicationAssociation)并称为国际语音领域最著名、影响力最大的两个学术会议.
相对于INTERSPEECH主要侧重语音方面的研究和应用,ICASSP会议更加侧重声学、语音信号以及语音建模相关的学术讨论,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会.
在ICASSP2018中,阿里一共发表了5篇论文,分别涵盖语音识别、语音合成以及情感识别三个方向.
在论文《基于深层前馈序列记忆网络,如何将语音合成速度提升四倍》中,作者提出了一种基于深度前馈序列记忆网络的语音合成系统,该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境.
在论文《为了更精确的情感识别,A-LSTM出现了》中,作者针对LSTM时间依赖局限性问题,提出了高级长短期记忆网络(advancedLSTM(A-LSTM))模型,利用线性组合,将若干时间点的本层状态都结合起来,以打破传统LSTM的这种局限性.
在这篇文章中,我们将A-LSTM应用于情感识别中.
实验结果显示,与应用传统LSTM的系统相比,应用了A-LSTM的系统能相对提高5.
5%的识别率.
在论文《为了让机器听懂"长篇大论",阿里工程师构建了新模型》中,作者提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN),进一步地将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型.
该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升.
而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势.
在论文《示范了200句后,我的声音"双胞胎"诞生了!
》中,作者提出了基于线性网络的语音合成说话人自适应算法,该算法对每个说话人学习特定的线性网络,从而获得属于目标说话人的声学模型,通过该算法,使用200句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用1000句训练的说话人相关系统相近的合成效果.
在论文《朋友,我能分享你的喜怒吗阿里语音情感识别框架揭秘》中,作者提出了一套包含多个子系统的复合情感识别框架.
这一框架会深入挖掘输入语音中与情感相关的各个方面的信息,从而提高系统的顽健性.
每年INTERSPEECH或者ICASSP都是语音学术界和工业界的一次盛会,从DeepLearning在2010年左右引入语音领域,到现在几乎所有的论文都直接或者间接以神经网络模型进行尝试,语音技术在最近几年发生了翻天覆地的变化.
近几年贴近实际产品的论文越来越多,语音领域的各大研究机构和知名公司纷纷做出了更实际、更靠谱的工作,相关产品问题也随之暴露和慢慢地被解决,整个语音技术已经逐渐走到了实际应用的阶段,近几年越来越多的语音设备产品的问世和火爆也说明了这一点.
我们将ICASSP2018会议上收录的论文编辑成册,希望通过这个方式,更多的和学术界、工业界同行共同探讨、共同进步,衷心的希望语音技术继续百家争鸣、百花齐放,早日把靠谱的语音交互能力带到各行各业、带进千家万户,真正地帮助到人们的工作和生活!
阿里巴巴高级算法专家雷鸣2019年3月于北京目录基于深度前馈序列记忆网络,如何将语音合成速度提升四倍1研究背景.
1深度前馈序列记忆网络.
2实验.
4结论.
6为了更精确的情感识别,A-LSTM出现了7研究背景.
7高级长短期记忆网络.
8实验.
10结论.
11为了让机器听懂"长篇大论",阿里工程师构建了新模型.
12研究背景.
12FSMN回顾.
13DFSMN介绍.
16LFR-DFSMN声学模型.
16实验结果.
171)英文识别.
172)中文识别.
18示范了200句后,我的声音"双胞胎"诞生了!
20摘要.
20研究背景.
21算法描述.
21实验.
23结论.
25朋友,我能分享你的喜怒吗阿里语音情感识别框架揭秘.
26研究背景.
26复合情感识别框架.
27实验.
29结论.
301基于深度前馈序列记忆网络,如何将语音合成速度提升四倍作者:毕梦霄/MengxiaoBi,卢恒/HengLu,张仕良/ShiliangZhang,雷鸣/MingLei,鄢志杰/ZhijieYan小叽导读:我们提出了一种基于深度前馈序列记忆网络的语音合成系统.
该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境.
研究背景语音合成系统主要分为两类,拼接合成系统和参数合成系统.
其中参数合成系统在引入了神经网络作为模型之后,合成质量和自然度都获得了长足的进步.
另一方面,物联网设备(例如智能音箱和智能电视)的大量普及也对在设备上部署的参数合成系统提出了计算资源的限制和实时率的要求.
本工作引入的深度前馈序列记忆网络可以在保持合成质量的同时,有效降低计算量,提高合成速度.
2我们使用基于双向长短时记忆单元(BLSTM)的统计参数语音合成系统作为基线系统.
与目前主流的统计参数语音合成系统相似,我们提出的基于深度前馈序列记忆网络(DFSMN)的统计参数语音合成系统也是由3个主要部分组成,声音合成器(vocoder),前端模块和后端模块,如上图所示.
我们使用开源工具WORLD作为我们的声音合成器,用来在模型训练时从原始语音波形中提取频谱信息、基频的对数、频带周期特征(BAP)和清浊音标记,也用来在语音合成时完成从声学参数到实际声音的转换.
前端模块用来对输入的文本进行正则化和词法分析,我们把这些语言学特征编码后作为神经网络训练的输入.
后端模块用来建立从输入的语言学特征到声学参数的映射,在我们的系统中,我们使用DFSMN作为后端模块.
深度前馈序列记忆网络紧凑前馈序列记忆网络(cFSMN)作为标准的前馈序列记忆网络(FSMN)的改进版本,在网络结构中引入了低秩矩阵分解,这种改进简化了FSMN,减少了模型的参数量,并加速了模型的训练和预测过程.
3上图给出了cFSMN的结构的图示.
对于神经网络的每一个cFSMN层,计算过程可表示成以下步骤①经过一个线性映射,把上一层的输出映射到一个低维向量②记忆模块执行计算,计算当前帧之前和之后的若干帧和当前帧的低维向量的逐维加权和③把该加权和再经过一个仿射变换和一个非线性函数,得到当前层的输出.
三个步骤可依次表示成如下公式.
与循环神经网络(RNNs,包括BLSTM)类似,通过调整记忆模块的阶数,cFSMN有能力捕捉序列的长程信息.
另一方面,cFSMN可以直接通过反向传播算法(BP)进行训练,与必须使用沿时间反向传播算法(BPTT)进行训练的RNNs相比,训练cFSMN速度更快,且较不容易受到梯度消失的影响.
对cFSMN进一步改进,我们得到了深度前馈序列记忆网络(DFSMN).
DFSMN利用了在各类深度神经网络中被广泛使用的跳跃连接(skip-connections)技术,使得执行反向传播算法的时候,梯度可以绕过非线性变换,即使堆叠了更多DFSMN层,网络也能快速且正确地收敛.
对于DFSMN模型,增加深度的好处有两4个方面.
一方面,更深的网络一般来说具有更强的表征能力,另一方面,增加深度可以间接地增大DFSMN模型预测当前帧的输出时可以利用的上下文长度,这在直观上非常有利于捕捉序列的长程信息.
具体来说,我们把跳跃连接添加到了相邻两层的记忆模块之间,如下面公式所示.
由于DFSMN各层的记忆模块的维数相同,跳跃连接可由恒等变换实现.
我们可以认为DFSMN是一种非常灵活的模型.
当输入序列很短,或者对预测延时要求较高的时候,可以使用较小的记忆模块阶数,在这种情况下只有当前帧附近帧的信息被用来预测当前帧的输出.
而如果输入序列很长,或者在预测延时不是那么重要的场景中,可以使用较大的记忆模块阶数,那么序列的长程信息就能被有效利用和建模,从而有利于提高模型的性能.
除了阶数之外,我们为DFSMN的记忆模块增加了另一个超参数,步长(stride),用来表示记忆模块提取过去或未来帧的信息时,跳过多少相邻的帧.
这是有依据的,因为与语音识别任务相比,语音合成任务相邻帧之间的重合部分甚至更多.
上文已经提到,除了直接增加各层的记忆模块的阶数之外,增加模型的深度也能间接增加预测当前帧的输出时模型可以利用的上下文的长度,上图给出了一个例子.
实验在实验阶段,我们使用的是一个由男性朗读的中文小说数据集.
我们把数据集划分成两部分,其中训练集包括38600句朗读(大约为83小时),验证集包括1400句朗读(大约为3小时).
所有的语音数据采样率都为16k赫兹,每帧5帧长为25毫秒,帧移为5毫秒.
我们使用WORLD声音合成器逐帧提取声学参数,包括60维梅尔倒谱系数,3维基频的对数,11维BAP特征以及1维清浊音标记.
我们使用上述四组特征作为神经网络训练的四个目标,进行多目标训练.
前端模块提取出的语言学特征,共计754维,作为神经网络训练的输入.
我们对比的基线系统是基于一个强大的BLSTM模型,该模型由底层的1个全连接层和上层的3个BLSTM层组成,其中全连接层包含2048个单元,BLSTM层包含2048个记忆单元.
该模型通过沿时间反向传播算法(BPTT)训练,而我们的DFSMN模型通过标准的反向传播算法(BP)训练.
包括基线系统在内,我们的模型均通过逐块模型更新过滤算法(BMUF)在2块GPU上训练.
我们使用多目标帧级别均方误差(MSE)作为训练目标.
所有的DFSMN模型均由底层的若干DFSMN层和上的2个全连接层组成,每个DFSMN层包含2048个结点和512个投影结点,而每个全连接层包含2048个结点.
在上图中,第三列表示该模型由几层DFSMN层和几层全连接层组成,第四列表示该模型DFSMN层的记忆模块的阶数和步长.
由于这是FSMN这一类模型首次应用在语音合成任务中,因此我们的实验从一个深度浅且阶数小的模型,即模型A开始(注意只有模型A的步长为1,因为我们发现步长为2始终稍好于步长为1的相应模型).
从系统A到系统D,我们在固定DFSMN层数为3的同时逐渐增加阶数.
从系统D到系统F,我们在固定阶数和步长为10,10,2,2的同时逐渐增加层数.
从系统F到系统I,我们固定DFSMN层数为10并再次逐渐增加阶数.
在上述一系列实验中,随着DFSMN模型深度和阶数的增加,客观指标逐渐降低(越低越好),这一趋势非常明显,且系统H的客观指标超过了BLSTM基线.
6另一方面,我们也做了平均主观得分(MOS)测试(越高越好),测试结果如上图所示.
主观测试是通过付费众包平台,由40个母语为中文的测试人员完成的.
在主观测试中,每个系统生成了20句集外合成语音,每句合成语音由10个不同的测试人员独立评价.
在平均主观得分的测试结果表明,从系统A到系统E,主观听感自然度逐渐提高,且系统E达到了与BLSTM基线系统一致的水平.
但是,尽管后续系统客观指标持续提高,主观指标只是在系统E得分的上下波动,没有进一步提高.
结论根据上述主客观测试,我们得到的结论是,历史和未来信息各捕捉120帧(600毫秒)是语音合成声学模型建模所需要的上下文长度的上限,更多的上下文信息对合成结果没有直接帮助.
与BLSTM基线系统相比,我们提出的DFSMN系统可以在获得与基线系统一致的主观听感的同时,模型大小只有基线系统的1/4,预测速度则是基线系统的4倍,这使得该系统非常适合于对内存占用和计算效率要求很高的端上产品环境,例如在各类物联网设备上部署.
英文论文地址:https://arxiv.
org/abs/1802.
091947为了更精确的情感识别,A-LSTM出现了作者:陶斐/FeiTao,刘刚/GangLiu小叽导读:长短期记忆网络(LSTM)隐含了这样一个假设,本层的现时状态依赖于前一时刻的状态.
这种"一步"的时间依赖性,可能会限制LSTM对于序列信号动态特性的建模.
本篇论文中,针对这样的一个问题,我们提出了高级长短期记忆网络(advancedLSTM(A-LSTM)),利用线性组合,将若干时间点的本层状态都结合起来,以打破传统LSTM的这种局限性.
在这篇文章中,我们将A-LSTM应用于情感识别中.
实验结果显示,与应用传统LSTM的系统相比,应用了A-LSTM的系统能相对提高5.
5%的识别率.
研究背景LSTM现在被广泛地应用在RNN中.
它促进了RNN在对序列信号建模的应用当中.
LSTM有两个输入,一个来源于前一层,还有一个来源于本层的前一个时刻.
因此,LSTM隐含了这样一个假设,本层的现时状态依赖于前一时刻的状态.
这种"一步"的时间依赖性,可能会限制LSTM对于序列信号动态特性的建模(尤8其对一些时间依赖性在时间轴上跨度比较大的任务).
在这篇论文里,针对这样的一个问题,我们提出了advancedLSTM(A-LSTM),以期打破传统LSTM的这种局限性.
A-LSTM利用线性组合,将若干时间点的本层状态都结合起来,因此不仅可以看到"一步"以前的状态,还可以看到更远以前的历史状态.
在这篇文章中,我们把A-LSTM应用到整句话层级(utterancelevel)上的情感识别任务中.
传统的情感识别依赖于在整句话上提取底端特征(lowleveldescriptors)的统计数据,比如平均值,方差等等.
由于实际应用中,整句话中可能会有一些长静音,或者是一些非语音的声音,这种统计数据就可能不准确.
在这篇论文中,我们使用基于注意力模型(attentionmodel)的加权池化(weightedpooling)递归神经网络(recurrentneuralnetwork)来更有效地提取整句话层级上的特征.
高级长短期记忆网络A-LSTM利用线性组合,将若干时间点的本层状态都结合起来.
这其中的线性组合是利用与注意力模型(attentionmodel)类似的机制进行计算的.
具体公式如下.
Fig1中C'(t)即为前面若干时间状态的线性组合.
这个线性组合以后的时间状态将被输入下一时间点进行更新.
可以想象,每次的更新都不只是针对前一时刻,而是对若干时刻的组合进行更新.
由于这种组合的权重是有注意力模型控制,A-LSTM可以通过学习来自动调节各时间点之间的权重占比.
如果依赖性在时间跨度上比较大,则更远以前的历史状态可能会占相对大的比重;反之,比较近的历史状态会占相对大的比重.
9Fig1TheunrolledA-LSTM加权池化递归神经网络Fig2TheattentionbasedweightedpoolingRNN.
在这篇论文中,我们使用基于注意力模型的加权池化递归神经网络来进行情感识别(见Fig2).
这一神经网络的输入是序列声学信号.
利用注意力模型,我们的神经网络可以自动调整各个时间点上的权重,然后将各个时间点上的输出进行加权平均(加权池化).
加权平均的结果是一个能够表征这一整串序列的表达.
由于注意力模型的存在,这一表达的提取可以包含有效信息,规避无用信息(比如输入序列中中的一些长时间的静音部分).
这就比简单的计算一整个序列的统计数值要更好(比如有opensmile提取的一些底端特征).
为了更好地训练模型,我们在情感识别任务之外还添加了两个辅助任务,说话人识别和性别识别.
我们在这个模型当中使用了A-LSTM来提升系统性能.
10实验在实验阶段,我们使用IEMOCAP数据集中的四类数据(高兴,愤怒,悲伤和普通).
这其中一共有4490句语音文件.
我们随机选取1位男性和1位女性说话人的数据作为测试数据.
其余的数据用来训练(其中的10%的数据用来做验证数据).
我们采用三个衡量指标,分别为无权重平均F-score(MAF),无权重平均精密度(MAP),以及准确率(accuracy).
我们提取了MECC,信号过零率(zerocrossingrate),能量,能量熵,频谱矩心(spectralcentroid),频谱流量(spectralflux),频谱滚边(spectralrolloff),12维彩度向量(chromavector),色度偏差(chromadeviation),谐波比(harmonicratior)以及语音基频,一共36维特征.
对这些序列特征进行整句话层级上的归一化后,将其送入系统进行训练或测试.
在这个实验中,我们的系统有两层神经元层,第一层位全连接层(fullyconnectedlayer),共有256个精馏线性神经元组成(rectifiedlinearunit).
第二层位双向长短期记忆网络(bidirectionalLSTM(BLST)).
两个方向一共有256个神经元.
之后即为基于注意力模型的加权池化层.
最上方为三个柔性最大值传输函数层,分别对应三个任务.
我们给三个任务分配了不同的权重,其中情感识别权重为1,说话人识别权重为0.
3,性别识别为0.
6.
如果是应用A-LSTM,我们就将第二层的BLSTM替换成双向的A-LSTM,其他的所有参数都不变.
这里的A-LSTM选取三个时间点的状态作线性组合,分别为5个时间点前(t-5),3个时间点前(t-3),以及1个时间点前(t-1).
实验结果如下:其中的meanLSTM与A-LSTM比较类似,唯一区别是,当我们为选取的几个时间点的状态作线性组合的时候,不是采用注意力模型,而是简单的做算术平均.
11结论与应用传统LSTM的系统相比,应用了A-LSTM的系统显示出了更好的识别率.
由于加权池化过程是将所有时间点上的输出进行加权平均,因此系统性能的提升只可能是来源于A-LSTM更加灵活的时间依赖性模型,而非其他因素,例如高层看到更多时间点等等.
并且,这一提升的代价只会增加了数百个参数.
原论文地址:https://arxiv.
org/pdf/1710.
10197.
pdf12为了让机器听懂"长篇大论",阿里工程师构建了新模型作者:张仕良、雷鸣、鄢志杰、戴礼荣小叽导读:本研究我们提出了一种改进的前馈序列记忆神经网络结构,称之为深层前馈序列记忆神经网络(DFSMN).
进一步地我们将深层前馈序列记忆神经网络和低帧率(LFR)技术相结合构建了LFR-DFSMN语音识别声学模型.
该模型在大词汇量的英文识别和中文识别任务上都可以取得相比于目前最流行的基于长短时记忆单元的双向循环神经网络(BLSTM)的识别系统显著的性能提升.
而且LFR-DFSMN在训练速度,模型参数量,解码速度,而且模型的延时上相比于BLSTM都具有明显的优势.
研究背景近年来,深度神经网络成为了大词汇量连续语音识别系统中的主流声学模型.
由于语音信号具有很强的长时相关性,因而目前普遍流行的是使用具有长时相关建模的能力的循环神经网络(RNN),例如LSTM以及其变形结构.
循环神经网络虽然具有很强的建模能力,但是其训练通常采用BPTT算法,存在训练速度缓慢和梯度消失问题.
我们之前的工作,提出了一种新颖的非递归的网络结构,13称之为前馈序列记忆神经网络(feedforwardsequentialmemorynetworks,FSMN),可以有效地对信号中的长时相关性进行建模.
相比于循环神经网络,FSMN训练更加高效,而且可以获得更好的性能.
本论文,我们在之前FSMN的相关工作的基础上进一步提出了一种改进的FSMN结构,称之为深层的前馈序列记忆神经网络(Deep-FSMN,DFSMN).
我们通过在FSMN相邻的记忆模块之间添加跳转连接(skipconnections),保证网络高层梯度可以很好地传递给低层,从而使得训练很深的网络不会面临梯度消失的问题.
进一步的,考虑到将DFSMN应用于实际的语音识别建模任务不仅需要考虑模型的性能,而且需要考虑到模型的计算量以及实时性.
针对这个问题,我们提出将DFSMN和低帧率(lowerframerate,LFR)相结合用于加速模型的训练和测试.
同时我们设计了DFSMN的结构,通过调整DFSMN的记忆模块的阶数实现时延的控制,使得基于LFR-DFSMN的声学模型可以被应用到实时的语音识别系统中.
我们在多个大词汇量连续语音识别任务包括英文和中文上验证了DFSMN的性能.
在目前流行的2千小时英文FSH任务上,我们的DFSMN相比于目前主流的BLSTM可以获得绝对1.
5%而且模型参数量更少.
在2万小时的中文数据库上,LFR-DFSMN相比于LFR-LCBLSTM可以获得超过20%的相对性能提升.
而且LFR-DFSMN可以灵活的控制时延,我们发现将时延控制到5帧语音依旧可以获得相比于40帧时延的LFR-LCBLSTM更好的性能.
FSMN回顾最早提出的FSMN的模型结构如图1(a)所示,其本质上是一个前馈全连接神经网络,通过在隐层旁添加一些记忆模块(memoryblock)来对周边的上下文信息进行建模,从而使得模型可以对时序信号的长时相关性进行建模.
FSMN的提出是受到数字信号处理中滤波器设计理论的启发:任何无限响应冲击(InfiniteImpulseResponse,IIR)滤波器可以采用高阶的有限冲击响应(FiniteImpulseResponse,FIR)滤波器进行近似.
从滤波器的角度出发,如图1(c)所示的RNN模型的循环层就可以看作如图1(d)的一阶IIR滤波器.
而FSMN采用的采用如图1(b)所示的记忆模块可以看作是一个高阶的FIR滤波14器.
从而FSMN也可以像RNN一样有效的对信号的长时相关性进行建模,同时由于FIR滤波器相比于IIR滤波器更加稳定,因而FSMN相比于RNN训练上会更加简单和稳定.
图1.
FSMN模型结构以及和RNN的对比根据记忆模块编码系数的选择,可以分为:1)标量FSMN(sFSMN);2)矢量FSMN(vFSMN).
sFSMN和vFSMN顾名思义就是分别使用标量和矢量作为记忆模块的编码系数.
sFSMN和vFSMN记忆模块的表达分别如下公式:以上的FSMN只考虑了历史信息对当前时刻的影响,我们可以称之为单向的FSMN.
当我们同时考虑历史信息以及未来信息对当前时刻的影响时,我们可以将单向的FSMN进行扩展得到双向的FSMN.
双向的sFSMN和vFSMN记忆模块的编码公式如下:15这里和分别代表回看(look-back)的阶数和向前看(look-ahead)的阶数.
我们可以通过增大阶数,也可以通过在多个隐层添加记忆模块来增强FSMN对长时相关性的建模能力.
图2.
cFSMN结构框图FSMN相比于FNN,需要将记忆模块的输出作为下一个隐层的额外输入,这样就会引入额外的模型参数.
隐层包含的节点越多,则引入的参数越多.
我们通过结合矩阵低秩分解(Low-rankmatrixfactorization)的思路,提出了一种改进的FSMN结构,称之为简洁的FSMN(CompactFSMN,cFSMN).
如图2是一个第个隐层包含记忆模块的cFSMN的结构框图.
对于cFSMN,通过在网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上.
进一步的,cFSMN对记忆模块的编码公式进行了一些改变,通过将当前时刻的输出显式的添加到记忆模块的表达中,从而只需要将记忆模块的表达作为下一层的输入.
这样可以有效的减少模型的参数量,加快网络的训练.
具体的,单向和双向的cFSMN记忆模块的公式表达分别如下:16DFSMN介绍图3.
Deep-FSMN(DFSMN)模型结构框图如图3是我们进一步提出的Deep-FSMN(DFSMN)的网络结构框图,其中左边第一个方框代表输入层,右边最后一个方框代表输出层.
我们通过在cFSMN的记忆模块(红色框框表示)之间添加跳转连接(skipconnection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里.
这样在训练过程中,高层记忆模块的梯度会直接赋值给低层的记忆模块,从而可以克服由于网络的深度造成的梯度消失问题,使得可以稳定的训练深层的网络.
我们对记忆模块的表达也进行了一些修改,通过借鉴扩张(dilation)卷积[3]的思路,在记忆模块中引入一些步幅(stride)因子,具体的计算公式如下:其中表示第层记忆模块第t个时刻的输出.
和分别表示历史和未来时刻的编码步幅因子,例如则表示对历史信息进行编码时每隔一个时刻取一个值作为输入.
这样在相同的阶数的情况下可以看到更远的历史,从而可以更加有效的对长时相关性进行建模.
对于实时的语音识别系统我们可以通过灵活的设置未来阶数来控制模型的时延,在极端情况下,当我们将每个记忆模块的未来阶数都设置为0,则我们可以实现无时延的一个声学模型.
对于一些任务,我们可以忍受一定的时延,我们可以设置小一些的未来阶数.
LFR-DFSMN声学模型17目前的声学模型,输入的是每帧语音信号提取的声学特征,每帧语音的时长通常为10ms,对于每个输入的语音帧信号会有相对应的一个输出目标.
最近有研究提出一种低帧率(LowFrameRate,LFR)建模方案:通过将相邻时刻的语音帧进行绑定作为输入,去预测这些语音帧的目标输出得到的一个平均输出目标.
具体实验中可以实现三帧(或更多帧)拼接而不损失模型的性能.
从而可以将输入和输出减少到原来的三分之一甚至更多,可以极大地提升语音识别系统服务时声学得分的计算以及解码的效率.
我们结合LFR和以上提出的DFSMN,构建了如图4的基于LFR-DFSMN的语音识别声学模型,经过多组实验我们最终确定了采用一个包含10层DFSMN层+2层DNN的DFSMN作为声学模型,输入输出则采用LFR,将帧率降低到原来的三分之一.
图4.
LFR-DFSMN声学模型结构框图实验结果1)英文识别我们在2千小时的英文FSH任务上验证所提出的DFSMN模型.
我们首先验证了DFSMN的网络深度对性能的影响,我们分别验证了DFSMN包含6,8,10,1218个DFSMN层的情况.
最终模型的识别性能如下表.
通过增加网络的深度我们可以获得一个明显的性能提升.
我们也和一些主流的声学模型进行了对比,结果如下表.
从结果看DFSMN相比于目前最流行的BLSTM不仅参数量更少,而且性能上可以获得1.
5%的绝对性能提升.
2)中文识别关于中文识别任务,我们首先在5000小时任务上进行实验.
我们分别验证了采用绑定的音素状态(CD-State)和绑定的音素(CD-Phone)作为输出层建模单元.
关于声学模型我们对比了时延可控的BLSTM(LCBLSTM),cFSMN以及DFSMN.
对于LFR模型,我们采用CD-Phone作为建模单元.
详细的实验结果如下表:19对于基线LCBSLTM,采用LFR相比于传统的单帧预测在性能上相近,优点在效率可以提升3倍.
而采用LFR的cFSMN,相比于传统的单帧预测不仅在效率上可以获得相应提升,而且可以获得更好的性能.
这主要是LFR一定程度上破坏了输入信号的时序性,而BLSTM的记忆机制对时序性更加的敏感.
进一步的我们探索了网络深度对性能的影响,对于之前的cFSMN网络,当把网络深度加深到10层,会出现一定的性能下降.
而对于我们最新提出来的DFSMN,10层的网络相比于8层依旧可以获得性能提升.
最终相比于基线的LFR-LCBLSTM模型,我们可以获得超过20%的相对性能提升.
下表我们对比了LFR-DFSMN和LFR-LCBLSTM的训练时间,以及解码的实时因子(RTF).
从结果上看我们可以将训练速度提升3倍,同时可以将实时因子降低到原来的接近三分之一.
对于语音识别系统,另外一个需要考虑的因素是模型的延迟问题.
原始的BLSTM需要等接收整句话后才能得到输出用于解码.
LCBLSTM是目前的一种改进结构,可以将解码的时延进行控制,目前采用的LFR-LCBLSTM的时延帧数是40帧.
对于DFSMN,时延的帧数可以功过设计记忆模块的滤波器阶数进行灵活控制.
最终当只有5帧延时时,LFR-DFSMN相比于LFR-LCBLSTM依然可以获得更好的性能.
论文原文:https://arxiv.
org/abs/1803.
0503020示范了200句后,我的声音"双胞胎"诞生了!
作者:黄智颖、卢恒、雷鸣、鄢志杰小叽导读:语音合成的主要目的是让机器将文字变为人可以听得懂的声音.
针对某个人,如果希望机器比较好地发出他的声音,那么需要录制这个人大量(几千到几万句话不等)的音频.
很多时候,用户没有时间也没有精力录制这么多的音频.
说话人自适应算法就是用来解决这个问题的,它利用用户少量的音频来学习,并能够发出令人满意的声音.
使用本文提出的语音合成中的说话人自适应技术,用户只需要录制200句话,便能够获得与1000句话普通的语音合成系统相当的效果.
摘要说话人自适应算法利用说话人少量语料来建立说话人自适应语音合成系统,该系统能够合成令人满意的语音.
在本文中,我们提出了基于线性网络的语音合成说话人自适应算法.
该算法对每个说话人学习特定的线性网络,从而获得属于目标说话人的声学模型.
通过该算法,使用200句目标说话人的自适应语料训练的说话人自适应系统能够获得和使用1000句训练的说话人相关系统相近的合成效果.
21研究背景对于一个目标说话人,如果他(她)拥有充足的训练数据,那么我们便可以建立一个说话人相关的声学模型,基于该声学模型的系统称之为说话人相关的语音合成系统.
利用该系统,我们能够合成和目标说话人声音很像的语音.
但是,大多数时候,目标说话人没有充足的数据,这使得合成出来的语音效果不太理想.
利用说话人自适应算法,能够基于比较有限的数据来获得较好的语音合成系统,该类算法节省了大量的录音、转录和检查工作,使得建立新的声音的代价变得很小.
本文中,我们提出了基于线性网络(LinearNetwork,LN)的语音合成说话人自适应算法.
该算法通过在源说话人声学模型的层间插入线性网络,然后利用目标说话人的数据来更新该线性网络和神经网络的输出层,从而能够获得属于目标说话人的声学模型.
另外,一种基于低秩分解(low-rankplusdiagonal,LRPD)的模型压缩算法被应用于线性网络.
实验发现,当数据量较少的时候,通过LRPD来移除一些冗余的参数,从而能够使得系统合成的声音更加稳定.
算法描述本文中,源说话人声学模型是一个基于多任务(multi-task)DNN-BLSTM的声学模型,见Fig.
1左侧.
声学模型的输入为语音学特征,输出为声学特征.
声学特征包括梅尔倒谱系数等.
实验证明,在声学模型的底层使用深层神经网络(DeepNeuralNetwork,DNN)可以获得更好的底层特征,并且收敛速度上相比于不使用DNN更快.
在输出层上,不同的声学特征使用各自的输出层,它们仅共享声学模型的隐层.
基于线性网络的自适应算法首先被提出于语音识别领域,它的系统结构见Fig.
1右侧.
根据线性网络插入的位置不同,它可以被分为线性输入网络(LinearInputNetwork,LIN)、线性隐层网络(LinearHiddenNetwork,LHN)和线性输出网络(LinearOutputNetwork,LON).
22当线性网络被插入到声学模型的第和层之间时,线性网络的输出为:其中,表示第层的输出,表示说话人相关的线性变换矩阵,表示说话人相关的偏置矢量.
模型训练流程如下:1)将线性网络插入至源说话人声学模型特定位置.
此时,被初始化为单位矩阵,的所有元素都初始化为0.
2)利用目标说话人的数据来更新线性网络中的参数和,直到收敛.
此时,保持声学模型中的其它层参数固定不变.
最后,获得目标说话人的声学模型.
23LRPD算法主要被应用于线性网络的模型压缩.
在语音识别中,基于LRPD的线性网络(LRPD-LN)能够减少普通线性网络(Full-LN)82%的模型参数量,并且性能几乎不出现下降.
LRPD算法利用对角矩阵和低秩矩阵来表达Full-LN中的:其中,和分别表示和的矩阵,为对角矩阵.
可以看到,Full-LN中的模型参数量为,LRPD-LN的模型参数量为.
通过实验证明,由于LRPD-LN所需要更新的参数量特别少,因此在目标说话人数据量有限的情况下能够获得较Full-LN更加稳定的合成声音.
实验本文提出的算法,在中文数据集上进行实验,该数据集包含3个说话人,每个说话人有5000句话,时长约5h.
数据集中语音的采样率为16k,特征提取中的窗长和窗移分别为25ms和5ms.
分别用A-male、B-female和C-female来命名这三个说话人.
本实验中,源说话人声学模型训练过程所使用的句子数为5000.
为了对比不同句子数目下的合成效果,目标说话人的自适应数据集对应的句子数从50到1000不等.
在自适应数据集之外,我们取200句话作为开发集,取20句话作为测试集(用于主观打分).
为了分析性别对自适应效果的影响,进行了三对源说话人-目标说话人之间的实验:女生-女生、男生-女生和女生-男生.
另外,使用客观度量和主观测听两种方式来衡量模型的性能.
客观度量主要包括:Mel-CepstralDistortion(MCD)、rootmeansquarederror(RMSE)ofF0、unvoiced/voiced(U/V)predictionerrors和开发集的MSE.
主观测听主要是对系统合成的声音样本进行自然度和相似度上的打分——meanopinionscore(MOS).
24以女生-女生(C-female–B-female)为例,Fig.
3显示了不同自适应句子数目和客观度量之间的关系曲线图.
其中,SD表示说话人相关系统,OL表示只更新源说话人声学模型输出层的说话人自适应系统,OL+Full-LN和OL+LRPD-LN分别表示基于Full-LN和LRPD-LN的说话人自适应系统.
根据Fig.
3,随着训练/自适应句子数的增加,所有系统间的客观度量趋于相近.
对比SD和另外三个自适应系统,自适应系统的性能在相同句子数目下要更优.
另外,OL+LRPD-LN和OL+Full-LN相比于OL均出现性能上的跳变(提升),说明只更新输出层而不对其他层进行更新不能够得到较好的自适应效果.
同时,当自适应句子数较少的时候,OL+Full-LN在客观性能上要差于OL+LRPD-LN,这是因为OL+Full-LN引入太多的参数量,出现过拟合问题.
反之,在句子数多的时候OL+Full-LN在客观性能上要优于OL+LRPD-LN,此时OL+LRPD-LN由于参数量少,出现欠拟合问题.
25Fig.
4上对比了不同系统间的自然度和相似度.
随着句子数的减少,SD系统的性能出现急剧下降,OL+LRPD-LN相比于SD和OL+Full-LN要更加稳定.
与客观度量一致,在相同句子数下,OL+Full-LN和OL+LRPD-LN在性能上要优于SD.
并且,OL+Full-LN和OL+LRPD-LN在200句话的性能和SD在1000句话时的性能相近.
与客观度量不同,OL+LRPD-LN在500句以下的时候性能上就优于OL+Full-LN.
这是因为过拟合导致合成出来的声音不稳定(虽然客观度量更优)声音的可懂度下降导致的.
由此,我们依然可以得到相同的结论:当自适应句子数较少的时候,过拟合使得OL+Full-LN的性能变差.
结论本文中,基于线性网络的说话人自适应算法被应用于语音合成领域,基于LRPD的模型压缩算法能够提高声音的稳定性.
通过三对不同的源说话人-目标说话人的实验,我们发现,当自适应句子数目非常少的时候,LRPD能够提升声音的稳定性.
另外,通过提出的算法,使用200句目标说话人的训练语料训练的说话人自适应系统能够获得和使用1000句训练的说话人相关系统相近的效果.
原文链接:https://arxiv.
org/abs/1803.
0244526朋友,我能分享你的喜怒吗阿里语音情感识别框架揭秘作者:陶斐、刘刚、赵情恩小叽导读:情感识别(即,识别开心,忧伤等)现在愈来愈受到人们的关注,因为它可以提升人机交互界面的用户体验,进而提升产品的用户粘性,并在心理医疗健康方面等具有独特价值.
基于语音的情感识别尤其具有现实意义,因为基于语音的人机交互界面具有相对较低的硬件要求.
但是,在现实中,周围环境中存在着许多噪声,这些噪声将会降低系统的识别性能.
在本文中我们提出了一套包含多个子系统的复合情感识别框架.
这一框架会深入挖掘输入语音中与情感相关的各个方面的信息,从而提高系统的顽健性.
研究背景在现实生活中,基于语音的人工智能系统处在复杂的场景当中,因而会面临各种各样的挑战.
对于情感识别来说,主要的挑战来自于两个方面:1.
周围存在背景噪声,因而传统的特征提取,比如在整句话层面上提取统计参数的方法将受到严重干扰;272.
用户说话的方式比较随意,不能如实验室中那样很好地控制输入语音,有时候用户会有一些发出一些非语音的声音,比如哭声,笑声,咳嗽声等,这些声音有些与情感有关,有些则完全无关.
面对这两个挑战,我们提出了一套复合情感识别框架.
这套框架会对底层和高层特征进行识别,因此可以对一些背景噪声有一定的顽健性;同时这套框架也会利用注意力模型(attentionmodel)学习特征序列中重要时间点的特征,以及利用语音中的文本信息对情感信息进行分类——这些机制可以有效避免用户的非语音声音或者长静音对识别的干扰.
复合情感识别框架在本文中,我们提出了一套复合的情感识别框架.
这一框架由若干子系统组合而成,其中包括基于整句话(utterancelevel)底层特征(lowleveldescriptor)的识别系统,基于整句话高层表述的识别系统,基于序列特征的识别系统,以及基于语义信息的识别系统(见Fig1).
Fig1Theproposedensembleframeworkforemotionrecognition其中,基于整句话底层特征的识别系统为一个深度神经网络,采用多任务训练(multitasklearning)方式进行训练(见Fig2),采用的特征为从opensmile提取的Interspeech2010LLD特征集.
在这个神经网络中,我们在trunk部分有两层隐层(hiddenlayer)(每层4096个神经元),在branch部分,每个任务有一层隐层(1024神经元),之后有一层柔性最大激活函数28(softmax).
其中我们的神经元均使用精馏线性单元(rectifiedlinearunit).
Fig2ThemultitasklearningDNN基于整句话高层表述的识别系统也是采用一个深度神经网络,同样也是采用多任务训练方式进行训练.
采用的特征为200维iVector(从一个由4000小时语音训练的语音识别(ASR)系统中提取).
这里我们采用的网络结构与底层特征识别系统的神经网络相同,唯一的区别为,这个一个系统在trunk部分每一层只有1024个神经元.
基于序列特征的子系统采用递归神经网络,对输入序列进行建模,在递归神经网络上采用基于attentionmodel的加权池化层(weightedpooling)(见Fig3),将输入的一个序列提取成一个高层表述.
基于这个高层表述进行分类.
这一子系统也采用多任务训练方式进行训练.
这一递归网络与上述神经网络的大致结构相似,区别为在trunk部分,我们使用了RNN,并且在RNN上利用attentionbasedweightedpoolinglayer来提取高端表述(highlevelrepresentation).
29Fig3TheattentionbasedweightedpoolingRNN上述三个子系统中的多任务训练,我们采用三个任务,情感识别为主任务(权重为1),说话人识别(权重为0.
3)和性别识别(权重为0.
6)为辅助任务.
在多任务训练中,由于系统可以看到更多的任务信息,可以更好地检视输入的特征,因此可以更好地训练神经网络.
除了上述三个子系统外,还有一个子系统是基于文本的子系统.
该子系统采用支持向量机(supportvectormachine),使用了从语音识别系统中获取的文本.
这一系列子系统的识别结果会通过线性相加组合起来,从而得到最后的结果.
实验我们在多模情感识别竞赛2017数据集(MEC2017)上测试这一套框架.
MEC2017数据集是采集自影视作品,其中包含了许多背景噪声(汽车噪声,工厂噪声等等),以及说话人的非语音声音(哭声、笑声等等).
其中各类情感的分布如下.
30根据MEC2017的建议,我们采用无权重平均F-score(MAF)和准确率作为我们的衡量标准.
考虑到数据库中的数据不平衡性,我们主要关注MAF指标.
实验中,我们采用两套系统作为参照系统,一套是MEC2017建议的randomforest系统,还有一套是利用Interspeech2017特征集搭建DNN的情感识别系统.
具体实验结果如下:由实验结果可以看到,我们提出的这一套框架,可以远远超过参照系统(分别增加了11.
9%和7.
8%准确率).
即使四个子系统的识别率参差不齐,最后组合之后的结果依然超过了所有的子系统,可以推测这个过程中全面检视输入信息,可以很有效的提高识别准确率和系统顽健性.
结论我们将这一套系统应用于中文的影视作品数据库上.
之所以应用到这一数据库上,是因为影视作品中的场景比较接近现实生活.
结果显示,我们的系统31可以全面超越现有的基于深度学习的前沿系统.
这一成功,可以说明我们的这一套框架可以有助于在现实中实现情感识别.
论文地址:https://arxiv.
org/abs/1803.
01122.
pdf32扫一扫二维码图案,关注我吧「阿里技术」微信公众号「阿里巴巴机器智能」微信公众号本书著作权归阿里巴巴集团所有,未经授权不得进行转载或其他任何形式的二次传播.
HostKvm是一家成立于2013年的国外主机服务商,主要提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。本月商家针对全场VPS主机提供8折优惠码,优惠后美国洛杉矶VPS月付5.2美元起。下面列出几款不同机房VPS主机产品配置信息。套餐:美国US-Plan0CPU:1cores内存:1GB硬...
HostKvm是一家成立于2013年的国外VPS服务商,产品基于KVM架构,数据中心包括日本、新加坡、韩国、美国、俄罗斯、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。本月,商家旗下俄罗斯、新加坡、美国、香港等节点带宽进行了大幅度升级,俄罗斯机房国内电信/联通直连,CN2线路,150Mbps(原来30Mbps)带宽起,目前俄罗斯和香港高防节点5折骨折码继续优惠中...
已经有一段时间没有分享阿里云服务商的促销活动,主要原因在于他们以前的促销都仅限新用户,而且我们大部分人都已经有过账户基本上促销活动和我们无缘。即便老用户可选新产品购买,也是比较配置较高的,所以就懒得分享。这不看到有阿里云金秋活动,有不错的促销活动可以允许产品新购。即便我们是老用户,但是比如你没有购买过他们轻量服务器,也是可以享受优惠活动的。这次轻量服务器在金秋活动中力度折扣比较大,2G5M配置年付...
阿里手机系统为你推荐
地图应用看卫星地图哪个手机软件最好。同ip站点查询如何查看几个站是不是同IPhaole018.com为什么www.haole008.com在我这里打不开啊,是不是haole008换新的地址了?www.haole012.comhttp://fj.qq.com/news/wm/wm012.htm 这个链接的视频的 第3分20秒开始的 背景音乐 是什么?125xx.com115xx.com是什么意思www.mywife.ccMywife-No 00357 MANAMI SAITO种子下载地址有么?求好心人给www.se222se.comhttp://www.qqvip222.com/16668.com香港最快开奖现场直播今晚开广告法中国的广告法有哪些。sodu.tw台湾的可以看小说的网站
国外vps主机 老域名全部失效请记好新域名 adman yardvps webhostingpad 海外服务器 godaddy续费优惠码 全站静态化 softbank邮箱 metalink 789电视剧 空间登入 云营销系统 lamp架构 中国联通宽带测试 服务器硬件配置 广州服务器托管 asp空间 香港博客 japanese50m咸熟 更多