语音识别语音识别技术能做什么

语音识别时间:2021-07-23 阅读:()

语音识别系统包括哪五个部分？

随着AI快速发展的今天，语音识别也成为众多设备的标配，语音识别开始被越来越多人的关注，国外微软、苹果、谷歌，国内的科大讯飞、思必弛、云知声等厂商都在研发语音识别新策略新算法，似乎人类与语音的自然交互渐行渐近。

语音识别是以语音的研究为对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元。

一套完整的语音识别系统，工作过程分为7步： 1.对语音信号进行分析和处理，除去冗余信息。

2.提取影响语音识别的关键信息和表达语言含义的特征信息。

3.紧扣特征信息，用最小单元识别字词。

4.按照不同语言的各自语法，依照先后次序识别字词。

5.把前后意思当作辅助识别条件，有利于分析和识别。

6.按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

7.结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正

简述语音识别原理。

语音识别的基本过程根据实际中的应用不同，语音识别系统可以分为：特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限bai词汇量的识别。

但无论那种语音识别系统，其基本原理和处理方法都大体类似。

语音识别过程主要包括du语音信号的预处理、特征提取、模式匹配几个部分。

预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。

语音信号识别最重要的一环就是特征参数提取。

提zhi取的特征参数必须满足以下的要求： (1)提取的特征参数能有效地代表语音特征，具有很好的区分dao性； (2)各阶参数之间有良好的独立性； (3)特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。

在训练阶段，将特征参数进行一定的处理后，为每个词条建立一个模型，保存为模板库。

在识别阶段，语音信号经过相同的通道得专到语音特征参数，生成测试模板，与参考模板进行匹配，将匹属配分数最高的参考模板作为识别结果。

同时，还可以在很多先验知识的帮助下，提高识别的准确率。

语音识别是什么意思？

额。

。

就是比如你设定密码，这个密码是认定为你的声音，特定的发音，然后其他声音就无效

或者你设定某人的拨打他电话的快捷方式为你发出某种声音，那么你拿起手机发出这个声音，那么久会拨打他得电话了，

这个看机器识别的能力强弱了，基本这样了~

语音识别技术是哪个专业的

目前中国没有这方面的自主知识产权！学这个方面的主要有电信方面的专业，数字信号处理方向，模糊信号识别，这个领域最有名的就是李开复了，你应该知道吧！他有自己的网站，叫开复学习网，你可以去看看，也可以向他提问！

语音识别技术的基本方法

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。

这样该方法分为两步实现：第一步，分段和标号把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。

然后根据相应声学特性对每个分段给出相近的语音标号第二步，得到词序列根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

模板匹配的方法发展比较成熟，目前已达到了实用阶段。

在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。

常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

1、动态时间规整(DTW) 语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。

所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。

在早期，进行端点检测的主要依据是能量、振幅和过零率。

但效果往往不明显。

60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。

算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。

在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

2、隐马尔可夫法(HMM) 隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。

HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。

HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。

前者通过后者表现出来，但前者的具体参数是不可测的。

人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。

可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

3、矢量量化(VQ) 矢量量化(VectorQuantization)是一种重要的信号压缩方法。

与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。

其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。

量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。

矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。

无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。

人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。

但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

语音识别技术能做什么

智能语音行业具有很高的行业技术壁垒，在全球范围内，只有少数的企业具有竞争实力，在国外，有Nuance、苹果、Google等；在国内，有科大讯飞、凌声芯、思必驰、捷通华声等。

国外语音市场主要以语音识别为主，具有代表性的产品有Nuance的Dragon Dictation，苹果新推出的Siri；而在国内，语音市场主要以语音合成为主，其中科大讯飞及捷通华声基本占领了语音合成市场。

但随着世界范围内，越来越多的语音识别软件的涌现，如语音类搜索应用Dragon Search、语音类听写功能整合软件讯飞口讯、语音类音乐软件Shazam、口语在线学习平台思必驰AIChinese，以及语音控制软件Siri等，语音识别势必会成为智能语音市场的主流。

目前，全球语音技术市场规模超过30亿美元，近年来年增长率保持在25%以上，未来语音识别市场被看好，其中电信行业（VoIP等），移动应用领域（手机、学习机、平板电脑、车载系统等移动设备），都会呈现出爆发式增长。

下面列举几个电信及移动应用领域成功的语音产品/软件。

1、电信行业：电话银行系统电话银行系统(Telephon Barver Server)是近年来国外日益兴起的一种高新技术，它是实现银行现代化经营与管理的基础，它通过电话这种现代化的通信工具把用户与银行紧密相连，使用户不必去银行，无论何时何地，只要通过拨通电话银行的电话号码，就能够得到电话银行提供的其它服务（往来交易查询、申请技术、利率查询等），当银行安装这种系统以后，可使银行提高服务质量，增加客户，为银行带来更好的经济效益。

2、移动应用领域：Siri Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。

Siri可以令iPhone4S变身为一台智能化机器人，Siri可实现：手机读短信、手机介绍餐厅、用手机询问天气、语音设置闹钟等功能。

Siri支持自然语言输入，并能调用系统自带的天气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。

3、生活领域：手机“导游” 这是由思必驰设计师独特构思的一款产品，该产品旨在为您的手机里藏一位 “导游”。

每到一个景区，这位“导游”会先到售票处“报到”，然后只要您告诉他景点名称，他就能为您“滔滔不绝地讲述”景点背后的故事。

除了以上几个行业和代表性产品之外，语音识别技术还能在语音翻译领域、语音游戏领域、语音搜索领域大展拳脚。

展开全文