·语音·
试析智能语音技术在社会各领域的广泛应用
冯涛 陈卫民
安徽科大讯飞信息科技股份有限公司
摘 要 智能语音技术简单来说就是让机器像人一样“能听会说”的技术能带来人机交互的根本性变革具
有广阔的市场前景。在移动互联网时代语音交互正在成为移动互联网时代最重要的信息流入口 国际各主要
IT产业巨头纷纷在该领域加大投入掀起了语音产业发展新的浪潮。
关键词语音呼叫中心移动互联网教育汽车电子
1 引言 建立全新的产业生态价值链。从产业发展态势来看智
能语音技术的应用主要体现在以下几个方面。
语音是文化的基础、民族的象征也是人类沟
通和信息获取最自然、最便捷的手段。智能语音技 2 呼叫中心方向
术简单来说就是让机器像人一样“能听会说”的技
术能带来人机交互的根本性变革不仅具有广阔 随着市场竞争日益激烈各个大型企业越来越重的市场前景还在国家信息安全和民族文化传播方 视客户服务通过电话、手机拨打服务热线仍然是用面具有重要的战略意义一直是各国竞相竞争的焦 户获取信息与服务最普遍方式因此电信运营商、银点和热点。 行、电力、政府等行业和企业纷纷建设呼叫中心致
在移动互联网时代语音交互正在成为移动互 力于提升用户体验、提高运营效率。
联网时代最重要的信息流入口 国际各主要IT产业 不过随着业务量的不断发展呼叫中心领域中巨头纷纷在该领域加大投入掀起了语音产业发展 产品和服务的种类越来越多客户对呼叫中心服务水新的浪潮。 2011年10月苹果公司在其iPhone智能手 平和效率的要求也越来越高。一方面传统的按键式机中率先推出了智能语音助理应用Siri。 Google公司 自助服务渠道使用起来繁琐复杂、效率低下无法满紧随其后在其安卓智能手机操作系统中推出了Google 足客户的需求导致客户对人工服务的请求量不断增N ow智能语音搜索及问答服务。微软公司将语音技术 加。另一方面 目前呼叫中心只能不断地通过增加人作为最新推出的Windows Phone的重要卖点。 工坐席的方式来解决客户的需求增加了呼叫中心的
今天几乎全球每一家手机厂商和消费电子公司都 人力成本。
试图将语音技术融于其移动产品、应用和服务中。智能 因此增强自助服务渠道的能力已经成为呼叫中语音技术正面临产业爆发的关键时点有望以此为基础 心发展的必然趋势也是满足客户需求、提升客户满
42
2013年增刊
意度和降低运营成本的关键。语音识别驱动的自助语 的不断突破和成熟其可用性显著提升且达到实用。音服务给客户带来全新的体验正成为发展趋势。 目前国际IT巨头纷纷投入巨资加大对语音技术市场的
根据Ascent Group Inc.发布的2010年度IVR发展 争夺。如国际上传统的语音技术公司Nuance通过收购战略研究报告中的统计数据表明全球有29%的呼叫 兼并等措施扩大其全球范围内的市场份额 google、微中心应用了语音识别技术同时有14%的企业短期内 软、苹果等也投入大量资源来抢占语音市场。会采用语音识别计划。通过对国内电信级语音识别在 比尔·盖茨先生在全球消费类电子展CES2008上就呼叫中心市场的典型需求分析结合科大讯飞在重点 表示 “将来人机交互最重要的技术将是语音技术、行业的应用调研及试点情况 目前安徽移动、江苏移 触摸技术和视觉技术而其中语音交互技术将带来人动、四川移动、浙江电信等省级运营商以及深发展、 机交互的根本性变革” 。 2007年微软斥资8亿美金收购建设银行、工商银行、中信银行、招商银行等金融机 语音技术厂商TellMe 2011年微软官方数据报告显示构均有明确采取了语音识别技术应用。 TellMe平台每年执行110亿次以上语音识别请求。
目前科大讯飞语音导航系统是基于自然语言理 2009年 Google Voice Search作为面向移动互联网解技术通过与开放式和引导式提示的流程设计相结 的战略性产品推出 2012年6月28日谷歌发布安卓合最终引导客户明确说出自己的业务需求系统自 4.1主打Google Now语音搜索服务。 2012年10月苹动理解客户需求并将客户导航至目标业务节点。客 果发布了iPhone4S的新一代人机交互界面据网络数户进入“语音导航系统”后只需“说”出自己的需 据公司Arieso研究报告称 由于siri的使用 iPhone 4S求即可获得所需的信息与服务改变传统的按键式 的用户平均网络数据使用量两倍于iPhone4。操作使客户充分享受以自然语音作为交互界面的高 2013年初 Nuance表示其领先语音识别技术已应效、便捷、 自然自助语音服务降低交互次数提升 用于中兴新推出的安卓产品。据了解中兴于巴塞罗客户满意度减轻人工服务压力降低运营成本。 那举行的全球移动通信大会上发布了中兴Grand Memo
智能手机为其首款预载了最新车载模式应用的安卓3移动互联网方向 产品让驾驶者可以拨打和接听电话、收听短信、查
询天气以及播放音乐颠覆了人们在车辆中使用移动
在移动互联网时代随着信息化、网络化、智能 电话的传统方式使驾驶者可以在汽车环境下获得更化的深入发展语音合成、语音识别等关键核心技术 加便捷和安全的使用体验。
43
·语音·
2013年4月 Nuance公司正式发布“Voice Ads” 低下并造成一些用户流失。而随着智能语音交互技术语音广告方案基于智能手机和平板电脑等设备上的 的引入通过人类最自然的沟通方式使用语音指令来应用可以简洁方便地创造与消费者对话的语音广告。 轻松获取想要的内容以上情况即可迎刃而解。而Google最新产品Google Glass也集成了语音指令用 随着互联网作为载体的视频内容服务不断发展近户可以通过语音唤醒Google Glass可以通过语音进行 些年来国内外多家厂商都推出了包含有语音交互技术的翻译、拍照、分享图片、查询天气、搜索等操作。 产品。微软在2012年的KeyNote演讲会上演示了在Xbox
2010年科大讯飞率先发布了全球首个提供高质 上如何用语音识别找到想看的影片。 2012年11月14日量中文语音合成、搜索、听写等能力的智能交互平 谷歌发布了Google TV的一个重要升级升级的最重要的台—“讯飞语音云” 。在此基础上华为、联想、小 新功能是谷歌内部称作Google TV 3.0的语音控制功能米等国内所有主流手机厂商长虹、海尔等国内6家 用户可以使用语音指令变换频道、启动应用程序和打开电视机厂商全部采用讯飞语音云开发了智能语音云电 节目单。 2012年国际著名语音技术提供商的美国Nuance视车载、玩具、家电利用讯飞语音云开发出各种语 公司发布了Dragon TV语音交互技术平台。
音交互类终端软件。移动互联网开发者通过讯飞语 Dragon TV平台将提供给那些选择将语音技术融音云开发的应用软件项目超过10,000个覆盖智能手 入到电视、机顶盒和遥控器等应用设备中的设备和服机、平板电脑等智能终端1.5亿台以上。 务商。通过DragonTV用户可以通过说出频道号、电
2012年3月份科大讯飞进一步推出了面向移动 视台名称、电视节目或电影名称就可以实现电视的互联网终端的智能语音助手——“讯飞语点” 为智 语音搜索。电视机厂商方面松下、三星、 LG等厂能手机用户提供能听会说的互联网交互服务核心效 商都正在开发和推出带有语音功能的电视产品。三果和应用水平超过了中文Siri。讯飞语点可以通过语 星在自家电视中引入了SmartHub入口的概念并将语音操作手机打电话、发短信、设置提醒、播放音乐 音作为三星电视上的必备交互方式。用户只要跟着说等通过语音搜索信息查询天气、航班美食等 出语音指令便能使用语音指令切换频道还能访问还可以完成基于模板匹配的语音问答讲个笑话聊 三星Smart Hub和电视机中的各种功能。
聊天等。 2012年12月5日科大讯飞与中国移动联合 在国内 以科大讯飞为代表的智能语音技术企开发的语音助理产品“灵犀”发布正在成为中国移 业为提高智能电视人机交互体验为智能电视研发动的信息入口之一。 了无线智能交互解决方案。国内各大电视厂商的智能
国内的互联网企业也纷纷开始使用智能语音交互 电视已全面配置此类智能语音交互解决方案。截至目技术新浪、腾讯、奇虎360使用讯飞语音云相继开发 前国内主流电视厂商TCL、海信、长虹、康佳、海出语音、搜索等语音交互应用百度、搜狐也相继开 信、创维、海尔、清华同方、联想等厂商均完成了智发了语音搜索类应用软件。智能语音应用呈现出蓬勃 能语音交互系统的设计与集成全面配置了智能语音发展的态势。未来语音在移动互联网时代下将成为 交互技术的产品已正式面向市场投入使用。智能终端的基础服务能力和用户获取信息的入口人 此外为认真落实工信部和安徽省人民政府签署们越来越多地通过语音来控制终端、获取资讯信息。 的《关于共同推进安徽省语音产业发展合作备忘录》
加快推进智能语音技术在智能家电领域的研发和应用推4广电方向 广工信部、安徽省经信委和科大讯飞正积极采取系列
举措进一步推动家电产业智能化、数字化转型升级。
数字电视作为家庭的信息、娱乐中心在人们的
日常生活中占据着不可或缺的地位。但随着数字电视 5 汽车电子方向
内容的不断丰富传统的红外按键数字电视遥控器已
经无法很好的承担起信息咨询、节目频道、应用服务 目前 国内外虽有一些针对车载导航的语音芯快速获取的重任从而导致数字电视应用业务的使用率 片、软件或解决方案提供商将语音技术嵌入到车载设
44
2013年增刊
备中但都是针对一项或多项功能提供语音服务 尚 拥有较强的综合实力和总体技术支持但缺乏语音技未有完整的、成体系的车载语音交互产品。 术方面的专业积累语音技术方面的薄弱成为抑止其
一些国际语音巨头如Google、 Nuance等纷纷抢 产品发展的短板。
占国内车载语音市场且拥有较为成熟的语音识别及 2011年11月广州车展上 基于科大讯飞全球领语音合成技术尤其是在英语语音识别和合成方面有 先智能语音技术而打造的InkaNet智能网络行车系统语深厚的技术积累提供的一些语音解决方案深受欧美 音云驾驶iVoka V1.0版本发布系统颠覆性地实现了国际厂商的欢迎如福特、宝马、奥迪等国际汽车 “语音兴趣点搜索与导航、打电话发短信语音输入、厂商都采用了Nuance提供的VoCon系列产品。 广播音乐语音控制”等丰富的语音交互应用。
2007年福特推出了Sync系统标志着语音技术在 2012年4月北京车展语音云驾驶iVokaV2.0版本汽车上应用的开始其核心就是通过语音控制车载信 发布可以通过语音云驾驶iVoka “交谈”和自由聊息娱乐设备以及移动多媒体设备。第一代的Sync只 天 “人与车”之间能实现智能娱乐和信息互动查是实现简单的语音指令在车载设备中集成嵌入式语 天气、查股票、查实时资讯只要一开口系统就能音识别引擎软件能够完成上百种操作。 2012年Sync 对丰富的娱乐功能提供自动查询与选择。此外还实推出其第二代产品 同样也是嵌入式指令式语音识 现了网络音乐播放与搜索的连接满足爱乐一族的海别但功能强大很多有上千条语音指令。 量需求。语音云驾驶iVoka用智能语音交互科技率
通用汽车的OnStar主要采用无线技术和全球定位 先为中国消费者带来量身定制的人机交互行车体验系统GPS卫星依靠前装式车载通讯设备建立 并为“人与车”的关系作出全新定义引领信息时代一个基于整车业务特性的服务业通过无线通讯解决 下汽车信息创新科技的未来趋势。
方案主动关怀购车客户为驾驶者提供安全、安心 2012年6月苹果公司在其全球开发者大会的随车服务。 OnStar是在2010年才开始推出语音识别 Worldwide Developer Conference上提出了Siri Eyes的功能应用技术路线主要偏向于安防在信息娱乐 Free模式。用户通过USB线缆将iPhone接入车内可方面功能较少所以其开发的语音识别功能也仅仅是 使用电话、短信、查询方向等功能能够通过语音指简单的命令式语音指令识别。 令实现免提控制。用户在驾驶时只需要用声音便可控
G-BOOK是丰田的智能副驾系统将车辆远程诊 制车载设备并且与Siri系统交流。苹果公司宣布已经断、远程维护、被盗追踪、紧急通报、话务员服务等 八大汽车企业合作打造智能语音行车助手标志着多项尖端技术和后台服务通过车载显示器实现人车 与智能语音技术全面进入汽车行业。
交互。 G-BOOK主要功能分为两个大类一是信息咨
询类服务二是救援类服务。其中信息资讯类服务包 6教育方向
括话务员服务、资讯服务、 G路径索引服务和保养通
知服务。而救援类服务包括紧急救援服务、道路救援 根据当前我国教育发展如何实现城乡之间、城服务和防盗追踪服务。 市各区域之间教育均衡发展一直都是教育主管部门亟
部分国内实力较为雄厚的计算机和互联网公司 待解决的核心问题而目前城乡义务教育差异最大的如百度、腾讯等公司也纷纷涉足语音领域并针对 是英语教学 “哑巴英语” 、 “洋泾浜英语”现象非常车载行业推出一些语音产品和解决方案如百度地 普遍。
图、 SOSO地图都嵌入了语音技术依托其雄厚的总 此外边远地区和少数民族区域的普通话教学以体技术和庞大的用户基数 占据了一定数量的手持终 及农村地区的音乐等艺术类学科教学也存在类似由端和车载终端。但由于语音技术包含语音识别、语音 于城乡师资力量差异和教师自身水平参差不齐导致的合成、语音搜索、声纹识别等一系列的较为复杂的技 教育均衡问题。面对这些问题短期内既无法根本改术进入门槛较高需要投入大量的专业研发力量才 变城乡师资状况也很难通过培训等方式显著提高教师能达到市场满意的效果国内计算机和互联网巨头虽 教学水平。 下转第51页
45
2013年增刊
语音交互引擎的接口形式的标准包括接口或协议的 理信息、无线定位等其他组成部分完成通信也是非常函数功能名称、入口/出口参数、输入/输出格式 困难的这些都成了阻碍语音应用大规模发展的绊脚和功能描述等。 石。因此加快制订和研究这类标准已迫在眉睫。
目前语音交互技术厂商和应用厂商定义的企业标 针对在基于VoIP的软交换网络上管理和控制语音准一般属于此类型如微软公司提供的SAPI接口 服务的问题 IETF制定了MRCP媒体资源控制协议。谷歌公司在Android操作系统中提供的语音交互集成 MRCP协议定义了一组规范 用以在IP网络中控制媒接口等。随着语音技术和应用市场需求的持续增大 体服务资源如合成资源、识别资源等来提供合成/在系统的互联接口、内容交换数据格式等方面没有一 识别服务。 MRCP定义了标准的通讯交互协议为采个大家共同遵循的标准其开发难度、维护难度和运 用不同厂商的语音识别和语音合成产品的IVR等开发营难度是非常巨大的而没有一个大家共同遵循的标 商提供便利无需重复的开发过程从而加速了语音准语音合成/识别引擎与电话设备、后台数据库、地 解决方案的实现。
上接第45页
面对上述义务教育均衡发展中的问题科大讯飞 讯飞推出高校版英语四、六级模拟测试与学习平台。利用其国际领先的语音合成、语音识别、 口语评测等 该平台融教学、 自学、测试为一体既可以作为大学核心技术推出了“畅言智能语音教具系统” 、 “畅 校园内的英语听说自主学习平台也可以作为学生口言智慧课堂”教学系统等一系列教学新型产品具有 语、听力机考的自动化模拟测试平台使得高校和学课堂教学内容标准带读、任意中英文的发音朗读、基 生实现自主学习和自主评测。
于口语评测师生互动等功能。 面对海外汉语热潮和汉语国际推广战略的需要
从2008年4月以来在全国多个省市、 自治 科大讯飞推出智能汉语自主学习平台即“普通话模拟区教育主管部门的指导和组织下科大讯飞先后在 测试与学习系统” 该系统被教育部专家誉为“语言安徽、江苏、北京、广东、上海、新疆等20多个省份 学习的革命” 平台利用带读、评测、校正、反馈和开展了规模应用试点工作。 目前该系列产品已在安 指导形成智能交互式汉语学习模式有效解决对外徽、江苏、河北、新疆、内蒙古、山西等多个省市规 师资严重不足、学习者地域时间分散及水平不齐、语模应用累计受益师生近5,000万在英语、语文、 音教材不足等汉语国际推广难题。
音乐及民族地区双语教学中发挥了重要作用相关应 除此以外科大讯飞与国家孔子学院签订了战略用成果还获得中央领导同志的高度评价。 合作协议并和外研社达成战略合作协议共拓海外汉
此外科大讯飞智能口语评测技术已在全国29个省 语教学市场澳门特区政府、韩国CEL公司、新加坡市的普通话等级考试中大规模使用累计测试考生近600 教育等海内外机构也纷纷和讯飞展开相关合作对于万人并已经在国家语委指导下积极开展中小学普通话 推动汉语国际推广起到了重要的推动作用。水平测试的试点工作同时英语口语评测技术也已在 “未来每一部手机都将能听会说未来每一江苏、广东等越来越多的省市中考和高考中推广使用。 台家电都将能听会说未来每一辆汽车都将能听会实践证明利用智能口语评测技术不仅能有效提高考试 说未来每一个玩具都将能听会说。 ” 随着移动效率和公正性还能够很好地发挥以测促学的作用。 互联网时代的加速发展智能语音技术将深入应用于
此外为服务大学校园四、六级英语考试科大 社会生活的方方面面造福亿万百姓生活。
51