文法kuaidial源

kuaidial源  时间:2021-01-31  阅读:()

密级:公开对话系统中的自然语言理解研究(申请清华大学工学博士学位论文)培养单位:清华大学计算机科学与技术系专业:计算机应用技术研究生:燕鹏举指导教师:蔡莲红教授副指导教师:郑方副教授二零零二年四月对话系统中的自然语言理解研究燕鹏举请将中文封面左边沿涂上胶水后ResearchonNaturalLanguageUnderstandinginDialogueSystemsDissertationSubmittedtoTsinghuaUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofEngineeringByPengjuYAN(ComputerApplicationTechnology)DissertationSupervisor:ProfessorLian-hongCAIAssociateSupervisor:AssociateProfessorFangZHENGApril,2002独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果.
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得清华大学或其它教育机构的学位或证书而使用过的材料.
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意.
签名:日期:关于论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文.
(保密的论文在解密后应遵守此规定)签名:导师签名:日期:I摘要针对口语对话系统中语言理解任务的若干难点,深入研究基于规则的方法,在规则的描述能力、文法语义分析及对话语境对语音识别的指导诸方面进行了研究,提出了如下方法、策略:1.
上下文无关增强文法.
针对口语对话系统中用户语音的自发性、随意性,以及语音识别错误对语言理解带来的困难,提出通过提高规则的描述能力来解决这些问题的思路:在传统上下文无关文法的基础上,附加规则类型这一增强特性.
新增规则类型包括:跳跃型——允许在规则右部各符号之间插入一定量的其它符号;长程型——允许规则右部各符号之间的关联距离比跳跃型更大;无序型——规则右部只给出可以出现的符号组合,与符号的实际出现顺序无关;交叉型——右部符号的组合只受占位不冲突这一限制.
2.
文法与语义合一分析的语言理解框架.
针对汉语中通用句法文法不易归纳的特点,提出以基于语义符号的语义文法直接描述输入词串.
改造传统的自底向上文法分析算法,使其具备跨成分归结的能力;从语义结构特点的角度归纳歧义消解的经验性准则,和提高算法效率的分级分析策略.
文法分析直接得到语义树,以语义解释函数树的机制进行从分析树到语义框架的转换.
算法与领域知识脱离,以提高语言理解的可定制化和可移植性.
对特定领域内100句口语句子的实验表明,利用该方法可以达到78%的理解成功率,表现出针对口语语言的分析能力.
3.
对话语境知识在语音识别中的应用.
针对目前的各种语音识别方法在对话系统中性能不佳的现实,为改善对话系统的整体性能,提出了对话语境知识在识别中应用的框架模型:利用对话管理器给出期待焦点信息,确定对应焦点下的活动词表、活动规则集,生成相应的识别自动机.
该方法用语义知识指导识别时的搜索过程,并在识别的同时进行片段理解.
在特定期待焦点的约束之外提供使其它语义单元得以通过的自由度.
该识别框架具有良好的可扩展性,将诸如规则、统计和经验等知识融入一体.
实验结果表明,在整体错误率下降约10%的前提下,相关语义单元的漏检率有超过40%的下降.
关键词:规则方法,自然语言理解,语音识别,口语对话系统.
IAbstractInordertoovercomesomedifficultiesinthetaskofNaturalLanguageUnderstanding(NLU)inSpokenDialogueSystems(SDSs),somenewmethodsandnewstrategies,whicharefoundedonrule-basedapproaches,areproposedinthisdissertationinvolvingthedescriptionpoweroftherules,theparsetothegrammar,theanalyzeonsemantics,andthedialoguecontextualguidanceonspeechrecognition:1.
Anenhancedkindofcontextfreegrammarisproposed.
Thespontaneousnessandcasualnessoftheutterancesindialoguesystems,plustherecognitionerrors,makethegreatchallengestorule-basedNLUmethods.
AnenhancedpropertyofruletypeisattachedtoeachruleinaconventionalContextFreeGrammar(CFG)todistinguishfromeachotherintermsofthedescriptionpower.
Sub-constituents,canbeinsertedbetweenbysomeothersinaby-passingrule,canbegroupedtogetherinalong-spanningrulemuchmorefreelythaninaby-passingone,areallowedtoappearinadifferentorderfromwhichspecifiedintherulewhiletheruleisaup-messingone,andcanbecombinedtogetherwheretheiroccupationsoverlapwitheachotherornot.
2.
ANLUframeworkwithunifiedanalysisongrammarandsemanticsisintroduced.
ThedefectofthatthesyntacticgrammarofChineseishardtobuildupconsidered,itarisethatsemanticsymbolsareusedstraightforwardlyinthegrammartodescribetheinputwordstring.
Thetraditionalbottom-upparsingalgorithmisimprovedtoadmitthehop-likereduction,andtheempiricaldisambiguationcriteriaandthelayeredparsingschemaarededucedfromthesemanticstructuresobserved.
Semantictreesareproducedbytheparsingprocessandareconvertedtosemanticframestroughthemechanismofsemanticinterpretfunctiontrees.
Theseparationofthealgorithmandthedomainspecificknowledgeyieldscustomabilityandportability.
Experimentson100sentencesindomainachievetheunderstandsuccessrateof78%,andshowstherobustnessagainstthedisturbanceofspokenlanguagephenomena.
3.
Theuseofdialoguecontextinthespeechrecognitionisdiscussed.
Inordertoimprovetherecognitionperformance,arecognitionframeworkwiththedialoguecontextembeddedinisproposed,whichincludesthefocusexpectedgivenbydialoguemanager,theactivelexicon/rulesdeterminedbyunderstander,andtherecognitionautomatapassedtotherecognizer.
Recognizingandsegmentalunderstandingareperformedsimultaneouslyinthismanner.
Thefreeness,thatallowsthesemanticunitsbeyondthefocusexpectedpassthrough,isalsointroduced.
Thisframeworkshowsgreatextensibilitybecauseitunifiesrules,statisticsandempiricalknowledgeasawhole.
Experimentalresultsshowsthatthesyllableerrorrate(SER)reductionoffocusconcernedsemanticunitsachievesover40%,whiletheSERreductionofalltheunitsisabout10%.
Keywords:Rule-BasedApproach,NaturalLanguageUnderstanding,SpeechRecognition,SpokenDialogueSystemI目录第一章绪论11.
1.
对话系统研究现状11.
1.
1.
宿主平台21.
1.
2.
语料收集与分析31.
1.
3.
声学识别策略41.
1.
4.
语言理解及语义分析51.
1.
5.
对话模型、对话策略及对话管理61.
1.
6.
体系结构81.
2.
对话系统中存在的几个主要问题91.
3.
研究工作概述101.
3.
1.
研究目标101.
3.
2.
研究思路与研究内容101.
3.
3.
论文组织12第二章基于规则的自然语言理解方法132.
1.
文法132.
1.
1.
文法及语言的定义132.
1.
2.
形式语言体系142.
1.
3.
文法的作用162.
1.
4.
文法的撰写172.
2.
文法分析器182.
2.
1.
自顶向下的分析算法182.
2.
2.
自底向上的分析算法202.
2.
3.
两种方法的结合242.
3.
语义分析242.
4.
小结26第三章基于语义类的上下文无关增强文法273.
1.
问题的提出283.
1.
1.
汉语的特点283.
1.
2.
口语的特点293.
1.
3.
识别输出的特点30II3.
2.
上下文无关增强文法313.
2.
1.
文法的定义313.
2.
2.
增强属性的归纳323.
2.
3.
规则类型的形式化定义333.
3.
语义文法353.
3.
1.
语义结构353.
3.
2.
语义文法中符号的归纳373.
3.
3.
语义文法编写中规则类型的使用393.
4.
小结41第四章文法与语义的合一分析424.
1.
增强的部分分析算法424.
1.
1.
要解决的问题424.
1.
2.
基于图表分析算法424.
1.
3.
Marionette——改进的ChartParser部分分析器.
434.
1.
4.
歧义消解474.
2.
有关算法效率的两个问题514.
2.
1.
算法时间复杂度分析514.
2.
2.
索引机制524.
2.
3.
分级分析544.
2.
4.
算法流程总图574.
3.
语义分析574.
3.
1.
语义表示574.
3.
2.
语义函数树584.
4.
小结594.
4.
1.
鲁棒的语言理解框架594.
4.
2.
语言理解框架评价60第五章对话语境指导下的语音识别625.
1.
几种语音识别框架及其在对话系统中的应用625.
1.
1.
孤立词识别625.
1.
2.
关键词检出635.
1.
3.
连续语音识别665.
2.
对话语境知识对识别的指导作用675.
2.
1.
对话主导策略67III5.
2.
2.
高层知识对声学识别的指导作用685.
3.
对话语境知识的指导机制695.
4.
对话语境知识对识别指导的实现715.
4.
1.
期待焦点的演进715.
4.
2.
焦点下的活动规则集725.
4.
3.
有限状态网络735.
4.
4.
定制识别器755.
5.
实验结果与分析785.
5.
1.
实验设计785.
5.
2.
实验结果805.
5.
3.
结果分析805.
6.
小结82第六章系统构建836.
1.
系统描述836.
2.
语言理解框架的可定制化836.
3.
体系结构856.
4.
演示平台876.
5.
对话例896.
6.
小结90第七章总结与展望917.
1.
论文工作总结917.
2.
下一步工作展望92参考文献94附录AEasyFlight关键词表.
101附录BEasyFlight语义文法105致谢110个人简历111I插图索引图1.
1对话系统模块与模型略图.
2图2.
1一个简单的文法-GRAMMAR2.
1[ALLEN95]17图2.
2句子的树型表示[ALLEN95]17图2.
3一个简单的文法-GRAMMAR2.
2及词典[ALLEN95]19图2.
4自顶向下分析过程例[ALLEN95]20图2.
5CHARTPARSER中弧扩展算法-ALGORITHM2.
1[ALLEN95]22图2.
6自底向上的CHARTPARSER算法-ALGORITHM2.
2[ALLEN95]22图2.
7一个简单的文法-GRAMMAR2.
3及词典[ALLEN95]22图2.
8输入串"THELARGECAN"的分析中间结果[ALLEN95]23图2.
9CHARTPARSER整句分析示意图[ALLEN95]23图2.
10语义网络及框架示例.
25图3.
1上下文无关增强文法编写的形式化描述.
32图3.
2航班信息系统中语义的树型表示36图4.
1MARIONETTE算法总流程-ALGORITHM4.
1.
44图4.
2MARIONETTE中的起始弧生成过程-ALGORITHM4.
2.
44图4.
3MARIONETTE中弧扩展算法-ALGORITHM4.
3.
45图4.
4MARIONETTE分析特性示例46图4.
5几条特殊规则.
47图4.
6整体与局部歧义例.
48图4.
7替换性歧义例.
48图4.
8多模式歧义例.
49图4.
9规则静态索引.
53图4.
10成分动态索引.
53图4.
11规则优先级例图56图4.
12MARIONETTE分析器流程总图57图4.
13EASYFLIGHT领域内语义表示方法.
58图4.
14语句中含"垃圾"的的分析例.
61图5.
1关键词加权识别框架[ZHENG97]63II图5.
2一个有限状态网络关键词识别框架.
65图5.
3对话语境作用图.
69图5.
4对话管理器中以对话状态为节点的自动机70图5.
5期待焦点对识别的指导.
70图5.
6主题树结构示意图.
71图5.
7期待焦点演进的趋动机制.
72图5.
8规则类别标注例.
73图5.
9活动规则集例.
74图5.
10非确定有限自动机.
74图5.
11有限状态网络识别器77图5.
12"X点钟"期待焦点下FSN识别器实例78图5.
13nullFocus下FSN识别器.
79图6.
1初始分析结果和概率有限状态网络.
84图6.
2定制化的语言理解框架.
85图6.
3EASYFLIGHT系统结构略图.
86图6.
4EASYFLIGHT运行时结构.
86图6.
5EASYFLIGHT演示平台.
87图6.
6一个对话例子(片段)89表格索引表3.
1关键词类及其关键词例表.
38表4.
1竞争成分的打分及优选策略.
51表4.
2理解错误的原因.
61表5.
1滑动窗实验结果.
64表5.
2整句音节识别率结果.
79表5.
3分类语义单元音节识别率结果.
80第一章绪论1第一章绪论计算机技术发展的最终目的在于应用于日常生活和商业服务,使之更加方便与高效,以提高整个社会的运转效率.
在语音信号处理、语音识别、语音合成及语言理解各项技术得到迅猛发展的今天,自然语言对话系统(SpokenDialogueSystems)具有很高的研究价值,其应用也必将带来很好的社会、经济效益.
目前一批研究或实际系统已经出现,常见的比如旅游信息查询、电话客票服务和天气预报信息查询等.
基于这样的现实,作者所在的课题组从一九九九年起,开始对话系统方面的研究与实现,目前有两个系统原型正在研究中,一个是"校园导航系统EasyNav",另一个是"航班信息系统EasyFlight",本论文涉及后一个系统.
构建一个完善的对话系统,需要应用语音信号处理、语音识别、语言理解、知识表示、对话管理和文语转换等多项技术.
目前,根据已知文献,大词表连续语音识别、孤立词识别、关键词检出等各单项识别技术已经有了比较好的实验与应用结果,基于规则的语言理解技术也逐渐趋向成熟.
但在对话系统中,如何有效地利用对话语境等高层知识,较好地解决自然交谈条件下识别及理解所面对的困难,成为对话系统研究领域的重点及难点.
本章的内容安排如下:首先简述对话系统诸方面的研究现状,然后介绍对话系统条件下语音识别及语言理解所面对的困难,最后是论文的研究工作整体描述.
1.
1.
对话系统研究现状对话系统,可以简单地定义为:以语音为输入输出接口,通过与用户进行交谈,实现自动信息(或其它)服务的系统.
我们可以画出图1.
1所示的对话系统结构略图,其中含有四个主要功能部件,即语音识别器、语言理解器、对话管理器和语音合成器.
目前,无论在国内还是国外,语音合成的研究已经比较成熟,其主要挑战在于使生成的语音输出更加自然与生动,但一般而言,对话系统目标的达成对语音合成自然度的依赖不是必须的,因而语音识别、语言理解和对话管理是对话系统研究人员所所关注的焦点.
第一章绪论2语音识别的目的是把人的语音转换成文字,这是许多语音系统的核心与主轴,比如听写机、语音命令系统和对话系统.
跟其它系统不同的是,对话系统中的语音识别,其识别输出要付诸于语言理解,因此它的识别错误对语言理解的干扰是其它系统无需考虑的.
语言理解得到语义表示后,对话管理要根据上下文语境、历史信息等,进行综合分析,以确定用户的意图,根据需要查询后台数据库,并组织应答语句等.
可以看出,对话系统中这几个核心部件的关系比较紧密.
语音词网格语义框架语音应答文本语音识别器语言理解器对话管理器语音合成器声学模型语言模型领域知识对话模型句法/语义规则图1.
1对话系统模块与模型略图系统的运行往往还依赖于一些模型或数据库,比如是声学模型、语言模型、句法/语义规则、领域(domainspecific)知识、对话模型和领域数据库等.
本节将从几个不同的方面对对话系统当前的研究现状做一个简要综述.

1.
1.
1.
宿主平台根据应用的不同,对话系统可以构建于不同的平台,有着不同的表现形式.

嵌入式,例:Huguninetal[Hugunin97]设计了一个基于MicrosoftExcel软件的嵌入式电子表格系统,该系统采用人机对话的方式,进行电子表格的自动设计与填充.
与使用keyboard/mouse的手工输入方式和简单屏蔽keyboard/mouse的语音命令方式相比,语音对话的方式提高了效率,而且使用户更加轻松.
基于WWW界面式,例:Issar在[Issar97]中描述了一个用于在WWW页面上填充表格的语音接口,它使用Javaapplet作用户接口,用plug-in程序的方式处理语音I/O,识别器是Sphinx-II,语言分析使用一个frame-based的语义分析器.
Issar认为,这种基于表格的语音接口是探索分布式自然语言系统的重要一步.

第一章绪论3机器人式,例:Jijo-2[Asoh99]是一个移动式办公室机器人,它通过语音对话的方式,完成人员查询、引路、接通特定人的电话或给特定人发email等任务.
这种系统面临的主要问题是实际使用环境中的噪音,以及保证实时作出响应.

随着大量公有信息的出现(订票、信息查询等),基于电话的对话系统越来越多.
比如欧洲的自动铁路信息研究计划[Os99],包括法语、荷兰语、意大利语等若干系统,ElsdenOsetal对各系统进行了横向比较,这有助于找到不同方法的优缺点和提高研究水平.
基于电话的系统,应用前景广阔,有很好的社会效益和经济效益;其技术挑战主要在于电话信道的窄带特性、信道之间的差异以及现实世界(realworld)中的噪音问题.
1.
1.
2.
语料收集与分析语料收集大体分为两种方式,一是从现实世界收集领域内真实的对话语料,或来源于人人对话,或来源于人机对话;二是用模拟的方法,让实验人员觉得是与机器对话,获得在这种情况下的"伪"语料.
Belletal[Bell99]实现了一个对话系统,安装于Sotckholm的街头,行人被邀请来与系统对话.
在此他们使用了一个具有动画表现形式的人格化主持人(agent)August来与用户交互,交互的内容被保存下来以作分析之用.
系统收集了六个月时间内的语料,在人工标注后达到一万条自发语句(spontaneousutterances),这些语料被用于分析用户的交谈策略,系统界面设计对系统的影响,以及用户在交谈过程中用词和表达方式的调整.
这种利用已有的系统自动收集语料的方法,能得到用户在面对机器时的真实反应,比如词汇量,遣词造句的方式,重复方式,纠正方式等等,对系统的改进会有很大的帮助,而且不会起到负作用.
缺点是必须先有一个原始系统,这对长期研究计划是合适的,但在一些特定情况下不太现实.
另一种真实语料来源于真实的领域内人人对话.
ATIS[Price90](AirTravelInformationSystem)是美国高级研究工程处ARPA(AdvancedResearchProjectsAgency)语言及语音计划中的一个开放任务,许多系统和研究的开展都使用该任务内的语料,比如SiuandMeng[Siu99].
使用公用语料的好处在于可以集中力量使得语料库完整、全面、可靠并系统化,节省时间和资金花费,并且可使研究者之间的工作有更强的可比性.
第一章绪论4Wizard-of-Oz模拟[Pirker99][Ammicht99]是一种在研究人机交互特性的方面很流行的语料收集方法,其原理是设计一个模拟的人机交互工具,使用一个对用户(subject/实验人员)不可见的操作人员,在一个图形界面(GUI)的帮助下,对用户说的话作出反应,以语音合成的方式输出应答.
在这种情况下,用户以为是与智能的机器打交道,因而相应的语料对系统的设计也有很高的参考价值.

1.
1.
3.
声学识别策略声学识别策略包括声学参数(阈值)、词表及搜索方法的选择等等.
由于对话状态不是一成不变的,因此声学参数可以根据当前对话所处状态进行动态调整.
Lopez-Cozaretal[Lopez-Cozar99]描述了一个电话快餐预定系统,在该系统中,他们使用了一种AdaptiveConfidenceThreshold的策略,其主要特点是,在交谈过程中可以根据环境条件的变化,动态调整置信度阈值.
这样做,可以提高对话中的句子理解率(understandingrate)和减少对话回合(turn)数.
PADIS-XL[Seide97]是一个大规模的自动地址名录信息系统,人名和街道名的识别在该系统中具有核心地位.
在姓名数达到35,000的情况下,Seideetal使用了一种词典切换(lexicon-switching)的策略,即根据当时的对话任务使用不同的词表,而且参照先前回合的识别结果对当前词表作进一步的限定;这样,词表的规模在一个完整的对话进程中不断减小,不仅降低了误识率,而且节省了搜索空间,保证了系统的实时响应.
许多系统使用基于N-Gram的连续语音识别策略,它们的差异往往体现在词表和N-Gram的规模上.
在August[Gustafson99]中,Gustafsonetal使用了规模为500的词表,以及基于70个词类和229个词类对的词类Bi-Gram.
旅游信息系统LOADSTAR[Huang99a]使用了词和词类的混合模型,词类的规模为733;为了处理自发语音中的口语现象,增加了音节补白和垃圾模型.
相对基于词的模型来说,词类模型的物理(句法)意义更明显,而且能够避免出现模型稀疏问题.
关键词/关键短语的识别策略也可用于对话系统,其特点在于不考虑输入语音中与系统领域无关(或影响不大)的语言成分,提高语义要素的识别率.
从本质上讲,前面提到的LOADSTAR属于这种策略.
Linetal[Lin97]描述了将N-Grams和Finite-StateGrammar两种传统的语言模型结合起来用于关键短语检出的方法:FSG用于描述关键短语,N-Grams用于非关键短语的识别;关键短语的FSG识第一章绪论5别过程被加以适当的权重;最后,词的确认和拒识机制用于决定识别结果的接受或拒绝.
另外有些文献提到在使用传统的基于HMM的识别方法的基础上,应用韵律(prosody)[Hakkani-Tur99]或语音基频轮廓(F0Contour)[Yamashita97]等其它语音特征来提高识别性能.
针对自发语音中的口语现象,有些文献在语音修改(speechrepairs)方面提出了比较系统的方法,比如Spilkeretal[Spilker99]认为语音修改可以根据声学/韵律线索、词碎片、编辑项和句法/语义异常等四种特征来定位.
1.
1.
4.
语言理解及语义分析语言层的处理,包括获取句法结构、语义表示,解决自发语句中的口语现象和指代(anaphora)消解.
理解的鲁棒性是关注的焦点.
EUROPA[Sasajima99]是一个开发口语对话系统的框架,此框架被用于实现一个汽车导航原型系统MINOS.
Sasajimaetal在该系统中采用了关键词检出策略,并指出日语中的虚词混用和丢失现象,以及多余发音"aah"和"well"等,可以在这种策略下被过滤;在识别得到的关键词网络(lattices)上,使用一种高效的BTH[Kono98]分析器进行实时分析,口语现象中的词序混乱现象也可以被很好处理.
杨开城[Yang00]认为,句法分析不是简单的符号推理,而应该是一种实体推理,增强语义信息是实现句法分析实体推理的有效手段.
该文利用基于词的兼类处理规则,大提高了句法分析的效率;利用词静态和动态句法语义特征来限制句法规则过强的生成能力,取得了较好的效果.
句法语义特征分为三个层次:a).

中心词的句法规则中对自身的约束;b).
应用于规则情况上下文中单元间的约束;c).
应用于全局上下文的约束.
为此,该文构建了一个词库,兼类按不同词条处理,以标注不一的句法语义特征.
语言现象中常常存在指代(anaphora)和省略(ellipsis)现象,这是对话系统中的语言理解必须面对的一个主要问题.
在TRIPS98[Byron99]中,一种称为谈话上下文(DiscourseContext)的数据结构用来保存指代对话历史中的前辈候选(candidateantecedents),并讨论了口语情形和文本情形下指代消解(resolve)遇到的不同问题.
Ocelikovaetal[Ocelikova99]把对话系统中存在的语言歧义分为三个层次,分别是词法歧义、结构歧义和指代歧义;省略现象是指结构不完整的语句.
省略消解第一章绪论6和指代消解使用相同的方法,即在先前的句子中查找可被参照的成分(constituents),并且消解结果强烈依赖于对话上下文和领域知识.

部分分析(partialparsing)技术是在解决自发语音中的口语现象和识别错误等问题方面普遍使用的一种方法,基于此,Borosetal[Boros99]提出了短语检出(phrasespotting)的概念.
该文使用的是一种agenda-drivenisland-basedactivechartparser,与一般的部分分析方法不同的是,该方法可以超越chart中的gap进行成分的归结.
作者认为,部分分析的方法一方面降低了句法规则的规模,另一方面由于将语义单元直接映射到数据库索引,进一步降低了系统的复杂度.
NothandBorus在[Noth99]中更明确地指出,他们的句法是非完整的,可以称为句法片段(fragments),句法的终结符是语义类而不是词类;island-based的方法在这种情况下具有很强的灵活性,在分析自发语音时表现了很鲁棒的性能.
与声学层识别的关键词识别策略相对应的是,语言分析可以只处理语句中的概念(concept)部分.
所谓概念,它和关键词及语义类之间有很密切的联系,它的定义似乎可以如[Pieraccini92]所描述的:概念是与任务关联的最小意义单位.
不同的算法均可采用基于概念的分析方法,除了上面提到的部分分析方法之外,传统的神精元网络[Schadle99]也可以使用概念来提高对自发语音的分析性能.
Wang在[Wang99]中详细描述了一个鲁棒的口语自然语言分析器,它的特点是,不仅能有效地分析病态(ill-formed)语句,而且对非明确(under-specified)语法也有很好的效果.
所谓非明确语法是指在这样的语法中,仅仅描述与应用相关的实体之间的概念联系,但缺少各实体间如何结合而构成合法表达方式的语言学信息(比如词序信息).
在该文中,作者提到了LEAP(LanguageEnabledApplication)的概念,它建立在语义类之上,一个LEAP实体可以有多个语义类与之对应,LEAP实体被称为语义类的类型(type).
LEAP语法是一个非明确语法,它定义了两个层次的产生式规则,一是从LEAP实体到语义类,二是语义类到槽(slots).
1.
1.
5.
对话模型、对话策略及对话管理对话管理也是对话系统的核心,它使用对话模型来描述对话状态,决定对话状态的转移和上下文语境下的应答.
对话管理面临的一个主要问题,在于如何利用恰当的确认策略(confirmationstrategies)和混合主导的方式,提高对话效率和用户的满意度.
第一章绪论7Deneckeetal[Denecke97]提出交谈目标(communicativegoal/CG)的概念,认为用户与机器交互的目的是达成一个CG.
该文使用传统的类型层级结构(typehierarchy/TH)和类型特征结构(typedfeaturestructure/TFS)来表示领域内的对象.
类型层级结构是指一个用IS-PART-OF和IS-A关系连接起来的推理树,Denecke在亲子节点的连接上添加了关系成立的概率分数.
TFS是TH的一个实例,特定TFS的集合构成非明确类型特征结构UTFS(underspecified),而特定TFS集合的"交集"构成一般类型特征结构GTFS(general).
UTFS用于表示当前人机达成的共识,而GTFS用于UTFS消除歧义时检测所获信息的增加.
该方法依赖于领域模型而不是对话模型,比较灵活.
Zanten在[Zanten99]中描述了一个自适应的对话管理方法,它使用一种层级槽结构(hierarchicalslotstructure/HSS)描述对话,提示问题(prompt)在这种情况下也是层级结构的,这避免了用户被动地逐个填槽值的无趣(rigid)过程.
在HSS的基础上,定义了信息状态(informationstate),在每个槽处添加四个标志位,根据这些标志位和当前信息状态,来决定提示问题的选择和对标志位的更新.
这种方法有比较强的灵活性,它的自适应表现使得对话更有效和更富智能.
Papinenietal[Papineni99]介绍了一种基于表格(forms)的混合主导的对话管理方法,该文认为一个对话过程由若干任务构成,可以用一个表格对应一个任务的形式来描述对话状态,而整个应用可以用一个表格集合来体现.
语义用属性-值对(attribute-valuepairs)来表示,attribute对应form中的slot,而value则对应filleroftheslot;表格内容包含特定任务内的所有语义槽,每个槽对应的属性名,以及槽一级和表格一级的回放消息.
回放消息分为help、prompt和back-end等几种,其中back-end类型的消息附有后台任务操作函数,函数的返回值指示各表格的启用和禁用状态,当前要清除的表格和槽的列表,以及报告给用户的当前对话状态.
动态调整可容许的表格列表,可以在系统主导和混合主导之间进行切换.
Linetal在[Lin99]中使用推理树来表示对话主题需要的所有信息,一个主题对应一个推理树.
子节点间可以是and或or的关系,这取决于它们是都必须的还是任选的关系;此外,节点还有confirm/optional/slot等其它属性.
槽分为三类:a).
currentslots是当前语句中识别出的槽;b).
goalslots是目前为止保持一致性的槽集合;c).
correctslots是currentslots与goalslots发生矛盾时有待确认的槽.
第一章绪论8根据三类槽的状态,用一个自动机来描述确认和更正机制.
每个主题也用一个自动机来描述,随着对话的进行,主题的状态在idle/suspended/activated/finished等四个状态间进行切换.
Pargellisetal[Pargellis99]探索了自动对话管理生成的用户定制的方法.
该文设计了一个ADG(AutomaticDialogueGenerator),可以根据用户的任务描述表格,自动生成一个有限状态对话管理模型.
作者认为使用自动生成对话的主要优点在于:a).
提示和语法的生成具有相容性;b).
提示和语法的生成是动态的;c).
应用以一种可视化的目录树来管理;d).
用户新的限制或增强可以很快体现.
1.
1.
6.
体系结构对于对话系统,各核心部件间的关系及组成方式会影响到系统的最终性能.

现有的对话系统,一般以一种简单集成的方式进行构建,没有考虑到各部件间在功能上的前后一贯性,缺乏可移植性和灵活性.
但下面描述的对话系统体系结构有其特别性.
GALAXY-II[Seneff98][Polifroni00]是MIT计算机科学实验室自然语言理解系统小组(SpokenLanguageSystems)设计的用于自然语言技术研究开发的测试平台.
它采用客户服务器(Client-Server)结构,其核心服务器是HUB,语音识别、语言理解(语义框架构造)、语言生成及语言合成等核心部件,均以服务器的形式存在,单独与HUB联系;使用script语言来描述各服务器间的关系,以及全系统的控制流程.
可以说,GALAXY-II中体现了各功能部件对于HUB的透明性、独立性,容许一个部件的多种方法在系统中的替换,体现了可移植性的要求.
目前有建立在GALAXY-II体系结构上的自然语言理解系统TINA[Seneff92],自然语言生成系统GENESIS-II[Baptist00]等.
另外,GALAXY-II具有访问网上在线信息的特性,各功能服务器也允许通过浏览器进行访问或操作,这也是当今比较先进的运行及维护方式.
基于GALAXY或GALAXY-II,MIT设计了一些对话系统,包括电话天气预报查询系统JUPITER[Zue00],和航班订票系统MERCURY[Seneff00]等,这些证明,GALAXY-II在对话系统体系结构上是成功的.
但该体系有其局限性,这主要表现在它的复杂性,设计人员必须非常了解其核心结构与运行机制,学习大量的规则、协议和脚本语言,才能进行新系统的构建;另外,该体系结构比较庞大,第一章绪论9虽然无碍于该框架拥有者进行新方案的研究并无妨碍,但对于小领域对话系统的快速构建并不合适.
1.
2.
对话系统中存在的几个主要问题与其它语音系统作对比,对话系统面对的几个功能上的主要问题如下:a].
语音的口语性与自发性(spontaneousness).
在语音命令系统中,语音可以是孤立词;在听写机系统中,语音一般是书面语,要求发音比较规范;而在对话系统中,语音是(或者十分接近)人们日常生活中的口语,容许比较随意的发音.
自发语音中包括不流利、不合语法、修改及内容不完整等口语现象,这给声学识别和语义分析带来很大挑战.
b].
语义分析的必要性.
语音命令系统中,词表和用户意图(user'sintentions)可以是简单的一一对应关系;而在对话系统中,用户意图往往必须用语义网络等更加复杂的方法来表示.
此时,语义框架和语义分析模块的存在就成为必然.

c].
用户主导(UserInitiative)、系统主导(SystemInitiative)及混合主导(MixedInitiative)的关系.
根据应用环境的不同,以及用户之间的差异,系统在对话过程中可以呈现出三种不同的主导方式:1).
用户向系统主动提问或提供信息(用户主导);2).
系统向用户提问(系统主导);3).
一般情况下采取用户主导,在需要时切换到系统主导(混合主导).
对话系统是几个算法部件和模型部件的结合体,系统搭建和运行的成功与否在很大程度上取决于各部件的设计侧重、方法取舍和参数选择.
从系统结构的角度看,对话系统要解决的几个主要问题和设计策略可作如下概括:a].
语音识别器的连续性.
对话系统中的语音通常是连续的,因而要求使用的识别器也应该是连续语音识别器;但在对话过程中的某些特定阶段或某些应用的全过程中,也可以使用孤立词识别器.
b].
连续N-Gram识别vs.
关键词检出.
应用连续N-Gram识别搜索策略,能得到较为完整的语句(utterance)信息(包括语法信息),缺点是词汇量大,消耗资源(时间/空间)量大,处理集外词(OutofVocabulary)和对付口语现象成为困难;而应用关键词检出搜索策略,恰好相反,它能在一定程度上滤除口语现象,但同第一章绪论10时会丢失用户话语中的相当信息.
c].
语义表示、领域知识表示和对话模型.
语义、领域知识和对话状态在很大程度上紧密相关,它们的表示方法具有相通性.
表示方法的选择在很大程度上决定了系统的可实现性、可扩展性和可移植性.
为系统购买者(customer)提供的可定制特性,也取决于语义/知识/对话表示的通用性.
1.
3.
研究工作概述本论文将研究焦点定位于对话系统中的语言理解问题,针对对话系统中识别及理解面对的几个特点:语句的自发性、随意性、识别错误等特点,本文尝试从基于规则的理解机制方面解决口语对话系统中口语现象带来的困难,并提出了一些行之有效的新思路和新方法.
1.
3.
1.
研究目标1).
针对汉语的特点,口语的特点,试图从规则层面描述相应现象,将传统方法中句法分析及语义分析的任务进行结合,提供体系化的理解机制.
2).
面对目前实际应用中语音识别的性能不佳的现实,尝试将对话语境知识运用于识别的机制,以提高小领域系统下语音识别的准确性.
3).
探索小领域对话系统的构建机制,提供可移植性、结构化的一般构建方法,并尝试在一定程度上实现对话系统的用户定制化.
4).
设计并实现一个电话航班信息查询与订票系统,命名为EasyFlight.
该系统的目标是,通过公用电话网络,以语音为媒介,向用户提供航班信息查询及订票服务.
1.
3.
2.
研究思路与研究内容作者考察了实际电话航班订票的人人对话的语料,归纳其中的语言及发音现象;考察识别输出中删除错误和插入错误对识别的影响;可以说,现有的基于规则的语言理解方法对于这些现象并没有行之有效的方法.
针对先后连入系统中的各种识别方法的缺点,探讨了在识别中对话语境知识的指导作用.
针对目前对话系统需求的广泛性,探索简单的、一般的对话系统构建方法.
第一章绪论11具体地说,作者的研究工作包括以下几个方面:1).
增强的上下文无关文法目前,尽管存在基于统计的语言理解方法,但基于规则的方法仍是主流.
这种理解方法的一般思路是,针对一种特定的语言,写出用上下文规则集表示的文法;使用自顶向下或自底向上的分析器对句子进行分析,得到句法树;针对特定领域或特定任务,编写语义规则,根据得到的句法树进行语义分析,得到语句的语义表示.
这种方法的最大缺点是,基本是针对书面语,或比较规范的场合,没有考虑到实际交际中语言的自发性与随意性,因而实用性比较差.

有鉴于此,基于上下文无关文法,对规则附加功能属性,以区分文法的描述功能,在规则层面概括了一些自发语音涉及的口语现象,描述了一大部分传统方法认为不合文法的、难以描述的现象.
2).
句法与语义合一的分析方法汉语是一种表意的语言,句子中词的词性在很大程度上由词在句子中的出现顺序决定,因而基于词类(句法层面)的上下文无关文法对于汉语非常困难,目前仍然没有一套公认的句法体系可以描述汉语.
而且,在小领域对话系统中,使用句法层面的文法也没有必要.
作者使用增强的上下文无关文法,在语义范畴编写文法实例,使用句法与语义分析合而为一的方式,简化了语言理解流程,克服了小领域下汉语口语分析的一些困难.
3).
对话语境知识指导下的识别已经证明,单一地仅依靠声学知识进行识别,效果不佳.
而在此基础上,加入语言层的知识(比如语言模型的提前使用),将显著提高识别性能.
对于对话系统来说,语境是更高一层的知识,它在识别中的提前应用更应该有其价值.

作者给出了对话语境知识在识别中应用的框架模型,即利用对话管理器给出的期待焦点信息,确定对应焦点下的活动词表、活动规则,并生成对应的识别自动机;该识别框架融合了几种识别方法,具有很强的一般性.
4).
面向功能语义体的对话系统构建框架一般的对话系统的构建,大多不考虑各核心部件间的紧密关系,仅从软件第一章绪论12工程的角度考虑系统的构成.
随着对对话系统越来越多的需求,核心部件的可移植性和可定制性也成为迫切需要解决的问题.
1.
3.
3.
论文组织首先在第二章中,介绍当前普遍使用的基于规则的自然语言理解方法;在第三章中,针对对话中的语句自发性和口语现象,给出上下文无关增强文法的模型来描述这类问题;第四章介绍基于语义文法的文法和语义合一分析方法,从分析算法本身、歧义消解等角度讨论自然语言理解框架的鲁棒性;第五章介绍将对话语境知识引入语音识别后以提高语义单元检出率的识别机制;第六章简单介绍作为本论文研究平台的航班信息系统EasyFlight;最后在第七章给出全文总结和对语言理解及对话系统相关领域研究的展望.
第二章基于规则的自然语言理解方法13第二章基于规则的自然语言理解方法在详细介绍作者的研究工作之前,本章先对目前比较通行的语言理解方法作一个简单的介绍,以作铺垫.
本章主要参考资料来源于[Allen95][Chen84][Chomsky57][Shi93]等文献,为方便起见,除非特别重要处,不一一标注其来源.
基于规则的语言理解,其核心思想是用文法来描述语言、分析语言.
自Chomsky于1957年创立转换-生成语法体系[Chomsky57]以来,几十年来,基于规则的语言理解方法得到了语言学界的认同,并获得了很大的发展,特别是语言学与计算机结合形成计算语言学(ComputationalLinguistics)之后,它在自动自然语言系统中得到了广泛的应用.
虽然近年来也出现了基于统计的理解方法,但鉴于自然语言的深层结构规律性,规则方法有统计方法不可替代的优势.
当然,正象其它领域所表现的那样,统计方法和规则方法的结合在语言理解方面也会有比较好的前景.
本章的内容安排如下,第1小节介绍文法体系,包括文法的类型及其特点;第2小节介绍文法分析算法,重点是自顶向上及自底向上算法的比较;第3小节简要介绍语义分析的概念.

2.
1.
文法基于规则的语言理解方法,第一步先要确定输入的句子是否符合预先设定的规范;千百年来,人们使用传统文法体系经验地、直观地分析语言,就是这方面的一个例子.
信息处理自动化的要求使得我们必须建立一种可计算的分析方法,它的核心就是形式语言理论.
2.
1.
1.
文法及语言的定义一个文法G是一个四元式[Chen84]()PSVVGNT,,,=,(2.
1)其中TV是一个非空有限集,它的每个元素称为终结符.
所谓终结符是组成语言的基本符号,从语法分析的角度来说,可以说终结符是一个语言不可再分的原子符号.
第二章基于规则的自然语言理解方法14NV是一个非空有限集,它的每个元素称为非终结符.
非终结符是语法范畴,它代表一定的语法概念,每个非终结符也表示一定符号(包括终结符和非终结符)串的集合.
S是一个特殊的非终结符,NVS∈,也称为起始符号.
它代表所定义语言中的"句子",也就是我们最终感兴趣的语法范畴.
此外可定义空符号ε.
P是一个有限产生式集合,每个产生式的形式是βα→,其中()*NTVVU∈α且至少含有一个非终结符,()*NTVVU∈β,S必须至少在某个产生式的左部出现一次.
产生式是定义语法范畴的一种书写规则.
有了文法的定义之后,下面定义由文法如何生成语言.
如果γ→A是一个产生式,且()*,NTVVU∈βα,称βαA直接推出αγβ,记作αγββαA.
如果有nnαααααα13221,,,L,则称1α可推导出nα.
用nαα+1表示:从1α出发经过一步或若干步,可推导出nα;而用nαα*1表示:从1α出发经过零步或若干步,可推导出nα.
换言之,βα*意谓着,或者βα=,或者βα+.
假定G是一个文法,S是它的起始符号,如果αS,则称α是一个句型,如果α只含终结符,则称α是一个句子.
文法G所产生的句子的全体是一个语言,记为()GL,()∈=+*,|TVSGLααα.
(2.
2)2.
1.
2.
形式语言体系Chomsky把文法[Chen84][Shi93]分为四种类型,分别是0型、1型、2型和3型,它们的关系是序号小的文法的限制比序号大的文法的限制弱,从而前者的描述能力比后者的强.
这四种文法构成形式语言理论中的Chomsky体系.
1).
0型文法上小节中关于文法的定义,如果其中产生式的重写规则不附加任何限制,则称它是一个0型文法.
它是Chomsky体系中生成能力最强的文法.
由这种无约束文法所定义的语言,相应地称为0型语言.
它是一种可递归枚举的语言[Shi93].
第二章基于规则的自然语言理解方法152).
1型文法(上下文有关文法)对于文法G中的任意一个产生式βα→,如果仅要求βα≤,其中α表示符号串α的长度,则称该文法是一个1型文法,其生成的语言称为一个1型语言.
另一种对1型文法的描述是,每一个产生式用αγββα→A来表示,其含义可以这样表达:只有A在上下文βα_的条件下,才能改写或被替换成γ.
因此1型文法也被称为上下文有关文法.
3).
2型文法(上下文无关文法)对于文法G,如果它的任意产生式满足β→A的形式,其中NVA∈,()*TNVVU∈β,那么称G是一个2型文法,其生成的语言称为一个2型语言.
直观地说,2型文法要求每一个产生式的左部是一个单独的非终结符.
相对于1型文法,2型文法的推导不要求依赖于特定的上下文,因此这种文法也称为上下文无关文法.
4).
3型文法(正则文法)对于文法G,如果要求它的任意产生式满足α→A或BAα→的形式,其中NVBA∈,,*TV∈α,则称G是一个左线性文法.
而如果要求它的任意产生式满足α→A或αBA→的形式,其中NVBA∈,,*TV∈α,则称G是一个右线性文法.
左线性文法和右线性文法分别是3型文法(或正则文法)的两种定义方式,可以证明它们是等价的.
3型文法生成的语言称为3型语言.
5).
各型语言的特点和各自间的关系正则文法在Chomsky体系中生成能力最弱,以右线性文法为例,可以这样设想,生成器每生成一个终结符后,根据产生式规则右部的第二个符号,紧接着扩展下一个非终结符,这样递归直至生成一个合法的句子.
由此可见,正则文法的描述能力和确定状态有限自动机是等效的,因此这样的文法也可以称为有限状态文法(FiniteStateGrammar-FSN).
正则文法的这种特性,使得生成或分析时的计算速度极快,因为它在当前状态已知的前提下可精确预测下一个状态.
虽然正则文法有着计算优势,但是第二章基于规则的自然语言理解方法16正则文法不能描述自然语言中的一些常见句子,比如()cabcasLL=,其中a和c的个数不定,但个数相等.
上下文无关文法生成能力强于正则文法,比如上段中的例句即可用上下文无关文法加以描述.
一般说来,针对现实世界中的任何一种自然语言,为其设计的上下文无关文法,可以做到覆盖该语言中的绝大部分句子构成的子集(不可数),因此目前大多数自然语言系统仍然选择上下文无关文法作为其理解工具.
当然也有人认为,从理论上讲,上下文无关文法并不能完全描述自然语言,这个问题有待语言学家进一步研究,不在本论文讨论范围之内.
至于上下文有关文法及0型文法,其描述能力强于上下文无关文法,但实际系统中很少见,人们更多地只是在理论比较时谈到它们.
因此,在使用基于规则的语言理解方法,选择什么样的文法作为工具,有两个参考点,一是其描述及生成能力,是否能够胜任特定任务对文法的要求;二是其复杂度,该文法是否有有效的分析器,过于复杂的文法将不能满足实际任务对实时性的要求.
鉴于这两点,人们大多选择上下文无关文法作为描述及分析的工具.
2.
1.
3.
文法的作用现实世界的知识,人们往往试图通过逻辑框架去表示它们.
知识表示有多种方法,比如逻辑表示法、产生式表示法、语义网络表示法、框架表示法及面向对象的表示法[Shi93]等.
广义地说,自然语言中的句子结构,以及相应的人的语言认识模型,也属于知识表示所要解决的问题.
本节讨论的文法体系,本质上也是一套描述句子结构的知识表示方法.
若是选用上下文无关文法来描述句子结构,那就是一种树型的知识表示,这跟上一段中提到的各种知识表示方法,以及人类对其它事物的认识方法是具有共同点的.
这种表示方法基于这样的考虑:1).
句子可以按照一定的准则分成几个相对独立的部分;2).
这些子部分又可以根据类似的别的准则进行细分;3).
直至达到所有子成分均不能再分的时候为止.
文法的作用,特别是上下文无关文法的作用,就是通过描述待研究语言的第二章基于规则的自然语言理解方法17的产生式规则,一方面在语言理解系统中,对于给定的输入句子,判定其相对于该文法的合法性,给出合法句子的句法结构;另一方面在语言生成系统中,根据要表达的概念,生成符合规范的自然语言句子.
下面的例子可以说明用上下文无关文法所表示的句子结构;同时该例也能说明文法的经验性概括思路.
给定如图2.
1所示的文法,对于Johnatethecat这句话来说,可以很容易地得到如图2.
2所示的句子结构(句法树);相反,如果根据传统文法得到如图2.
2所示的句子结构图,也很自然地能够概括出如图2.
1所示的上下文无关文法.
图中,每个非叶节点均被称为一个成分-constituent,即分析过程中的非终结符实例.
1.
S→NPVP2.
VP→VNP3.
NP→NAME4.
NP→ARTN5.
NAME→John6.
V→ate7.
ART→the8.
N→cat图2.
1一个简单的文法-Grammar2.
1[Allen95]SNPNAMEJohnVPVateNPNARTthecatnodeslinkrootleavesparentandchild图2.
2句子的树型表示[Allen95]2.
1.
4.
文法的撰写对于待研究的自然语言,文法的撰写需要考虑到以下几个方面[Allen95]:1).
一般性(generality),指文法所能正确分析的句子范围.
本文后面也用覆盖第二章基于规则的自然语言理解方法18度来表示这个概念.
对于特定系统,文法的一般性大到能够满足任务需要.

2).
选择性(selectivity),指文法认为非句子的符号串范围.
它跟Generality是互补的.
3).
可读性(understandability),指文法本身的简单程度.
良好的可读性能方便文法的移植和继承.
4).
过度生成(over-generation).
一般性提到文法能够正确分析的句子范围,但这不表明这些句子就是自然语言中合法的句子,那种自然语言中错误句子通过文法分析器的现象就称为过度生成.
往往,人们在追求良好的可读性的同时,会带来过度生成的问题,在真正编写文法时,需要在两者间作适当折中.
2.
2.
文法分析器文法是描述语言结构的手段,使用文法来判定句子的合法性并给出句法结构,则需要用到文法分析器.
分析算法可以这样描述:给定输入句子,在文法规则各种各样的组合方式之中,找出一种可能是该句子文法树结构的组合方式的搜索过程.
这意谓着两个目标,一是给出句子是否被文法所接受,二是如果被接受,则给出句法结构.

下面将简要介绍两种类型的文法分析器,一类是自顶向下的分析算法,另一类是自底向上的分析算法.
这两种算法都是针对上下文无关文法来说的.

2.
2.
1.
自顶向下的分析算法简单地说,自顶向下算法的思路是,从文法的起始符S出发,枚举文法中的规则,对当前状态中的非终结符进行推导,直至所有非终结符均已被重写成终结符,且终结符串与输入句子的词类全部匹配成功为止.
算法过程中的分析状态,是指当前时刻前所有扩展操作形成的符号串结果,也就是文法定义中提到的句型.
[Allen95]在介绍完整的算法前,先给出一个简单例子以直观描述自顶向下算法的分析流程.
给定如图2.
3所示的文法及词典,分析Thedogscried这句话.
先给句子标上位置:1The2dogs3cried4.
A).
起始状态为((S)1),括号中的第2项表示当前输入位置;B).
使用规则1,状态改写为((NPVP)1);C).
使第二章基于规则的自然语言理解方法19用规则2,状态改写为((ARTNVP)1);D).
词典中the的词类与状态串中的第1个非终结符匹配,状态改写为((NVP)2);E).
状态串中的非终结符与词典中dogs的词类之一再度匹配,状态改写为((VP)3);F).
使用规则4,状态改写为((V)3);G).
状态串中最后剩下的非终结符与cried的词类匹配成功,状态改写成空(()4),分析位置也到达结束位置,此时说明分析成功,该句子被文法所接受.
1.
S→NPVP2.
NP→ARTN3.
VP→ARTADJN4.
VP→V5.
VP→VNPcried:Vdogs:N,Vthe:ART图2.
3一个简单的文法-Grammar2.
2及词典[Allen95]上例中,如果第F步使用规则5,则分析状态改为((VNP)3),再下一步为((NP)4),此时分析位置到达结束位置,但仍有终结符未被改写,说明这条分析路径的失败,需要回溯.
下面将简要描述一个带回溯的自顶向下算法.
该算法用到三个术语,一是可能状态列表,它的第一个元素是当前状态,其余元素为备份状态.
算法从开始状态((S)1)出发,并且不含备份状态,1).
如果可能状态列表为空,则算法失败退出;否则选取其中第一个状态C作为当前状态,并将其从可能状态列表中删去.
2).
如果C包含空符号串,并且分析位置是句末位置,则算法成功退出.
3).
否则根据下以下三种情况分别处理,3a).
如果C中的第一个符号是终结符(词法符号),并且下一个词属于这个符号代表的词类,则把C中的第1个符号删去,更新分析位置,将新状态加入到可能状态列表中去;3b).
如果C中的第一个符号是终结符,但下一个词不属于这个词类,则不做任何操作;3c).
如果C中的第一个符号是非终结符,则枚举文法中所有可用的规则对该终结符进行重写,并将这些新状态加入可能状态列表中去.
4).
跳至第1步.
可以看出,第1步总是选择第1个状态作为当前状态,但在第3步把新状第二章基于规则的自然语言理解方法20态加入到可能状态列表中时,有两种选择,一是加到可能状态列表的后端,二是加到可能状态列表的前端,这就形成深度优先搜索和广度优先搜索两种策略.

另外有两点需要注意,一是该在遇到左递归规则时会无限递归,这可以通过适当的控制机制得以避免;二是该算法辅以特定的路径保留机制,可以在最后给出句法树.
图2.
4描述了使用上述分析器对输入词串Thedogscried所作分析的过程.
Step1.
2.
3.
4.
5.
6.
7.
CurrentState((S)1)((NPVP)1)((ARTNVP)1)((NVP)2)((VP)3)((V)3)BackupState((ARTADJNVP)1)((ARTADJNVP)1)((ARTADJNVP)1)((VNP)3)((ARTADJNVP)1)CommentinitialpositionrewritingSbyrule1rewritingNPbyrules2&3matchingARTwiththematchingNwithdogsrewritingVPbyrules4&5theparsesucceedsasVismatchedtocried,leavinganemptygrammaticalsymbollistwithanemptysentence图2.
4自顶向下分析过程例[Allen95]自顶向下分析算法的特点:1).
在针对当前状态匹配下一个符号时,具有比较高的预测性,不会对输入词的多种词类作无用扩展.
2).
当扩展和匹配失败时,需要回溯,此时曾经分析过的成分会被多次重复分析,效率不高.
针对回溯问题,有一些改进算法,比如采用有向前看几个符号的算法,可在大多数情况下避免回溯,但理论上不能保证完全避免.
3).
对待分析句子作出接受或拒绝,对于失败的句子给出的信息量太少.
2.
2.
2.
自底向上的分析算法自底向上算法的思路是,从输入句子的词类出发,对相邻符号串进行归结,生成对应规则的左部符号,直至最终生成文法起始符号S.
也可以这么理解,自顶向下的分析算法,是从句法树的根节点开始向叶节点,即输入句子的词类串,第二章基于规则的自然语言理解方法21进行推导;而自底向上的分析算法,则是从输入句子的词类串开始,向树的根节点进行归结.
具体地说有两点:1).
将输入词重写成词类,即终结符;2).
如果一个符号串匹配上了某一条规则的右部符号串,则将该符号串用这条规则的左部符号代替.
直接按照上述方法去做,是相当耗时的,因此必须提出高效的分析算法.
而图表分析器,即ChartParser,就是这样的自底向上算法的典型代表.
[Allen95]ChartParser涉及到三个主要的数据结构:1).
图表-chart,它是存放当前所有已经分析得到的部分结果的数据结构,通过这个机制,可以避免已有的成分被多次地归结,实现共享.
2).
活动弧-activearc,指当前已经扩展了一部分但仍没有得到最后归结的规则实例.
它的表示方法与规则类似,但需在右部符号间插入一个圆点,指示下一步的匹配位置.
比如NADJARTNPo→这条活动弧,它指示下一个待扩展的符号是ADJ这个终结符.
3).
议程表-agenda,新归结得到的成分存放在agenda中,直到它们均已被处理(被扩展)为止.
正象自顶向下的分析算法一样,ChartParser也有两种搜索策略,即深度优先和广度优先,当agenda为先进先出栈(FIFO)时,为深度优先搜索,当agenda为先进后出队列(FILO)时,则为广度优先搜索.
ChartParser算法的思路可以直观地这样描述:1).
从agenda中取出一个成分,称为当前成分;2).
在文法中查找以当前成分为第1个右部符号的规则,生成相应的匹配位置为1的一个活动弧;3).
枚举所有以当前成分为下一个匹配符号的活动弧,生成新的活动弧,并递进匹配位置;4).
对于以当前成分为最后一个匹配符号的活动弧,归结生成以该活动弧左项符号为符号的新成分,放入agenda中;5).
重复上述过程,直至agenda为空为止.
形式化的算法描述如下:弧扩展算法Algorithm2.
1,如图2.
5所示;总算法Alogithm2.
2,如图2.
6所示.
第二章基于规则的自然语言理解方法22ToaddaconstituentCatposition()21,pp:1).
InsertCintothechartatposition()21,pp;2).
ForanyactivearcoftheformnXCXXXLoL21→atposition()10,pp,addanewactivearcnXCXXXLoL21→atposition()20,pp;3).
ForanyactivearcoftheformCXXXXnoL21→atposition()10,pp,thenaddanewconstituentoftypeXatposition()20,pptotheagenda.
图2.
5ChartParser中弧扩展算法-Algorithm2.
1[Allen95]Dountilthereisnoinputleft:1).
Iftheagendaisempty,lookuptheinterpretationsofthenextwordintheinputandaddthemtotheagenda.
2).
Selectaconstituentfromtheagenda(let'scallitconstituentCatposition()21,pp).
3).
ForeachruleinthegrammaroftheformnXXCXXL21→,addanactivearcoftheformnXXCXXLo21→atposition()21,pp.
4).
AddCtothechartusingthearcextensionalgorithmdescribedinAlgorithm2.
1.
图2.
6自底向上的ChartParser算法-Algorithm2.
2[Allen95]1.
S→NPVP2.
NP→ARTADJN3.
NP→ARTN4.
NP→ADJN5.
VP→AUXVP6.
VP→VNPthe:ARTlarge:ADJcan:N,AUX,Vhold:N,Vwater:N,V图2.
7一个简单的文法-Grammar2.
3及词典[Allen95]试举一例以说明自底向上ChartParser的分析过程,其中有些步骤有省略.
给定如图2.
7所示的文法Grammar2.
3及其词典,分析"Thelargecancanholdthewater"这个输入串.
给句子标上位置:1The2large3can4can5hold6the7water8.
A).
对于输入词the,将其词典中的词类ART存入chart中;B).
对于ART,第二章基于规则的自然语言理解方法23规则2和规则3均以其作为第1个右部符号,则可以扩展成相应的两个位置在(1,2)的活动弧;C).
对于输入词large,将其词典中的词类ADJ存入chart中;D).
类似于步骤B中的方法,扩展出一个以NP为左部符号、位置在(2,3)的活动弧;E).
考察活动弧NADJARTNPo→,ADJ满足它的下一个匹配符号,则在位置(1,3)扩展出新的活动弧NADJARTNPo→;F).
如此继续进行,当分析到can时,内存中的数据结构如图2.
8所示.
如此进行,直至最后一个输入词被处理之后,chart中的成分如图2.
9所示.
NADJARTNPo→NARTNPo→NADJNPo→NADJARTNPo→VPNPSo→VPAUXPVo→NPVPVo→AUX1N1ADJ1ART1V1NP1(rule2)NP2(rule4)1the2large3can4VPNPSo→图2.
8输入串"thelargecan"的分析中间结果[Allen95]S1(rule1withNP1andVP2)S2(rule1withNP2andVP2)VP3(rule5withAUX1andVP2)NP2(rule4)VP2(rule5)NP1(rule2)VP1(rule6)N1N2NP3(rule3)V1V2V3V4ART1ADJ1AUX1AUX2N3ART2N41the2large3can4can5hold6the7water8图2.
9ChartParser整句分析示意图[Allen95]第二章基于规则的自然语言理解方法24自底向上分析算法的特点:1).
预测性不够,当一个新的成分生成时,均需要在文法中查找相应的规则以生成活动弧,而不管该活动弧今后能否被扩展.
2).
无需回溯,对输入串仅作一遍扫描.
中间生成的任何成分,均不会在以后的分析中被再次生成,实现了成分的共享.
3).
不是对输入词串仅作出接受或拒绝,而是保留所有局部分析结果,因而即使对于失败的句子也能给出一定量的信息.
2.
2.
3.
两种方法的结合可以说,自顶向下的算法和自底向上的算法,各具优势,也各具劣势,所以两者的结合将会带来一定好处.
自顶向下的ChartParser[Allen95]就是其中有代表性的例子.
自顶向下的ChartParser算法的主要思路是,在生成任意一个活动弧时,该活动弧匹配位置如果是一个非终结符,则连带生成所有以该非终结符为左部符号的匹配位置为1的新活动弧.
这样做的好处是,不会在归结出一个符号时,生成一些以后不会被扩展到的无用活动弧;同时分析结果也能得到共享,避免了多次生成的问题.
可以说结合了预测性和成分共享的优点.
但是它不具备自底向上分析算法的保留所有局部分析结果的特点,而这一点在某些场合是很有好处的.
2.
3.
语义分析跟句法分析一样,语义分析是自然语言系统不可缺少的组成部分.
语义分析的主要任务是,根据输入句子的句法结构和句子中每个实词的词义推导出能反映这个句子意义(即句义)的某种形式化表示[Shi93].
在对话系统中,只有获得隐藏在输入句子表面下的语义表示之后,才能进行推理、数据库查询、交谈等后续任务.
语义分析跟语义表示具有密不可分的关系,语义表示的不同会带来语义分析方法的不同.
广义地说,语义表示属于知识表示的一个分支.
知识表示则有以下几种方法[Shi93]:第二章基于规则的自然语言理解方法251).
逻辑表示法.
用一阶逻辑形式的命题来表示条件和求解结论;推理过程中,先对条件取非并与(逻辑与)上求解结论,然后将得到的命题化成多个子句组成的范式,运用子句的归结方法进行逐步归结,如果最后得到空,就证明命题了正确性.
2).
产生式表示法.
包括事实、规则及不确定性度量的描述等.
事实用三元组(对象,属性,值)或(关系,对象1,对象2)来表示.
或考虑不确定性,则可以用四元组来描述事实.
而规则表示事物间的因果关系,可以"ifcontidionthenaction"来描述.
推理过程,就是从已知事实出发,逐步选取规则,条件匹配成功后将规则右部纳入新事实,如此进行,直至推导出结论为止.
3).
槽及槽值的表示法.
这是一大类表示方法,它们的共同点在于提出槽及槽值的概念,用以表示一个事物同其各个子部分间的分类知识.
这种表示法分为以下几类:语义网络、框架、概念从属以及脚本.
语义网络的基本单元是以主从节点和弧组成的三元组,弧表示关系、属性等,由主节点指向从节点.
图2.
10左侧即为"鸽子是鸟,而鸟会飞"的语义网络表示法.
框架表示的基本单元是槽名及槽值,框架名及多个槽名和槽值对构成框架.
在必要时,槽名及槽值可以是有结构的,此时构成具有深层结构的框架.
框架可以嵌套,用以表示整体与局部的关系.
图2.
10右侧是一个框架表示法的形式化描述.
语义网络和框架的推理,均采用匹配与继承的方法.
ABRpigeonbirdisaflycan框架{框架名;槽名1{侧面1{111值,…,111k值}…侧面1n1{11n1值,…,1n1k1n值}槽名2{}…}语义网络框架图2.
10语义网络及框架示例第二章基于规则的自然语言理解方法26相对于知识表示来说,语义表示,更多地侧重于有效可靠地表示信息本身,基于知识的推理并不是考虑的重点.
对话系统中尤其如此,表示相应输入句子内所含的感兴趣的信息是其主要任务.
在大多数可见系统中,往往用比较简单的形式来表示信息,比如表格的方式;再稍微复杂的系统借鉴了知识表示的框架表示法,槽名为系统感兴趣的知识点,槽值则是交谈双方的互送信息.
对话系统中的语义分析,在结合了对话管理时,可以借鉴知识表示中的推理机制;在不涉及推理时,则仅仅是从句法分析的结果中提取信息的过程,因而往往采用简单的槽名匹配及槽值填充方法.
至于人工智能专家或语言学专家所研究的语义分析体系,至今仍在丰富与完善中,不在本文讨论范围之内.

2.
4.
小结本章主要介绍了基于规则的语言理解方法的主要思路,包括文法、文法的分析算法,以及语义分析的概念.
重点在于文法的特点,以及两种分析算法的比较,这涉及到作者论文工作的主要方面.
第三章基于语义类的上下文无关增强文法27第三章基于语义类的上下文无关增强文法口语语言理解是一个口语对话系统中最重要的组成部分,其性能的好坏对对话系统的性能有关键性的影响.
尽管有将统计知识用于语言理解的方法出现,但目前最为常见的口语语言理解的方法仍然是基于规则的分析方法.
统计方法的优点大概有这样几点.
一是在描述对象的规律异常复杂,非常不易掌握的情况下,统计方法无需考虑其真实规律,而仅仅用统计方法来描述其分布,也可以达到相当好的近似度.
在这方面,广泛应用于语音识别领域中的隐马尔可夫模型(HMM)是一个典型的成功案例[Rabiner89].
二是在越来越强大的计算资源(无论是计算速度还是训练数据)的支持下,统计模型可以得到越来越可靠的训练,并且可以向更高阶次发展,从而能够越来越逼近描述对象的真实规律.
三是统计方法可以和规则方法进行结合,每出现一种更好的规则描述,均可以将统计方法置于其规则的右部,形成新的模型,从而提供更好的描述.
规则方法在语言理解方面的流行,似乎三个方面的原因.
一是认为语言的认知方式,在人脑中是以结构化的形式存在的.
二是在不考虑人脑认知模型的情况下,认为语言现象本身也是具有规律性、结构性的,因此可以用精确的数学模型及框架结构来加以描述.
三是统计方法在阶次有限的情况下,只能描述平面结构,这与语言现象的复杂性不相匹配.
对话系统中的规则分析方法,有两种表现形式,一种基于连续语音识别,对完整的识别句子进行分析[Seneff92];另一种基于关键词和概念,仅考虑句子中有意义和可靠性比较高的语音部分[Sasajima99][Noth99].
众所周知,与书面语不同,对话系统中用户的语句是很随意的,其中充满了垃圾、碎片、犹豫、纠正、重复、省略、词序混乱和病句等现象.
在这种情况下,显然前一种方法不是最适合的,因为完整的句法结果很难得到[Zue97].
汉语的表意性及口语现象问题,是汉语口语对话系统中语言理解所面对的重要课题,本章提出了增强的上下文无关文法概念,并使用语义符号来编写文法,试图解决这一问题.
第三章基于语义类的上下文无关增强文法283.
1.
问题的提出本文跟大多数可见对话系统一样,使用基于规则的方法来处理语言,但有几个问题需要引起注意,一是汉语的表意性,二是对话系统中语言的自发性及口语现象,三是真实语音或识别结果中存在的声学垃圾或语言垃圾.
3.
1.
1.
汉语的特点传统文法体系的发现和使用,始于对西文拼音语言文字的处理,在上世纪初随着其它西方科学被介绍到中国,并用于对中文的描述.
形式语言理论自Chomsky创立并用于处理西文语言之后,也被借用于对中文的计算.
它的基本思路是,认为句子由短语和词组成,短语由短语和词组成,而词可以按功能分成不同的词类,因此可以由词类的组合方式来描述句子的结构.
相对于印欧语,语言学界认为汉语语法有如下主要特点[Fan96]:1).
缺乏严格意义的(狭义的)形态变化.
这是最重要的一个特点,汉语语法的其它特点都跟这点有关.
形态指词的单复数、人称、性等变化形式.
2).
词类和句法成分间的关系错综复杂.
比如动词、形容词可作主语和宾语,形容词可作谓语和状语,名词可作定语,一定条件下还可作谓语等.
3).
语序显得比较重要.
汉语的词缺乏形态变化,句意主要靠语序的不同来体现.
另外,如果说英语(或其它拼音语言文字)是一种良好的结构化的语言[Schadle99],那么汉语在很大程度上,则是一种结构化不明显的表意的语言.
汉语是表意语言文字.
汉字的造字法有六种,分别是象形、指示、会意、形声、转注、假借,其中象形是其它造字法的基础.
基于这个特性,每个汉字均有其独立的含义,即使不在句子或上下文中也是如此.
基于汉字的汉语自然也具有表意性.
汉语的表意性,使得汉语句子的组成方式跟其它拼音文字有所不同.
绝大多数拼音语言文字,词有比较确定的词类,兼类比较少,词组成句子需要遵循比较简单的、严格的语法.
然而汉语不同,首先,没有确定的词概念;其次,词的词类很难确定,大多数要依其所在句子的实际情况而定;最后,句子结构不易描述,词类和短语类的在句子中的位置非常灵活.
这里可以简单地用一个例子来说明问题.
如果要对"这时候从车上跳下来第三章基于语义类的上下文无关增强文法29一个美国人"这个句子进行分析,学习过中文语法知识的的中国人对此会有不同的见解,有人认为这句话没有主语,有人认为主语是"这时候",而另外一些人则认为主语是"美国人".
然而如果是一句表达同样含义的英语"ThenanAmerianjumpoffthetruck.
",它的语法成分则很明显,"anAmerican"是主语,"jumpoff"是谓语,"truck"是宾语,"then"是状语,没有分歧.
由此可见,用基于词类的文法来描述汉语,应该说仍没有形成在数学上比较简单的体系;或者没有英语文法体系那么成功.
从另一个角度来说,基于词类的分析方法,描述的是语言的表面形态(句法层面的表面形式),而汉语的表意特性在一定程度上使汉语句子的结构更接近于其深层的交际功能的模型结构.
因此,最初应用于西方印欧语言的基于词类的分析体系,似乎对于汉语来说并不太适合,需要作适当改进与修正.
此外,基于词类的文法的编写,是一个比较复杂的工程,需要语言学家的参与,而这对于小领域的对话系统来说是不适宜的.
3.
1.
2.
口语的特点鉴于本论文的研究是依托于一个电话航班信息系统EasyFlight,设法搜集真实场景中的人人对话语料,以研究其中的独特现象,就成为必然.
我们设计了一个多通道的电话录音系统,置于航空公司代理处,监听真实的订票对话.
录音计划的主要目的在于收集各种各样的对话现象及对话风格,而跟数据库无关,因此仅仅监听了有关国内航线服务的电话线.
我们在8K采样率下总共收集了6G字节的数据,在去除听不清或标注困难的部分之后,将其中3G字节(大概100小时)的数据标注成了汉字文本.
对语料标注的分析表明,该语料有以下4个明显的特点:1).
代理端(接线员端)有比较大的背景噪声;2).
客户端的音量相对较低,有时甚至无法听清;3).
对话中有比较严重的语素丢失和协同发音现象;4).
包含许多传统意义上不合语法的句子,或用语法比较难以归纳的句子,第三章基于语义类的上下文无关增强文法30其中大多数可以归因于对话中语言的自发性(spontaneous)及口语语言现象.

以上第4点是本节关注的焦点,试以例子分类说明如下,其中C表示客户语句,O表示接线员语句:(i)礼貌用词用语等对语义分析没有多大关系的成分;C:喂,你好,请问是中关村航空客运代理处么(ii)说话中思考时的重复,或为强调所作的重复;C:我问一下那个四月三十,呃,四月三十号北京到.
.
.
(iii)上下文中的省略;C:我问一下那个四月三十呃四月三十号北京到福州的机票最后一班还有么O:只有一一班有.
C:那个那五月一号的下午三点有么(此时省略起飞与到达时间)(iv)在提供了充足信息的前提下,成分可以以任何顺序出现;C:…五点二十五国航飞深圳的…(此时时间、航空公司、地点或其它信息可以以任何顺序出现)(v)口头习语或不必要的成分;C:那,那个八点二十那个是去什么机场的呀(vi)提供了所有信息的长句C:哎,您好,这样那个我订一张那个明天下午五点四十五去北京到上海的那个机票的.
上述不合语法的口语现象,使用基于词类的语法,比较难于描述.
如果使用基于词类的文法,那么大部分对话中的自发语句将被分析器所拒识.
3.
1.
3.
识别输出的特点同应用于文本不同,对话系统语言理解器面对的输入是语音识别器的输出.

识别输出存在这样一些问题:1).
插入错误,指识别器输出中存在原有语音中不存在的词或单元.
2).
删除错误,指识别器输出中漏掉了原有语音中存在的词或单元.
3).
替换错误,指识别器输出中的词或单元与原有语音中的词或单元在时间位置上重叠,但互不相同.
第三章基于语义类的上下文无关增强文法314).
此外,自发语音中存在一些不可用文字表达的语音,比如咳嗽声、笑声、咂嘴声、拖音、不流利、噪声等(本质上说,"嗯""啊"等标志说话者思考或犹豫的语音也属此类),识别器对它们的输出或者是一些有意义的词或单元,或者在关键词检出的方法中作为补白输出.
出现这些识别错误时,原本被认为是合乎文法的句子或短语将被单元的插入、丢失或替换所干扰,而被认为是不正确的.
众所周知,目前世界上比较先进的语音识别器的性能,即使在实验室环境下,词的正确率也只有90%左右,整句的正确率自然不高,因此,语音识别器输出的句子,有相当大的可能会被文法分析器所拒绝.
至于这些错误带来的概念错误、概念缺失等问题,一般来说,文法层的处理不能解决.
3.
2.
上下文无关增强文法针对上节描述的对话系统中出现的语言问题,作者尝试从规则层面加以概括和描述.
跟大多数自然语言系统一样,本论文采用上下文无关文法,但在此基础上进行了改进与增强.
基本思路可以概括如下:1).
针对对话中语言的自发性及口语现象,对规则附加增强属性,使其具有跨成分归结的特性;2).
针对汉语句法规则难以归纳及其表意性,舍弃词类及句法范畴作为方法符号的作法,直接使用关键词类及语义范畴编写文法.
本小节将着重介绍对文法进行的增强,而语义文法的介绍将在下一小节进行.
3.
2.
1.
文法的定义先从形式上给出上下文无关增强文法的定义.
[定义3.
1]上下文无关增强文法:一个上下文无关增强文法G是一个四元式()PSVVGNT,,,=.
其中TV、NV是两个非空有限集,TV的每个元素称为终结符,NV的每个元素称为非终结符.
NVS∈是一个特殊的非终结符,也称为起始符号.
第三章基于语义类的上下文无关增强文法32P是一个有限的产生式集合,每个产生式的形式是[]β→typeruleA_,其中A是一个非终结符,称为规则左部符号;S必须至少在某个产生式的左部出现一次;()*NTVVU∈β,称为规则右部,其中各个符号称为规则右部符号;typerule_为增强属性,作为可选项置于规则产生符→之前.
注意,定义中有起始符S的存在,但在本论文研究的实际应用中并没有使用到它,这并不妨碍文法的有效性.
再从文法的书写角度给出描述,该描述本身是一个传统的上下文无关文法实例.
rule_text→rule_listrule_list→rule|rulerule_listrule→symbol[rule_type]'→'symbol_listsymbol_list→symbol|symbolsymbol_listsymbol→symbol_prefix|symbol_prefixsymbol_suffixsymbol_prefix→alphabeticsymbol_suffix→alphanumeric|alphanumericsymbol_suffixalphanumeric→alphabetic|numericalphabetic→'_'|'a'|'A'|'b'|'B'|.
.
.
|'z'|'Z'numeric→'0'|'1'|.
.
.
|'9'rule_type图3.
1上下文无关增强文法编写的形式化描述从定义3.
1及图3.
1中可以发现,增强文法与传统文法的主要不同,在于对规则附加了增强属性,即用typerule_的标识的单元.
但文法的定义本身并不描述增强属性的功能,这使得文法具有一般性及功能可扩展性.
3.
2.
2.
增强属性的归纳文法的增强属性,需要从实际应用的角度进行归纳.
本文讨论的重点,在于归结时,考虑子成分在空间、时间上的不同的组合关系.
1).
首先,对于出现于成分中间的口头习语、礼貌用语、声学垃圾、语言垃圾或识别错误等,如果在归结时能够以跳过一部分的形式越过它们,则这部分问题可以得到解决.
第三章基于语义类的上下文无关增强文法332).
其次,对于口语中短语和其它成分以任意顺序的出现的问题,如果对不同顺序的组合用一条规则来描述,在归结时不考虑规则右部符号在时间上的先后顺序,那么这个问题也可以得到解决.
3).
再次,一些概念(这里,概念可以定义成与任务相关的最小语言单元)或"短语"在空间上有着长程关系,比如"有……吗"和"是……吗",与第1种情形不同,它们中间所跨跃的部分在句意上是至关重要的,而且其跨跃范围也相对较长,那么如果有一种规则属性使其可在这种情况下进行长程归结,那么这种概念或短语的检出也能解决.
4).
再次,涉及长程型概念的组合,由于概念在空间上的跨跃性,归结时不能象传统分析方法那样要求子成分在空间上是不交叉的,这时需要在规则属性上加以体现.
5).
最后,相对于上述功能来说,要有一种规则属性能够描述传统上下文文法所能描述的现象,即要求子成分间在空间位置上紧密相连.
据此,规则的增强属性在本文中具体化为规则类型,我们可以得到五种类型的规则,分别是苛刻型(up-tying)、跳跃型(by-passing)、长程型(long-spanning)、无序型(up-messing)以及交叉型(over-crossing).
3.
2.
3.
规则类型的形式化定义在给出上小节归纳得到的规则类型的定义之前,先给出一些相关术语的定义.
[定义3.
2]句子-sentence:一个句子是一个由语言中的基本单元组成的串,这里的基本单元指某种意义上的词类(包括补白类).
可以写成()110,,,=nKKKsentL,其中n表示句子长度,iK是第i个词(包括补白)的词类,niK个其它成分.
类似地仍有()Maα=1Mrpα+=1,(4.
5)以及对于()Lii≤ato_0[4,5]dgt_h0->ato_1_10_l[4,5]dgt_h0*->ato_10ato_1_9[4,5]dgt_h0*->ato_2ato_10[4,5]dgt_h0*->ato_2ato_10ato_1_3[4,5]sub_from->mat_city_name[0,1]sub_from->tag_from_here[0,1]sub_from->tag_frommat_city_name[0,1]sub_stop->tag_stopmat_city_name[0,1]图5.
8规则类别标注例5.
4.
3.
有限状态网络作者使用有限状态自动机,也称为有限状态网络(FSN,FiniteStateNet),作为识别器的搜索框架,基于这样两点考虑:一是自动机具有高度的预测性,给定一个节点则可以在为数比较少的后继节点间进行路径扩展的选择;二是有限状态自动机与正则文法的描述等价,对上下文无关文法的规则作类别标注时如果遵循简单性和小粒度的原则,就可以保证选取的活动规则集满足有限状态自动机的条件.
注意到作者提出上下文无关文法的增强特性,选取的焦点下活动规则集继承了这些特性,从而形成增强正则文法.
该文法不包含无序型、长程型和交叉型规则.
下面简单介绍有限状态网络的生成策略.
第五章对话语境指导下的语音识别74A*aaBAbcC*cc图5.
9活动规则集例1).
非确定有限自动机的生成.
以图5.
9所示的活动规则集为例,说明非确定状态有限自动机的生成过程.
对规则按符号的上下级关系进行排序,先对子符号相关的规则进行转换.
转换时将规则中的"间隙"作为节点,而规则右部符号置于节点间的有向弧上,见图5.
10中符号A的网络;当右部遇到非终结符时,用两条空弧(以ε为标记)将该非终结符的网络拷贝入父网络,见符号B的网络;当所有符号网络均生成之后,将所有活动规则集内顶级符号的网络加入最终的非确定状态有限自动机中,见图5.
10中最终网络.
这里的非确定表示的是对于同一节点,可能会有多条同符号的出弧.
A:aaB:εA起始节点……A终止节点εφbφcC:ccεB网络C网络εεεεφ,ω起始节点终止节点图5.
10非确定有限自动机文法的增强属性在节点间的弧上加以体现,比如跳跃型规则时加上以φ为标记的自回绕弧,见符号B的网络.
第五章对话语境指导下的语音识别75注意到最终网络中三条特殊弧:一条是自起始节点到终止节点的空弧,这是为了识别器能识别空句子;一条是自终止节点到起始节点以ω标记的非活动词弧;一条是自终止节点到起始节点以φ标记的补白弧.
非活动词弧和补白弧在下小节会有解释.
2).
非确定有限自动机的确定化.
确定化的中心思想是,从起始节点出发,将出弧符号相同的后继节点归成一个节点集,然后从该节点集出发,继续此归类过程,直至再没有新节点集成年为止.
以所有节点集为新节点,生成新的自动机,它就是确定有限自动机.

3).
确定有限自动机的简化.
上面生成的有限自动机虽然是确定化的,但可能会规模比较大,此时需要简化.
简化的中心思想是,首先将节点按是否是终结节点进行分割,然后从一个已知节点集内部考察有同一符号的出弧导向不同的节点集,如果有则继续进行子集的分裂,一直到不能再分裂为止.
5.
4.
4.
定制识别器通过前文所述的操作之后,就可以定制特定期待焦点下的识别器了.
基于有限状态网络正如上一小节所述,有限状态网络的两个特性使其可以作为识别框架:一是有效性,FSN的高度预测性使路径搜索过程效率更高;二是可能性,上下文无关文法的适当子集可以表示成FSN.
因此定制的识别器基于FSN.
语义弧FSN中弧上的标号属于语义范畴.
这样做有两个特点.
1).
期待焦点下的识别器,考察语音段在语义层面而不是词法层面的归属或分类.
这跟使用关键词识别/检出有类似之处,就是强化某些单元而弱化另外一些单元.
2).
用语义层面的知识约束语音识别,识别的同时也进行了理解,可以说在一定程度上是语音识别和语言理解的一体化.
第五章对话语境指导下的语音识别76自由度焦点下的语义类通过此FSN得到了加强,但如果不允许识别通过别的期待焦点下的词或短语,那么实际上得到的是系统主导的对话模式.
识别器的自由度就是考虑的这个问题.
它具由由补白弧和非活动词弧来体现.
1).
补白弧.
补白弧可以在网络中间,比如图5.
10中B网络中的φ标记弧,这是由相应的增强规则所产生的,目的是允许密切相关语义范畴可以以跨跃的形式组合,比如"星期-嗯(补白)-六";补白弧也可以在由终止节点指向起始节点,如图5.
10下端所示,目的是使不相关语义范畴间也能跨过补白成分,比如"星期五-啊(补白)-星期六".
2).
非活动词弧.
非活动词弧由终止节点指向起始节点,其含义是让本次期待焦点之外的所有其它词由这条路径通过.
这样做的好处在于当用户不按照系统期待的方式说话时不至于通过不了识别器.
比如这样的情况,当系统提出问题"请问您要从哪儿起飞"并期待城市信息时,用户可能临时想修改别的信息,此时他的回答"星期六的吧"也能在很大概率上被定制识别所识别.
现有情况下,非活动词弧不得在网络中间出现,作者的主要考虑是认为那样做的话就违背了强化期待焦点信息的初衷,削弱了对话语境对语音识别的指导意义.
还后文中,由终止节点指向起始节点的补白弧和非活动词弧合称为自由弧.

弧对应的词表语义弧在识别过程中会对应成实际的词表.
分三种情况:1).
一般终结符对应的词表是该关键词类下的所有关键词,所有终结符对应的词表总和形成活动词集合;2).
补白标号φ对应的是补白模型,可以包括一些语言学意义上的单元,如"嗯/啊",也可以包括声学意义上的单元,比如咳嗽声模型、咂嘴声模型,在现有实现中仅包含语言学意义上的补白词;3).
非活动词标号ω对应的是关键词词表中所有的非活动词,形成非活动词集合.
权值和折扣有限状态网络中的弧有可以附加权值或折扣信息.
第五章对话语境指导下的语音识别771).
规则内部的概率描述.
在同一个非终结符下,其各右部符号间的连接可以有概率关系,形成统计的上下文无关文法.
5.
1.
3小节[Wang00]也是这样的实现方式.
网络内部各弧上可以附加以权值描述的概率分布.
2).
上层单元间N-Gram语言模型.
以期待焦点下的规则、补白弧和非活动词弧为基本单元,可以训练上层单元间的N-Gram模型.
自由弧上添加的权值即体现这种上层语言模型.
…………规则网络起始节点终止节点εia,iw,idja,jwφ,ω图5.
11有限状态网络识别器3).
折扣.
通过内部规则网络、补白弧或者非活动词弧时,可以根据需要给出不同的折扣分,使识别器具有强化某些单元而弱化其它单元的倾向性.

图5.
11是有限状态网络识别器的一般描述,其中虚线内是内部规则网络,虚线外是自由弧.
在每条弧上均有a表示的标号和w表示的权值,在通过自由弧和刚开始进入规则网络时有d表示的折扣分.
由于训练语料的缺乏,目前不能得到网络中各弧上的w值,因此均给值1;对于图中的折扣d,根据经验选出,有关系actfillerinactddd>>,其中actd、fillerd和inactd分别为进入规则网络(活动词弧)、通过补白弧、通过非活动词弧的折扣;这样做既能在补白单元的背景下突出期待焦点下的语义单元,又能在用户不配合时识别出期待焦点外的语义单元.
第五章对话语境指导下的语音识别78补白弧对应单元的处理,目前假设用户语句中不存在非语言知识所能描述的声学单元,比如咳嗽声、咂嘴声,而仅考虑语言层面的补白,比如"嗯、啊"等,这些词构成关键词表中一类以filler_word为类名的特殊关键词类.
一个有限状态网络识别器的实例可以如图5.
12所示,出于简单化考虑,对用户的期待定位于仅能说"X点"的情况.
图中节点0既是起始节点又是终止节点.
其中各终结符标号和补白标号所对应词表可以参考附录A,而非活动词弧对应的词表则是所有其它词.
对于此识别器,期待焦点下的"二十二点"、"零点"、"两点"、"十二点"等片段可经规则网络通过识别器,而象"从北京去上海"、"三张票"等也可经节点0上的自回绕弧ω通过识别器.
03142ato_10ato_1_9ato_2ato_10ato_hourato_1_3φφ,ωato_hourφato_0ato_1_10_l折扣:0actd=10fillerd=30inactd=图5.
12"X点钟"期待焦点下FSN识别器实例5.
5.
实验结果与分析5.
5.
1.
实验设计本节将在几个不同的期待焦点下对识别性的性能作一个评价.
1).
空期待焦点,以nullFocus标识.
这不是实际的情况,因为即使在对话管理器没有给出期待焦点的情况下,语言理解器也对活动规则作了限定,也就是下面的第4种情形.
空期待焦点下规则网络为空,识别器退化成图5.
13所示的情形,若将标号φ和ω对应的标号展开成词表,那么这形成一个由补白模型和全部关键词组成的平行网格,这就是关键词检出的识别器.
第五章对话语境指导下的语音识别79起始终止节点ωφ图5.
13nullFocus下FSN识别器2).
日期时刻期待焦点,以timeFocus标识.
此时活动规则集含有90条规则,描述了包括"X月X日(号)"、"星期(礼拜/周)X"、"X点X分"等所有关于日期和时刻表达的语句片段;另外一些疑问词比如"哪些"、"什么"等也作为基本词纳入了规则网络.
关于日期时刻的表达在EasyFlight中是最为复杂的,这部分规则条目比较多,形成的网络也比较庞大,包括88个节点和996条弧.
3).
时间-地点期待焦点,以_timelocFocus标识.
这里的时间指上面第2条中的日期时刻,而地点指的是航班的地点情况,包括"从X到X"、"到X"、"从X飞到X转X"的各种模式.
在2的基础上添加了描述地点的规则,总规则个数为103,相应FSN网络含有95个节点和1173条弧.
4).
平凡期待焦点,以fullFocus标识.
它以_timelocFocus为基础,加上对航班号(如"CA131")、数字(从1到9999)、身份证号码、票数等其它关键信息的描述,此时活动规则集含有141条规则,FSN网络含有233个节点和3445条弧.
测试集为EasyFlight领域下的相关500条语句,分别是5个录音者的语音,每人100句,在16K采样(针对声卡语音),识别时使用42维MFCC特征(13维MFCC+1维能量,一阶差分及二阶差分).
表5.
2整句音节识别率结果指标(%)纯声学nullFocustimeFocus_timelocFocusfullFocus正确率-cor69.
6070.
8274.
0675.
5973.
00准确率-acc68.
9669.
2172.
3373.
9471.
49漏检率下降1-3.
0613.
8218.
9010.
30错误率下降1-0.
8110.
8616.
048.
15漏检率下降2--11.
1016.
357.
47错误率下降2--10.
1315.
367.
40注:1).
第三、四行数据分别为:与第一列相比(1-cor)和(1-acc)的下降率;2).
第五、六行数据分别为:与第二列相比(1-cor)和(1-acc)的下降率.
第五章对话语境指导下的语音识别805.
5.
2.
实验结果针对这个测试集,作者分别使用不同对话状态下的有限状态网络识别器进行识别,音节识别率如表5.
2所示.
表中第1列纯声学表示在没有任何语言或更高层知识的约束而进行的音节解码结果.
表5.
3分类语义单元音节识别率结果指标(%)nullFocustimeFocus_timelocFocusfullFocus正确率-cor75.
6483.
9385.
0572.
09准确率-acc72.
9566.
9474.
3761.
69漏检率下降319.
8747.
1450.
828.
19错误率下降312.
85-6.
5117.
43-23.
42漏检率下降416.
5244.
9348.
774.
35错误率下降412.
15-7.
3716.
76-24.
42注:1).
第三、四行数据分别为:与表5.
2第一列相比(1-cor)和(1-acc)的下降率;2).
第五、六行数据分别为:与表5.
2第二列相比(1-cor)和(1-acc)的下降率.
为考察不同期待焦点下的不同语义单元的识别率,对识别结果进行了标注,将其中的语义单元分成集外词-O(9.
1%)、补白-F(8.
4%)、基本疑问词-B(6.
9%)、时间单元T(20.
8%)、地点单元L(14.
5%)和其它单元I(40.
3%)等六类.
期待焦点与分类语义单元的对应如下:nullFocus-B+T+L+I+FtimeFocus-B+T;_timelocFocus-B+T+L;fullFocus-B+T+L+I.
分类语义单元的识别率如表5.
3所示.
5.
5.
3.
结果分析观察上一小节的实验统计结果,可以有如下分析:1).
nullFocus时,整句识别率与纯声学识别率相当,分类语义单元错误率则有12.
85%或12.
15%的降低.
这是因为nullFocus情况下识别网络平行,除了词的知识以外没有别的高层知识的指导;在扣除了集外词的因素之后,分类语义单第五章对话语境指导下的语音识别81元识别率自然会比纯声学识别率要好.
在后续讨论中以nullFocus情况下整句音节识别率为基准,即正确率70.
82%,准确率69.
21%.
2).
考察表5.
2中的后三列,在timeFocus、_timelocFocus和fullFocus三种情况下,漏检率分别下降了10.
10%、16.
35%和7.
47%,错误率分别下降了10.
13%、15.
36%和7.
40%.
这说明在使用了语义连接关系之后,整体识别性能有大约10%的提高.
3).
考察表5.
3列中的中间两列,在timeFocus和_timelocFocus两种情况下,漏检率的降低分别达到44.
93%和48.
77%,有很大提高.
4).
在分类语义单元的漏检率性能有很大提高的同时,timeFocus情况下错误率稍有上升,_timelocFocus情况下错误率有比较大的下降——16.
76%.
这主要是由于实验设计中将所有日期时间的规则均纳入了相应期待焦点下的FSN识别器,网格规模过于庞大,日期时间单元的FSN困惑度很高而引起的;在_timelocFocus期待焦点下引入了结构相对简单的描述地点的规则之后,错误率的降低主要是由地点类语义单元错误率的降低而带来的贡献.
这种现象表明,特定期待焦点下定制的FSN识别器的复杂性应该适中,才能保证比较好的错误率.
错误率性能不高的主要原因是插入错有比较大的提高,但从FSN的构成方式来说,网络中的φ和ω弧均是相应规则的增强特性本身所决定和产生的,自然语言理解部件对这些插入的垃圾已经有很好的处理,因此漏检率在整个处理框架中的意义远远大于错误率.
5).
考察表5.
3中最后一列,即fullFocus情况下的识别性能,漏检率稍有下降,而错误率有较大提高.
这是由于:a).
网络规则过于庞大,困惑度高;b).
评价时针对所有I类和F类单元进行,而I类的语义单元并没有被平凡期待焦点下的规则完全覆盖.
这个现象进一步验证了上面第4点的观点.
基于以上分析,有结论如下:1).
从整体提高了识别识别性能;2).
在非平凡期待焦点下,相关语义单元的漏检率有很大的降低;3).
由于第2条结论,在用户与系统的配合程度比较高的前提下,语音识别性能将有较大提高.
第五章对话语境指导下的语音识别825.
6.
小结本章介绍了一种使用对话语境知识对识别进行指导的识别机制,特别地以对话期待焦点、语言理解器的适应和有限状态网络自动机作为实现手段,它具有以下特点:1).
避开或弥补了特定小领域下语言模型不易获得的缺陷;2).
使用对话语境知识作为识别约束机制,提高了每个状态下期待语义信息的识别率;3).
在所提出的识别框架中,将关键词检出、有限状态网络文法、词类语言模型、统计上下文无关文法等多种识别机制融入一体,有很强的兼容性和可扩展性.
4).
FSN识别器的拥有比较高的自由度,在强化当前期待焦点下的语义单元的识别的同时,也能容许其它语义单元通过识别器,给采用混合主导的对话主导策略提供了基础.
5).
特定期待焦点下的实验结果表明,在FSN粒度适中的情况下,焦点下相关语义单元的识别性能有比较大的提高,整句音节识别性能也有改善.
总之,将对话语境知识应用于语音识别的机制,有效地提高了特定领域下对话系统的语音识别率,具有理论价值和实际意义.
第六章系统构建83第六章系统构建本章将就本论文研究背景的对话系统实例"航班信息系统EasyFlight"本身进行讨论,内容包括语言理解框架的可定制化、体系结构等.
6.
1.
系统描述在相关科技人员的努力下,近几年语音技术和语言理解技术在有着相当快速的发展,这使得以语音作为媒介的自动信息服务系统的出现成为可能,而且研究和市场的需要也在快速增加.
在这种背景下口语对话系统应运而生,它提供了节省人力并大规模扩大业务量的可能.
航班信息系统EasyFlight的目的,在于以语音为接口,通过公用电话网络,向大众提供航班信息查询及订票服务.
这包括以下条件的确定:(1)起点城市,(2)终点城市,(3)出发时刻,(4)到达时刻,(5)航班号,(6)机型,(7)票数,(8)身份证号码;要求得到以下信息:(1)有无航线,(2)有无航班,(3)航班时间信息,(4)机型信息,(5)有无余票及票数,(6)价格;并进行如下操作:(1)订票.
电话口语对话系统要解决的几个主要问题有:一、电话信道上的窄带信号处理;二、电话信道中的噪声;三、对话中的口语现象;四、对话的知识表示及历史信息的利用.
具体到EasyFlight系统中,主要侧重于从语音识别、语言理解和对话管理等方面解决上述问题,信号处理方面没有涉及.
这其中就要将前几章提到的研究成果应用与该系统中.
6.
2.
语言理解框架的可定制化在对话系统的需求也越来越多的背景下,语音识别、语言理解和对话管理各种核心技术的可移植性和可定制性显得越来越重要.
本节将在作者语言理解核心技术的基础上讨论语言理解模块可定制化.
为兹对比,先简单介绍一个对话系统研究领域内的比较有代表性的语言理解系统——TINA[Seneff92].
第六章系统构建84与作者的方法相同的是,TINA中使用语义范畴来编写文法,该文法既用于语言理解,也用于语言生成(随机选择相同左部符号的规则);不同的是,TINA采用自顶向下的文法分析器,语义分析也用自顶向下的方法.
类似于[Wang00]中提到的方法,TINA的主要特点在于使用概率来描述同一节点(成分)下子节点之间的连接关系.
其作法是将同一非终结符的规则用一个概率有限状态网络来描述,弧中各节点为该非终结符的所有子符号.
系统先使用不带概率的文法对一个规模有限的领域语料进行分析,在分析结果中统计每一个非终结符对应各子节点之间同现频度,然后得到概率网络中各弧上的概率连接关系.
一个初始分析结果和相应的概率网络如图6.
1所示.
"theboy""abeautifultown""acutelittlebaby""thewonderfulpudding"[NP][article][noun][NP][article][adjective][noun][NP][article][adjective][adjective][noun][NP][article]]adjective][noun]startarticleadjectivenounend1.
0.
25.
25.
75.
751.
0图6.
1初始分析结果和概率有限状态网络这种方法的好处有两点,一是即使待分析句子不在原始文法描述范畴之内,经概率平滑之后仍有可能通过分析器,二是简化了训练及识别,因为这实际上是非终结符下的N-Gram.
坏处是这样做破坏了CFG的深层结构,分析生成的结构不能由原始文法直接描述(也就是过度生成的问题——OverGeneration),而需要进行进一步分析.
由此可见,TINA中语言理解模块的构成需要这样几步:1).
由应用领域专家或系统设计人员提供初始文法;2).
提供一个领域内初始语料集,应用此初始文法对该语料进行分析,得到每个非终结符的统计有限状态网络描述;3).

为特定领域提供语义分析部件.
第六章系统构建85在面对可制定化的要求时,上面的第1步和第2步比较容易改造,而第3步由于过度生成的问题将比较困难.
事实上,TINA确实没有涉及到可定制化的讨论.
而分析作者提出的语言理解框架,其中与领域无关的部分有上下文无关增强文法的定义、文法的编译、Marionette分析算法、语义解释函数树,与领域相关的则有关键词表、语义文法文本、符号的语义解释函数.
在该框架下,系统设计人员只需提供或替换分类关键词表、语义文法和符号解释函数,就可以将该框架移植到新系统中.
与领域无关的处理在新系统中下保持不变:文法的内部表示经离线自动编译生成;而文法分析和语义解释函数树的处理则在在线状态下完成.
Marionette分析器文法编译语义解释函数树关键词表语义文法文本符号语义解释函数词类串/网络输入语义框架输出与领域无关与领域相关在线离线图6.
2定制化的语言理解框架定制化的语言理解框架如图6.
2所示,这个框架的对于对话系统的可移植性是一个比较大的贡献.
在EasyFlight平台中结合该框架的定制结点给出了关键词表和语义文法的编写、维护工具,这在后文描述演示平台时会有图示.
而关于符号语义解释函数的可定制化,系统目前的实现是以几个独立的C++原码文件的形式来提供,虽然这与脚本语言的现实有友好程度上的区别,但不妨碍理解框架的定制特性.

6.
3.
体系结构EasyFlight中各核心部件的关系、数据流程以及模型/知识库如图6.
3所示.
第六章系统构建86可以看到该系统的最大特点是语义的无所不在性,语义在各个模块间或作为数据传递,或作为高层知识约束机制从后端反馈到前端.
这种语义为中心的系统结构最大程度地利用了领域知识,与此同时也体现了算法与领域知识的脱离.

语音识别器N-best/关键词Marionette分析器语义解释器对话管理器分析树/森林语义框架声卡/电话信道文本平台文本文本语音识别自动机期待焦点语音文法关键词表解释函数声学模型历史知识数据库图6.
3EasyFlight系统结构略图对话框架对话引擎1通道监控录放音语音识别语言理解对话管理2…语音块词序列/网格识别自动机语义框架期待焦点应答应答应用平台注:圆圈表示命令与消息,方框表示数据图6.
4EasyFlight运行时结构以电话信道工作模式为例,系统运行时结构如图6.
4所示,它以消息/命令第六章系统构建87为趋动,数据的交换在上下级对象间进行,并以多线程的方式提供多用户接入.

在此结构下一次运行实例可以这样描述:1).
系统启动后,应用平台启动对话框架,进入等待状态;2).
通道监控检测到振铃信号后,向对话框架发送振铃消息及其通道号;3).
对话框架动态地生成一个对话引擎,对话引擎的各子对象同时生成;4).
对话管理给出欢迎语句,开始对话过程;5).
用户话语经语音采集、语音识别、语言理解到对话管理,对话管理给出应答通过信道播出,并更新下一回合的定制识别器;6).
当通道监控检测到该通道摘机信号,或者对话管理发出终止对话请求时,对话框架终止相应对话引擎的工作,挂断相应通道;7).

当系统管理员关闭系统时,从子对象开始依次销毁,释放资源.
6.
4.
演示平台图6.
5EasyFlight演示平台EasyFlight是一个演示平台,在很大程度上又是一个研究用平台,这决定了它有以下这些特点:第六章系统构建881).
作为本文语言理解研究和语音识别实验沿革的见证,它保留了文本、声卡、电话信道等三种工作模式.
在文本工作模式下,可以排除语音识别问题的干扰,单独考察语言理解的模块的情况.
而声卡工作模式提供了单机演示的可能.
2).
中间信息的可视化输出.
这其中包括语音波形、识别/分词结果、分析树和语义框架等信息.
如图6.
5所示,演示平台分为三个工作空间,上部为命令空间,可展示语音波形和进行识别、查询等各种操作;左部为分类信息树空间,右部为明细信息空间,在选中分类信息树中某一项后相关信息在明细信息空间中显示.
正如6.
2节所提到的,作为语言理解框架可定制化的实现,演示平台提供了关键词表和语义文法的维护工具.
在图6.
5中,如果在分类信息树中选择"关键词"项,则在明细信息空间中可以修改关键词表;而在选择了"规则-规则文本"项后,则可以修改系统的语义文法,包括规则本身、类型标注、分级标注以及类别标注.
这是演示平台最重要的功能.
关键词表和语义文法的设计虽然有些文献[Siu99]提到使用半自动的方法产生文法,本文仍然使用手工的方法来编写文法,因为在使用语义类的情况下,熟悉领域特点的系统设计人员很容易写出文法,工作量也不大.
文法的编写牵涉到两个主要问题,第一是终结符的层次,即知识点细化到什么程度才用终结符表达.
以EasyFlight中最为复杂的关于日期和时间的表达为例,本文处理的原则是使用规则来描述这些概念,比如用"二十号"被拆分成"{{ato_2_3}{ato_10}}{ato_day}",而不是将它们直接作为关键词.
这一方面避免了词表的过分庞大,另一方面也能方便地描述某些概念的多种表达方式.

第二个问题是文法的简单性和可读性.
这里要求对领域内的概念有透彻的了解,在横向和纵向两个方面对概念作分类,在不降低文法的可读性的前提下保证文法简单性.
EasyFlight的分类关键词表和语义文法分别如附录A和附录B所示.
第六章系统构建896.
5.
对话例虽然有些对话系统的研究人员提出他们对本系统的评价文法,比如Hanrieder[Hanrieder98]等人的黑盒与透明盒的策略,其中包括TurnDuration(长度)、DialogueDuration(对话长度)、CorrectionRate(修正次数)、TransationsSuccess(对话成功率)、WordAccuracy(词正确率)及ConceptAccuracy(概念正确率)等,但一般说来,对话系统的评价是一个比较困难的工作,主要是因为不同的对话系统间差异太大,没有通用的评价标准.
特别地对于航班等公共信息的特定任务,以下三点也是难以解决的问题[Polifroni00]:1).
时间信息的自然变化性,使得前后进行的测试缺乏可比性;2).
在航班系统中,人们总是询问最近的时间,使得后来进行的重运行都是基于"过去的时间";3).
语音识别、语言理解、对话管理的变化,导致前后系统在某些方面的不可比.
有鉴于这些困难,EasyFlight系统目前还没有进行正式的评价,但至少我们可以以实例来简单地考察系统的表现.
图6.
6是一个实际的对话片段,其中U表示用户语句,S表示系统应答.
用户行中的语句,括号外是系统识别出的词序列(不一定按时间顺序),括号中是用户语音对应的真实句子.
在U3/S3时,系统没有正确理解出用户"明天"的意思,给出了"不明白"的提示;在U4/S4时,用户"那后天……"的意思被理解成"大后天",用户在U5时给出更正.
S:您好,欢迎使用本航班查询订票系统!
U:从北京(从北京)S:从北京.
您要问去哪儿的航班U:上海幺(我要去上海)S:到上海.
您想问哪一天的U:零八天(明天的吧)S:对不起,我不明白您说的话.
到上海.
您想问哪一天的U:大后天(那后天呢)S:大后天.
查到14个起飞时间,您要问大概什么时候的U:后天(后天)S5:后天.
查到13个起飞时间,您要问大概什么时候的图6.
6一个对话例子(片段)第六章系统构建90从这个例子中可以看出,该系统只关心用户语句中关键之处,这表现为容许比较随意的口语输入,而这对于对话系统的实用化来说是必不可少的.
此外,在对话过程中给出信息回馈,以便用户发现错误,这也使得对话的长度得以缩短.
6.
6.
小结本章介绍了有关航班信息系统EasyFlight构建的一些问题,给出了系统描述、体系结构,并讨论了在该演示平台下自然语言理解框架用户定制化的实现,最后给出一个对话片段以说明系统现状.
第七章总结与展望91第七章总结与展望7.
1.
论文工作总结本文针对对话系统中语言理解任务中的若干难点,以基于规则的方法为研究对象,在规则的描述能力、文法语义分析及对话语境对语音识别的指导诸方面进行了初步研究,提出了一些新方法、新策略,并通过实验和特定系统中的应用证明了其有效性,同时也为对话系统语言理解领域方面的深入研究奠定了一定基础.
概括来说,本文的工作重点与贡献主要体现在如下几个方面:1).
提出上下文无关增强文法针对对话系统中用户语音自发性、随意性,以及语音识别输出中插入错误、删除错误和替换错误对语言理解的规则方法带来的困难,从规则的描述能力方面来解决这些问题.
基于传统的上下文无关文法,修改规则本身的定义,附加规则类型这一增强特性,不同类型的规则具有不同的描述功能:苛刻型——与传统CFG中规则等价,跳跃型——允许规则右部各成分间插入一定量的其它成分,长程型——规则右部符号的组合比跳跃型更为自由,无序型——容许规则右部符号实际出现顺序与规则中不一致,交叉型——右部符号的组合只受占位不冲突这一限制.
对规则定义的这种修改丰富了传统的文法体系,将各种传统意义下不合文法的现象纳入规则层面来处理,对解决实际问题提供了新思路.

2).
提出一种文法与语义合一分析的语言理解框架汉语的特点,决定了其基于词类文法(即句法文法)不易归纳,通用句法体系难以得到的现实,因此提出了用相关对话领域内的语义类来编写文法,用语义文法直接描述输入词串.
对传统的自底向上文法分析算法进行改进,使其具备跨成分归结的特性,体现上下文无关增强文法的优势;从语义结构特点的角度归纳歧义消解的经验性准则;对规则添加索引,并按语义结构对规则进行分级,以提高算法的分析效率.
略去了句法分析这一步骤,文法分析得到的分析树即为语义树,以语义解释函数树的机制进行从分析树到语义框架的转换.

该语言理解框架中,算法与知识脱离,在很大程度上体现了语言理解的定制化第七章总结与展望92和可移植性.
在实验中对特定领域内100句达到78%的理解成功率,表现了针对口语现象干扰的鲁棒性.
3).
提出对话语境知识在语音识别中的应用方法目前的各种语音识别方法,或由于能力太弱而不适应对话系统的复杂性,或由于要求大批数据的支持而可行性较差,在实际应用任务中的性能均不太令人满意.
为改善对话系统中语音识别的性能,给出了对话语境知识在识别中应用的框架模型,利用对话管理器给出期待焦点信息,确定对应焦点下的活动词表、活动规则集,生成相应的识别自动机.
该方法用语义知识加之于识别时的搜索过程,在识别的同时进行片段理解.
在特定期待焦点的约束之外提供使其它语义单元得以通过的自由度.
该识别框架具有良好的可扩展性,将诸如规则、统计和经验等知识融入一体.
实验结果表明,在整体错误率下降约10%的前提下,相关语义单元的漏检率有超过40%的下降.
此外,在作为本文研究背景的电话航班信息查询与订票系统EasyFlight本身,作者亦做了大量工作,包括系统体系结构的设计、分类关键词表的归纳、语义文法的归纳、演示平台的集成等.
该系统提供了语音识别、语言理解和对话管理各项核心技术的实验平台,具有良好的可扩展性、可视性和友好性,对本文和其它相关研究工作奠定了良好的基础.
7.
2.
下一步工作展望本文虽然在对话系统的自然语言方面进行了一些初步研究,提出了一些新方法和新思路,取得了一定的成果,但同时也发现了很多不足.
另外还不在本文未涉足的与自然语言理解关系密切的其它问题,它们对对话系统的性能和应用前景也有着很大关系.
作者在此就这些方面做如下展望.
1).
统计方法在语音识别及语言理解中的应用本文主要从基于规则的方法进行语言理解方面的研究,但实际上,规则方法和统计方法各具优势.
规则方法在领域小或简单时比较方便,但它(特别是本文提到的自然语言理解框架)的弱点在于需要比较多的人工干预,这表现在:1).
需要设计人员对领域特点的了解相当深入,以便总结出简单、高效而又具有良好可读性的文法;2).
语义解释函数(或过程)需要针对语义规则进行逐条设计,语义解释函数必须随语义规则改变而同步更新.
同时,本文提到的对话语第七章总结与展望93境对语音识别的指导机制,虽然引入了一定的自由度,但在面对未预料到的概念表达方式时仍然缺乏足够的灵活性.
因此可以考虑统计方法在语音识别和语言理解方面的使用,将其与规则方法进行结合.
统计方法的好处在于:1).
弥补人工经验知识的不足.
经验性的知识可以认为总是不够的,而统计方法描述平均规律的特性往往能覆盖经验性知识所忽略之处.
2).
模型或规律的(半)自动获得性.
给定数据,统计方法可以自动获得模型,数据越多模型也越精确(当然有上限).
统计和规则的结合可以从两个方面来进行:1).
统计和规则统一的语言模型,比如说可以落实到N-Gram和CFG的统一,既将语言理解提前应用,又提供足够的自由度.
2).
统计方法进入语义分析,在分析得到的中层概念的基础上,基于统计规律"猜测"用户的意图.
2).
语言理解和对话管理的可定制化虽然本文中的自然语言理解框架在一定程度上表现了定制的特性,但仍然有一些缺点,主要表现在定制化的层次比较低,要求系统设计人员提供系统文法和语义解释函数,而不是以更表层、直观的形式进行定制.
这个问题可以通过文法的(半)自动获取来解决,这里的文法(Grammar)可以是统计的也可以是规则的.
可以以一个初始文法为基础,经过对新语料的处理逐步地发现新的规律,也可以完全经由领域语料自动抽取文法.
目前在这方面的研究还很初步,可以考虑借鉴数据挖掘领域的研究成果.
另外,目前对话管理器的构建仍然是经验式的,由系统设计人员根据领域特点制定对话模型,以规则的方式确定特定对话状态下的应答与后台操作策略,对话管理模型与数据库的交互协议也往往是各具特质的.
显然这与当前对对话系统越来越多的需求不相适应,因此对话管理方法的可定制化也是很重要的一个课题.
对话管理方法的可定制化需要解决两个问题:1).
通用对话模型的归纳(这里的通用可以限定在某些领域内),主要涉及到有关问题求解的知识表示、推理方法的一般化描述;2).
领域知识和对话模型(元知识)的分离,将二者之间的界线清晰化,并且领域知识的提供要具有简单性,降低新系统的构建工作量.

目前这方面的研究任重而道远.
参考文献94参考文献[1]AllenJ.
,(Allen95)"NaturalLanguageUnderstanding",2ndedition,Benjamin/CummingsPublishingCompany,RedwoodCity,California,1995.
[2]AmmichtE.
,GorinA.
,andAlonsoT.
,(Ammicht99)"KnowledgeCollectionforNaturalLanguageSpokenDialogSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[3]AsohH.
,MatsuiT.
,FryJ.
,AsanoF.
,andHayamizuS.
,(Asoh99)"ASpokenDialogSystemforaMobileOfficeRobot",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[4]BaptistL.
,andSeneffS.
,(Baptist00)"Genesis-II:AVersatileSystemforLanguageGenerationinConversationalSystemApplications",Proc.
6thInternationalConferenceonSpokenLanguageProcessing,Beijing,ChinaOctober2000.
[5]BellL.
,andGustafsonJ.
,(Bell99)"InteractionwithanAnimatedAgentinaSpokenDialogueSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[6]BernsenN.
O.
,DybkjaerL.
,HeidU.
,(Bernsen99)"CurrentPracticeintheDevelopmentandEvaluationofSpokenLanguageDialogueSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[7]BorosM.
,andHeisterkampP.
,(Boros99)"LinguisticPhraseSpottinginaSimpleApplicationSpokenDialogueSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[8]ByronD.
K.
,(Byron99)"ImprovingDiscourseManagementinTRIPS-98",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[9]陈火旺,钱家骅,孙永强,(Chen84)"程序设计语言编译原理",国防工业出版社,1984年6月第2版.
[10][美]诺姆·乔姆斯基,"句法结构",(Chomsky57)邢公畹等据1957年本译,中国社会科学出版社,1979年版.
[11]DeinzerF.
,FischerJ.
,AhlrichsU.
,NothE.
,(Deinzer99),"LearningofDomainDependentKnowledgeinSemanticNetworks",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[12]DeneckeM.
,andWeibelA.
,(Denecke97)"DialogueStrategiesGuidingUserstoTheirCommunicativeGoals",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
参考文献95[13]EhrlichU.
,andChryslerD.
,(Ehrlich99)"TaskHierarchiesRepresentingSub-DialogsinSpeechDialogSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[14]EpsteinM.
,PapineniK.
,RoukosS.
,etal.
(Epstein96)"Statisticalnaturallanguageunderstandingusinghiddenclumpings",IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessingVol1,Atlanta:1996.
176-179.
[15]范晓,(Fan96)"三个平面的语法观",北京语言文化大学出版社,1996年1月第1版.
[16]冯俊兰,(Feng01)"口语语音识别的声学建模改进和解码方案研究",博士学位论文,中国科学院声学研究所,2001年2月.
[17]GeorgilaK.
,TsopanoglouA.
,FakotakisN.
,andKokkinnakisG.
,(Georgila98)"AnIntegratedDialogueSystemfortheAutomationofCallCentreServices",ProceedingsofICSLP'98,Sydney,Australia,November1998.
[18]GeorgilaK.
,FakotakisN.
,andKokkinakisG.
,(Georgila00)"BuildingStochasticLanguageModelNetworksBasedonSimultaneousWord-PhraseClustering",ProceedingsofICSLP2000,Beijing,2000.
[19]GeorgilaK.
,FakotakisN.
,andKokkinakisG.
,(Georgila01)"EfficientStochasticFinite-StateNetworksforLanguageModellinginSpokenDialogueSystems",ProceedingsofEuroSpeech2001Scandinavia,2001,Aalborg,Denmark.
[20]GrisvardO.
,andGaiffeR.
,(Grisvard99)"AnEvent-BasedDialogueModelanditsImplementationinMultiDial2",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[21]GustafsonJ.
,LindbergN.
,andLundebergM.
,(Gustafson99)"TheAugustSpokenDialogueSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[22]GuoQ.
,YanY.
H.
,LinZ.
W.
,YuanB.
S.
,ZhaoQ.
W.
,LiuJ.
,(Guo00),"KeywordSpottinginAuto-AttendantSystem",ISCSLP2000,223-225.
[23]Hakkani-TurD.
,TurG.
,StolckeA.
,andShribergE.
,(Hakkani-Tur99)"CombiningWordsandProsodyforInformationExtractionfromSpeech",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[24]HanriederG.
,HeisterkampP.
,andBreyT.
,(Hanrieder98)"FlywithTheEAGLES:Evaluationofthe"ACCeSS"SpokenLanguageDialogueSystem",ProceedingsofICSLP'98,Sydney,Australia,November1998.
[26]HirasawaJ.
-I.
,NakanoM.
,KawabataT.
,AikawaK.
,(Hirasawa99)"EffectsofSystemBarge-inResponsesonUserImpressions",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
参考文献96[27]HuangC.
,XuP.
,ZhangX.
,ZhaoS.
,HunagT.
Y.
,andXuB.
,(Huang99a)"LODESTAR:AMandarinSpokenDialogueSystemforTravelInformationRetrieval",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[28]黄泰翼,黄超,赵树彬等,(Huang99b)"面向问题求解的人机口语对话系统-LODESTAR",智能计算机接口与应用进展会议,电子工业出版社,pp.
91-98,1999.
[29]HuguninJ.
,andZueV.
,(Hugunin97)"OntheDesignofEffectiveSpeech-BasedInterfacesforDesktopApplications",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[30]IssarS.
,(Issar97)"ASpeechInterfaceforFormsonWWW",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[31]RelanoGilJosé,TapiasDaniel,VillarJuanM.
,GancedoMariaC.
,HernándezLuisA.
,(José99)HernándezLuisA.
,"FlexibleMixed-InitiativeDialogueforTelephoneServices",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[32]JunkawitschJ.
,RuskeG.
,andHogeH.
,(Junkawitsch97)"EfficientMethodsforDetectingKeywordsinContinuousSpeech",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[33]KarssonF.
,andKarttunenL,(Karsson96)"Sub-SententialProcessing",InColeR.
A.
,MarianiJ.
,UszkoreitU.
,ZaenenA.
,andVictorZue,editors,SurveyoftheStateoftheArtinHumanLanguageTechnology,chapter3.
2,1996,http://www.
cse.
ogi.
edu/CSLU/HLTsurvey/HLTsurvey.
html[34]KellnerA.
,RuberB.
,SeideF.
,etal.
(Kellner97)"PADIS-Anautomatictelephoneswitchboardanddirectoryinformationsystem",SpeechCommunication,23:95-111,1997.
[35]KonoY.
,YanoT.
,andSasajimaM.
,(Kono98)"BTH:AnEfficientParsingAlgorithmforWord-Spotting",ProceedingsofICSLP'98,Sydney,Australia,November1998.
[36]KrahmerE.
,SwertsM.
,TheuneM.
,WeegelsM.
,(Krahmer99),"ProblemSpottinginHuman-MachineInteraction",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[37]LarsenL.
B.
,(Larsen97)"AStrategyforMixed-InitiativeDialogueControl",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[38]LauR.
,andSeneffS.
,(Lau97)"ProvidingSublexicalConstraintsforWordSpottingwithintheAngieFramework",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[39]LavelleC.
A.
,CalmesM.
,andPerennouG.
,(Lavelle99)"ConfirmationStrategiesto参考文献97ImproveCorrectionRatesinaTelephonicInquiringDialogueSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[40]LinQ.
G.
,LubenskyD.
,PichenyM.
,andRaoP.
S.
,(Lin97)"Key-phraseSpottingUsinganIntegratedLanguageModelofN-GramsandFinite-StateGrammar",EuroSppech'97.
[41]LinY.
C.
,ChiangT.
H.
,WangH.
M.
,PengC.
M.
,(Lin98)andChangC.
H.
,"TheDesignofaMulti-DomainMandarinChineseSpokenDialogueSystem",ProceedingsofICSLP'98,Sydney,Australia,November1998.
[42]LinB.
S.
,WangH.
M.
,andLeeL.
S.
,(Lin99)"ConsistentDialogueAcrossConcurrentTopicsBasedonanExpertSystemModel",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[43]Lopez-CozarR.
,Rubio,A.
J.
,GarciaP.
,andSeguraJ.
C.
,(Lopez-Cozar99)"ANewWord-ConfidenceThresholdTechniquetoEnhancethePerformanceofSpokenDialogueSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[44]MengH.
M.
,LamW.
,andWaiC.
,(Meng99)"ToBelieveistoUnderstand",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[45]NakanoM.
,DohsakaK.
,MiyazakiN.
,HirasawaJ.
I.
,TamotoM.
,KawamoriM.
,SugiyamaA.
,KawabataT.
,(Nakano99)"HandlingRichTurn-TakinginSpokenDialogueSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[46]NasrA.
,EsteveY.
,BechtF.
,SprietT.
,andMorideR.
,(Nasr99)"ALanguageModelCombiningN-gramsandStochasticFiniteStateAutomata",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[47]NiimiY.
,andNishimotoT.
,(Niimi99)"MathematicalAnalysisofDialogueControlStrategies",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[48]NothE.
,HarbeckS.
,NiemannH.
,WarnkeV.
,"AFrameandSegmentBasedApproachforTopicSpotting",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[49]NothE.
,BorosM.
,HaasJ.
,WarnkeV.
,andGallwitzF.
,(Noth99)"AHybridApproachtoSpokenDialogueUnderstanding:Prosody,StatisticsandPartialParsing",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[50]OcelikovaJ.
,andMatosekV.
,(Ocelikova99)"ProcessingofAnaphoricandEllipticSentencesinaSpokenDialogSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[51]OrtmannsS.
,NeyH.
,(Ortmanns00)"Look-aheadTechniquesforFastBeamSearch",ComputerSpeechandLanguage,2000,14,p15-32.
参考文献98[52]OsE.
D.
,BovesL.
,LamelL.
,andBaggiaP.
,(Os99)"OverviewoftheARISEProject",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[53]PapineniK.
A.
,RoukosS.
,andWardR.
T.
,(Papineni99)"Free-flowDialogManagementUsingForms",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[54]PargellisA.
,KuoJ.
,andLeeC.
H.
,(Pargellis99)"AutomaticDialogueGeneratorCreatesUserDefinedApplications",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[55]PearlmanJ.
,(Pearlman00)"SLS-Lite:EnablingSpokenLanguageSystemsDesignforNon-Experts",M.
Eng.
thesis,MITDepartmentofElectricalEngineeringandComputerScience,August2000.
[56]PieracciniR.
,andLevinE.
,(Pieraccini92)"StochasticRepresentationofSemanticStructureforSpeechUnderstanding",SpeechCommunication,11,pp.
283-288,1992.
[57]PirkerH.
,LodererG.
,andTrostH.
,(Pirker99)"ThusSpoketheUsertotheWizard",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[58]PolifroniJ.
,andSeneffS.
,(Polifroni00)"Galaxy-IIasanArchitectureforSpokenDialogueEvaluation",Proc.
SecondInternationalConferenceonLanguageResourcesandEvaluation(LREC),Athens,Greece,May31-June2,2000.
[59]PriceP.
,(Price90)"EvaluationofSpokenDialogueSystems:TheATISDomain",ProceedingsoftheARPAHumanLanguageTechnologyWorkshop,1990,pp.
91-95.
[60]RabinerL.
R.
,(Rabiner89)"ATutorialonHiddenMarkovModelsandSelectedApplicationinSpeechRecognition",InProceedingsoftheIEEE,volume77-2,pages257--286,1989.
[61]RiesK.
,(Ries97)"TowardstheDetectionandDescriptionofTextualMeaningIndicatorsinSpontaneousConversations",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[62]SasajimaM.
,YanoT.
,andKonoY.
,(Sasajima99)"EUROPA:AGenericFrameworkforDevelopingSpokenDialogueSystems",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[63]SchadleI.
,AntoineJ.
V.
,MemmiD.
,(Schadle99)"ConnectionistLanguageModelsforSpeechUnderstanding:TheProblemofWordOrderVariation",ProceedingsofEruoSpeech'99.
[64]ScottD.
,andKampH.
,(Scott96)"DiscourseModeling",InColeR.
A.
,MarianiJ.
,UszkoreitU.
,ZaenenA.
,andVictorZue,editors,SurveyoftheStateoftheArtinHumanLanguageTechnology,chapter6.
2,1996,参考文献99http://www.
cse.
ogi.
edu/CSLU/HLTsurvey/HLTsurvey.
html[65]SeideF.
,andKellnerA.
,(Seide97)"TowardsanAutomaticDirectoryInformationSystem",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[66]石纯一,黄昌宁,王家庆,(Shi93)"人工智能原理",清华大学出版社,1993版.
[67]SiuK.
C.
,andMengH.
M.
,(Siu99)"Semi-AutomaticAcquisitionofDomain-SpecificSemanticStructures",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[68]SeneffS.
,(Seneff92)"TINA:aNaturalLanguageSystemforSpokenLanguageApplications",ComputationalLinguistics,1992,Vol.
18,No.
1,61-86.
[69]SeneffS.
,HurleyE.
,LauR.
,etal,(Seneff98)"Galaxy-II:AReferenceArchitectureforConversationalSystemDevelopment",Proc.
ICSLP'98,Sydney,Australia,November1998.
[70]SeneffS.
,andPolifroniJ.
,(Seneff00)"DialogueManagementintheMercuryFlightReservationSystem",Proc.
ANLP/NAACL2000WorkshoponConversationalSystems,Seattle,May2000.
[71]宋战江,(Song01),汉语自然语音识别中发音建模的研究,博士论文,清华大学计算机科学与技术系,2001年4月.
[72]SpilkerJ.
,WeberH.
,andGorzG.
,(Spilker99)"DetectionandCorrectionofSpeechRepairsinWordLattices",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[73]SturmJ.
,ElsdenOs,Boves.
,(Strum99)"DialogueManagementintheDutchARISETrainTimetableInformationSystem",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[74]ThanopoulosA.
,FakotakisN.
,andKokkinakisG.
,(Thanopoulos97)"LinguisticProcessorforaSpokenDialogueSystembasedonIslandParsingTechniques",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[75]WangY.
Y.
,(Wang99)"ARobustParserforSpokenLanguageUnderstanding",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[76]WangY.
-Y.
,MahajanM.
,andHuangX.
,(Wang00)"AUnifiedContext-FreeGrammarandN-GramModelforSpokenLanguageProcessing",ProceedingsofICASSP2000,June5-9,2000,Istanbul,Turkey.
[77]WangY.
Y.
,(Wang01)"RobustLanguageUnderstandinginMiPad",ProceedingsofEuroSpeech2001Scandinavia,2001,Aalborg,Denmark.
.
[78]WuC.
H.
,YanG.
L.
,andLinC.
L.
,(Wu99)"SpeechActModelinginaSpokenDialogue参考文献100SystemUsingFuzzyHiddenMarkovModelandBayes'DecisionCriterion",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[79]WuX.
J.
,ZhengF.
,andXuM.
X.
,(Wu01)"TopicForest:APlan-BasedDialogManagementStructure",ICASSP2001,2001,SaltLakeCity.
[80]YamashitaY.
,(Yamashita97)"KeywordSpottingUsingF0ContourMatching",ProceedingsofEuroSpeech'97,September1997,Rhodes,Greece.
[81]杨开城,(Yang00)"一种基于句法语义特征的汉语句法分析器",中文信息处理学报,Vol.
14,No.
3,March2000.
[82]ZantenvanG.
V.
,(Zanten99)"UserModellinginAdaptiveDialogueManagement",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[83]郑方,(Zheng97),连续无限制语音流中关键词识别方法研究,博士论文,清华大学计算机科学与技术系,1997年5月.
[84]ZhengF.
,SongZ.
J.
,XuM.
X.
,WuJ.
,HuangY.
F.
,WuW.
H.
,andBiC.
,(Zheng99)"EasyTalk:ALarge-VocabularySpeaker-IndependentChineseDictationMachine",ProceedingsofEuroSpeech'99,September,1999,Budapest,Hungary.
[85]ZueV.
,(Zue97)"ConversationalInterfaces:AdvancesandChallenges",ProceedingsofEuroSpeech'97,keynotespeech,pp.
KN9-18.
[86]ZueV.
,SeneffS.
,GlassJ.
,etal,(Zue00)"JUPITER:Atelephone-basedconversationalinterfaceforweatherinformation",IEEETrans.
onSpeechandAudioProcessing,8(1):100--112,2000.
附录AEasyFlight关键词表101附录AEasyFlight关键词表z注:中括号中是关键词类名,同一类下每一行为一个关键词,左部为汉字形式,右部为拼音形式.
[mat_city_name]包头->bao1tou2北京->bei3jing1长春->chang2chun1长沙->chang2sha1成都->cheng2du1大连->da4lian2敦煌->dun1huang2福州->fu2zhou1广州->guang3zhou1桂林->gui4lin2贵阳->gui4yang2哈尔滨->ha1er3bin1海口->hai3kou3汉城->han4cheng2杭州->hang2zhou1合肥->he2fei2河内->he2nei4呼和浩特->hu1he2hao4te4黄山->huang2shan1济南->ji3nan2昆明->kun1ming2拉萨->la1sa4兰州->lan2zhou1洛阳->luo4yang2南昌->nan2chang1南京->nan2jing1宁波->ning2bo1齐齐哈尔->qi2qi2ha1er3汕头->shan4tou2上海->shang4hai3深圳->shen1zhen4沈阳->shen3yang2石家庄->shi2jia1zhuang1太原->tai4yuan2天津->tian1jin1乌鲁木齐->wu1lu3mu4qi2武汉->wu3han4西安->xi1an1厦门->xia4men2香港->xiang1gang3延安->yan2an1银川->yin2chuan1郑州->zheng4zhou1重庆->chong2qing4[mat_airline_code][mat_airline_name]奥地利->ao4di4li4北方->bei3fang1北欧->bei3ou1长安->chang2an1大韩->da4han2东方->dong1fang1俄罗斯->e2luo2si1法国->fa3guo2菲律宾->fei1lv4bin1芬兰->fen1lan2港龙->gang3long2贵州->gui4zhou1国际->guo2ji4汉莎->han4sha1马来西亚->ma3lai2xi1ya4美国联合->mei3guo2lian2he2美国西北->mei3guo2xi1bei3南方->nan2fang1日本->ri4ben3瑞士->rui4shi4山东->shan1dong1上海->shang4hai3深圳->shen1zhen4四川->si4chuan1泰国->tai4guo2通用->tong1yong4西北->xi1bei3西南->xi1nan2新华->xin1hua2新加坡->xin1jia1po1新疆->xin1jiang1伊朗->yi1lang3以色列->yi3se4lie4英国->ying1guo2越南->yue4nan2云南->yun2nan2中原->zhong1yuan2[mat_airline_abbr]北航->bei3hang2国航->guo2hang2南航->nan2hang2西北航->xi1bei3hang2西南航->xi1nan2hang2[mat_aircraft_type]100->yao1ling2ling2141->yao1si4yao1143->yao1si4san1146->yao1si4liu4310->san1yao1ling2312->san1yao1er4313->san1yao1san1320->san1er4ling2707->qi1ling2qi1733->qi1san1san1734->qi1san1si4735->qi1san1wu3737->qi1san1qi1744->qi1si4si4747->qi1si4qi1752->qi1wu3er4757->qi1wu3qi1762->qi1liu4er4763->qi1liu4san1767->qi1liu4qi1[mat_date_rel_day]大后天->da4hou4tian1后天->hou4tian1今->jin1今天->jin1tian1明->ming2明天->ming2tian1[mat_time_of_the_day]白天->bai2tian1傍晚->bang4wan3凌晨->ling2chen2上午->shang4wu3晚->wan3晚上->wan3shang4午后->wu3hou4下午->xia4wu3附录AEasyFlight关键词表102夜里->ye4li3夜晚->ye4wan3早->zao3早晨->zao3chen2早上->zao3shang4中午->zhong1wu3[mat_hour_sfx]半->ban4三刻->san1ke4一刻->yi1ke4整->zheng3[tag_hello]你好->ni3hao3您好->nin2hao3[tag_thanks]多谢->duo1xie4感谢->gan3xie4谢谢->xie4xie4[tag_goodbye]再见->zai4jian4[tag_i_want]告诉我->gao4su4wo3我想->wo3xiang3我想要->wo3xiang3yao4我想知道->wo3xiang3zhi1dao4我要->wo3yao4[tag_may_i_ask]查一下->cha2yi1xia4告诉我->gao4su4wo3请问->qing3wen4问一下->wen4yi1xia4[tag_book]订->ding4预订->yu4ding4[tag_from_here]从这->cong2zhei4从这里->cong2zhei4li3[tag_from]从->cong2[tag_stop]到->dao4经->jing1[tag_to]到->dao4飞->fei1飞到->fei1dao4回->hui2去->qu4转->zhuan3[tag_time_before]前->qian2以前->yi3qian2之前->zhi1qian2[tag_time_after]后->hou4以后->yi3hou4之后->zhi1hou4[tag_time_around]附近->fu4jin4左右->zuo3you4[tag_tfrom]从->cong2[tag_tto]到->dao4[tag_or]或->huo4或者->huo4zhe3[tag_and]和->he2[tag_exist]有->you3[tag_not_exist]没有->mei2you3[tag_exist_q]有吗->you3ma0[tag_exist_or_not]有没有->you3mei2you3[tag_earlier]更早->geng4zao3再早->zai4zao3早一点->zao3yi1dian3[tag_later]更晚->geng4wan3晚一点->wan3yi1dian3再晚->zai4wan3[tag_earliest]越早越好->yue4zao3yue4hao3最早->zui4zao3[tag_anytime]随便->sui2bian4[tag_latest]越晚越好->yue4wan3yue4hao3最晚->zui4wan3[tag_sel_first]第一->di4yi1最前一->zui4qian2yi1[tag_sel_previous]前面->qian2mian4前一->qian2yi1前者->qian2zhe3上一->shang4yi1[tag_sel_next]后面->hou4mian4后一->hou4yi1后者->hou4zhe3下一->xia4yi1[tag_sel_last]最后一->zui4hou4yi1[tag_is]是->shi4[tag_isnot]不是->bu4shi4[tag_is_or_not]是不是->shi4bu4shi4[tag_is_q]是吗->shi4ma0[tag_confirm]附录AEasyFlight关键词表103对->dui4好吧->hao3ba0好的->hao3de0就这次->jiu4zhei4ci4就这个->jiu4zhei4ge4就这样->jiu4zhei4yang4可以->ke3yi3没错->mei2cuo4是->shi4行->xing2[tag_deny]不->bu4不对->bu4dui4不买->bu4mai3不是->bu4shi4不要->bu4yao4算了->suan4le0[tag_what_time]哪些时间->nei3xie1shi2jian1什么时候->shen2me0shi2hou4什么时间->shen2me0shi2jian1[tag_what]哪->nei3哪个->nei3ge4哪些->nei3xie1什么->shen2me0[tag_how_many]多少->duo1shao3几->ji3[tag_rebate]打折->da3zhe2让利->rang4li4优惠->you1hui4[tag_question_mark]吗->ma0[tag_maximal]最多->zui4duo1[ato_this]这->zhei4这个->zhei4ge4[ato_next]下->xia4下个->xia4ge4[ato_next_next]下下->xia4xia4下下个->xia4xia4ge4[ato_month]月->yue4[ato_day]号->hao4日->ri4[ato_week]礼拜->li3bai4星期->xing1qi1[ato_week_zhou]周->zhou1[ato_hour]点->dian3点钟->dian3zhong1[ato_minute]分->fen1[ato_line]飞机->fei1ji1航线->hang2xian4[ato_flight]班->ban1次->ci4个->ge4航班->hang2ban1[ato_flight_no]航班号->hang2ban1hao4[ato_airline_code]公司->gong1si1航空公司->hang2kong1gong1si1[ato_aircraft_type]飞机->fei1ji1机型->ji1xing2[ato_ticket]飞机票->fei1ji1piao4机票->ji1piao4票->piao4[ato_plane]飞机->fei1ji1[ato_price]价钱->jia4qian2票价->piao4jia4[ato_money]钱->qian2[ato_departure_time]离开->li2kai1起飞->qi3fei1走->zou3[ato_arrival_time]到->dao4到达->dao4da2[ato_0_week0]日->ri4[ato_0_week1]天->tian1[ato_1_m]元->yuan2[ato_0_9_yao]八->ba1二->er4九->jiu3零->ling2六->liu4七->qi1三->san1四->si4五->wu3幺->yao1[ato_0]零->ling2[ato_1]一->yi1[ato_2]二->er4附录AEasyFlight关键词表104[ato_3]三->san1[ato_1_2]二->er4一->yi1[ato_1_3]二->er4三->san1一->yi1[ato_2_3]二->er4三->san1[ato_2_5]二->er4三->san1四->si4五->wu3[ato_1_6]二->er4六->liu4三->san1四->si4五->wu3一->yi1[ato_1_9]八->ba1二->er4九->jiu3六->liu4七->qi1三->san1四->si4五->wu3一->yi1[ato_1_9_l]八->ba1九->jiu3两->liang3六->liu4七->qi1三->san1四->si4五->wu3一->yi1[ato_1_9_er_l]八->ba1二->er4九->jiu3两->liang3六->liu4七->qi1三->san1四->si4五->wu3一->yi1[ato_2_9]八->ba1二->er4九->jiu3六->liu4七->qi1三->san1四->si4五->wu3[ato_1_10]八->ba1二->er4九->jiu3六->liu4七->qi1三->san1十->shi2四->si4五->wu3一->yi1[ato_1_10_l]八->ba1九->jiu3两->liang3六->liu4七->qi1三->san1十->shi2四->si4五->wu3一->yi1[ato_10]十->shi2[ato_100]百->bai3[ato_1000]千->qian1[ato_msc_hai]还->hai2[ato_msc_guo]多->duo1过->guo4[ato_msc_zhang]张->zhang1[ato_msc_yuan]块->kuai4块钱->kuai4qian2元->yuan2元钱->yuan2qian2[ato_msc_nei3]哪->nei3[ato_msc_ji]几->ji3[ato_msc_duoshao]多少->duo1shao3[ato_msc_keyi]可以->ke3yi3[filler_word]啊->a1的->de0呐->na4呐个->na4ge4那->nei4那个->nei4ge4呢->ne0你->ni3我->wo3蔗->zhe4蔗个->zhe4ge4这->zhei4这个->zhei4ge4嗯->en0附录BEasyFlight语义文法105附录BEasyFlight语义文法z注:为方便起见,本附录只给出规则类型的标注,而略去了规则的分级标注.

提速啦母鸡 E5 128G 61IP 1200元

提速啦(www.tisula.com)是赣州王成璟网络科技有限公司旗下云服务器品牌,目前拥有在籍员工40人左右,社保在籍员工30人+,是正规的国内拥有IDC ICP ISP CDN 云牌照资质商家,2018-2021年连续4年获得CTG机房顶级金牌代理商荣誉 2021年赣州市于都县创业大赛三等奖,2020年于都电子商务示范企业,2021年于都县电子商务融合推广大使。资源优势介绍:Ceranetwo...

轻云互联-618钜惠秒杀,香港CN2大宽带KVM架构云服务器月付22元,美国圣何塞精品云月付19元爆款!海量产品好货超值促销进行中!

官方网站:点击访问青云互联活动官网优惠码:终身88折扣优惠码:WN789-2021香港测试IP:154.196.254美国测试IP:243.164.1活动方案:用户购买任意全区域云服务器月付以上享受免费更换IP服务;限美国区域云服务器凡是购买均可以提交工单定制天机防火墙高防御保护端口以及保护模式;香港区域购买季度、半年付、年付周期均可免费申请额外1IP;使用优惠码购买后续费周期终身同活动价,价格不...

JUSTG提供俄罗斯和南非CN2 GIA主机年$49.99美元JUSTGgia南非cn2南非CN2justG

JUSTG,这个主机商第二个接触到,之前是有介绍到有提供俄罗斯CN2 GIA VPS主机活动的,商家成立时间不久看信息是2020年,公司隶属于一家叫AFRICA CLOUD LIMITED的公司,提供的产品为基于KVM架构VPS主机,数据中心在非洲(南非)、俄罗斯(莫斯科),国内访问双向CN2,线路质量不错。有很多服务商实际上都是国人背景的,有的用英文、繁体搭建的冒充老外,这个服务商不清楚是不是真...

kuaidial源为你推荐
手机内存卡数据恢复手机内存卡丢失数据如何恢复?涡轮增压和自然吸气哪个好涡轮增压和自然吸气哪个更好,优缺点是什么?滚筒洗衣机和波轮洗衣机哪个好波轮洗衣机和滚桶洗衣机哪个好?哪个更实用?闪迪和金士顿哪个好u盘是金士顿好还是闪迪好?三国游戏哪个好玩哪款三国游戏最好玩`!等额本息等额本金哪个好房贷是等额本金划算还是等额本息划算炒股软件哪个好用用手机股票软件哪个好网校哪个好哪个网校比较好?电动牙刷哪个好有人懂电动牙刷吗?飞利浦的好用还是欧乐B好用云盘哪个好网盘哪个好用?
域名注册com 大连虚拟主机 中国十大域名注册商 北京vps 万网域名管理 免费cn域名 唯品秀 hawkhost优惠码 电影服务器 webhosting 北京双线机房 日本bb瘦 hostker asp免费空间申请 免费吧 国外代理服务器地址 流量计费 电信虚拟主机 如何安装服务器系统 申请网页 更多