第26卷第4期南2002年8月JournalofN:京理工大学学报in2UniversityofSc:ienceandTechnolV01.
26No.
4Aug.
2002基于NLP的军用文书自动生成系统建模徐延勇郭忠伟周献中(南京理工大学自动化系,南京210094)摘要军用文书自动生成是c4ISR系统中的关键技术之一,是提高指挥效能必不可少的重要环节.
通过系统分析,文中阐明了c4ISR系统中军用文书生成系统的一个重要发展方向是基于自然语言处理的文书自动生成.
根据军用文书生成过程中的信息流向,提出了该系统3个模块的结构模型:信息理解模块、文书信息库模块、文书生成模块,描述了这3个模块的整体运作流程.
该模型对其它领域中基于自然语言理解的文本生成系统具有参考价值.
关键词自然语言处理,军用文书,系统建模,知识表达;文本生成分类号TP391.
11系统分析与设计思想运用智能信息技术改革军用文书传统的手工处理方式,实现军用文书生成自动化,是适应数字化战场的客观需要,是提高指挥效能必不可少的重要环节,也是C4ISR系统基础软件设计过程中需解决的关键技术之一.
本文主要对军用文书自动生成系统的结构模型进行探讨,其设计思想如下.
1.
1用NLP技术代替模板生成技术目前C4ISR系统中军用文书生成采用的是基于模板的生成技术:把军用文书制成模板,固定不变的情况设置为常量,需要变动的情况设置为变量.
在拟制文书时,参谋人员只需对预设的情况进行填空,这种方法虽然大大减少了工作量,但它显然有过于僵化、应用范围窄、适应性差、信息易丢失等缺点1』.
自然语言处理(Natur~LanguageProcessing,NLP)技术包括自然语言理解和自然语言生成2大块,显现出了在军用文书生成中的美好前景:军用文书是自然语言中的一个特定受限领域,具有自己的特点:(1)句子简练;(2)用词精确;(3)格式、记述方法固定;(4)内容相对确定,行文规范,组织有序.
这些使得军用信息理解阶段相对容易;军用文书生成阶段更有规律可寻.
利用NLP技术实现由"填空"式文书生成到"智能"式文书生成,应是c4ISR系统中文书生成的一个非常重要的方向.
1.
2基于理解、推理、自学习和知识库管理的自然语言生成系统在信息化战争中,与军用文书有关的信息量激增,指挥员执行任务时间缩短,因此,必须收稿日期:2001—01—19徐延勇男28岁博士生http://www.
paper.
edu.
cn总第125期徐延勇郭忠伟周献中基于NLP的军用文书自动生成系统建模363能够"理解"信息内容,实现智能信息处理以高效获取有用信息.
军用信息从来源内容,包括上级指示、情况通报、敌情通报、友邻情况、战况报告等;从来源方式,包括上下级与同级传来的文电、指挥员口述语言、参谋人员人工输入的信息以及单兵系统的数字情报等.
对来自不同信息源的信息理解和文书生成需要一定的背景知识,应从语料库的学习中得到,并在实际应用中不断地自学习新的知识.
词义的统计特性和模糊集的映射具有一定的误差、信息源与文书种类集合的映射关系、冗余信息的处理策略等,需要系统具有较强推理功能.
1.
3必要的人机交互军用文书的生成有很多随机因素,在军用文书自动生成系统中,仍需要充分发挥人的主观能动性和最少程度的人工干预.
只有人机合理分工、相互补充、紧密配合,才能最大限度的发挥军用文书自动生成系统的优越性.
1.
4实时性强军用文书拟制、签发、传递的时效性非常强,在系统设计中,要尽可能的在算法流程、控制机制、信息量、访问时间和存储空间上寻求最优解,达到迅速自动生成文书的要求.
2系统3大模块的组成与功能根据军用文书信息流向并结合NLP技术2l,该系统设计有3大模块:信息理解模块,文书信息库模块以及文书生成模块,下面详细介绍这3大模块的组成与功能.
2.
1信息理解模块信息理解实质是对信息源进行理解并转化为文书信息库里的一种形式化语言的过程.
根据自然语言理解的信息流向:词法一句法一语义一语用一文本意向,整个理解过程将以自动分词为前提,以词典信息为基础,以句法和语义分析为核心,以规则和背景知识为约束.
该系统基于篇章单位的理解模型可分为4个层次:词法层、语句层、段落层和篇章层.
其中词处理是基础,句处理是中心,篇章处理是最终目标.
一个大的语言单位必须在小的语言单位理解的基础上进行;而小信息源知识库管理子系统规则库ll电子信息词典指Il句中和代Il句间的耋f:1蓦霎受词法H句法H段落L-|篇章分析H分析卜叫分析H分析图1信息理解模块Fig,1Informationunderstandingmodule输出的语言单位的理解又是在大的语言单位的制约条件下获得的.
在规则库和电子词典的作用下,信息理解模块(图1)在各层次的工作如下:(1)在词法层,对与军用文书有关的信息源进行分词和词性标注.
(2)在句法层,运用句法知识将输入的句子中单词之间的次序,变成像语法树那样的某种数据结构,语义分析识别每句话所表达的实际含义,赋于句法分析所建立的数据结构所含的"意义",在句法结构和期望信息间进行映射变换.
(3)在段落和篇章层,理解句子省略成分和指代关系以及句中字里行间意义.
根据以上每后一层次的分析结果,可回溯到前一层次重新分析,以减少歧义.
输出是信语义分析====][H二==句法分析㈨叫丽词性标注-自动分词364南京理工大学学报第26卷第4期息源经过理解后在机器内部的一种形式化知识表达.
这里的规则库包括句法规则库、语义规则库、语用规则库、推理和学习规则库,知识库管理子系统引导并保证使用者对知识库进行正确的操作,包括查看、修改、删除、添加词汇及语用知识.
2.
2文书信息库模块文书信息库模块(图2)是以各个文书为类别分类建立的数据库.
每个类别文书的数据库中,提取此类文书的完全特征,并按预定框架结构和格式存储信息理解模块传过来的信息机内意义知识表达.
该模块的建立过程如下:(1)素材收集整理.
收集并分析现有各个时期、不同背景的军用文书文电,建立由大量有代表性的军用文书文电组成的语料库;对语料库进行加工,再从加工过的语料库中获取所需的知识;然后可以选用所获得的知识去分析、处理新的语料.
各类文书信息库中期望的知识表达文书内容格式规范篇章框架期望信息图2文书信息库模块Fig.
2Documentinformationbasemodule(2)文书分类建库.
通过语料库分析,结合新时期军事思想和作战原则,将军用文书按照应用范围、文体和行文关系分类.
(3)文书规律挖掘,模式库构造.
对各种军用文书进行研究,挖掘出其各自的规律性和特性,并对文书内容、格式规范、篇章结构、期望信息进行规划和建立相应模型,组成各个文书的模式库,选取适当的知识表示形式存储经过信息理解模块的与军用文书有关的信息源.
2.
3文书生成模块文书生成模块(图3)采用目标驱动的生成过程如下:根据要生成的文书种类从信息库中抽取信息,解决"说什么";然后研究用什么样的句法结构、什么样的词语,把这种信息实现为句子和文书篇章来达到"怎么说"的目的.
其信息流向为由文本意向选择目标一根据目标确定话语内容一选择话语结构一选择概念表示语义一选择适当句型一选择适当词汇一生成线形句子.
系统采用McKeown的Schema生成技术(Schema—basedGeneration)_3J把文书生成模块分为内容规划、句子规划和表层实现3部分.
内容规划是生成过程的第l阶段,根据要生成的文书来从信息库中提取信息,即决定文书的内容,它的结果将直接影响到后面的2个阶段.
句子规划介于内容规划和表层生成之间,是两者的桥梁.
它对内容规划输出树进行缩合、优化、调整,使每一句话的内容合理,结构清晰,并根据规则添加语法、语义信息,满足表层生成的需要.
表层实现就是把计算机内部表示的文本进行线性化输出,产生语法正确的句子、段落和篇章.
内容规划II句子规划ll表层实现亘句生成篇童生成丈本规划库优化规则库句子结构类电子词典句法结构图3文书生成模块Fig.
3Documentgenerationmodule输出相应、叉书模式库构造=========H二二=丈书规律挖掘======U[=====二二=丈书分类建库=========门二==素材收集整理语言处理叫句子优化-话语模型……叭m川Ⅲ篇章模型信息抽取总第125期徐延勇郭忠伟周献中基于NLP的军用文书自动生成系统建模3653系统整体运作流程系统的3个模块自成体系,但又密切联系,共同组成一个具有军用文书自动生成功能的大系统.
系统中以文书生成为目标驱动,指引信息理解的行为过程,文书信息库作为连接理解和生成的纽带:它对信息理解模块提出信息期望需求,给文书生成模块提供所需请求信息.
为了使信息理解和文书生成更有机地结合起来,系统采用了复杂特征集和功能合一语法【4~5J的相同中间表达和规则系统.
以下是整个系统的运行流程:(1)信息理解模块探测信息源里是否有信息存在,如有,转(2);否则,转(1).
(2)从信息来源、信息内容等前提通过推理机制模块自动判断信息归为哪一类或者几类文书.
其映射有①一对0:信息没有相应的文书归类,转(3);以下几种情况转(4);②一对一:信息内容对应一种文书所需;③一对多:信息内容对应多种文书所需;④多对一:信息源的多种同类信息对应一类文书里的同一种信息;⑤多对多:信息源的多种同类信息对应多种文书的同一信息.
(3)人工干预,是否为冗余信息,如是,转化为相应信息的知识表达提出期望信息发出接受信息源指令信息理解模块信息源IItI.
Y土簇信息舍去Y冗余信息否阉一豳幽自动生成相应、天书舍去,转(1);否则,向信息理解模块发出接受信息源里信息的指令,并人为把信息指定归为相应文书种类,然后转(5).
(4)向信息理解模块发出接受信息源里信息的指令,并调用相应的处理策略,判断属于相应的文书类别.
(5)根据文书信息库中预先构造的各类文书模式库所需信息自动向信息理解模块提出期望信息.
(6)根据期望信息这种"启发式知识"的回溯,信息理解模块有针对性地理解接受的信息源,并转化为一种信息的语义知识表达,存储在文书信息库中.
(1)~(6)是信息理解模块与文书信息库模块之间的联系,它可以作为一个独立的过程存在;当有文书生成需求后,文书生成模块与文书信息库模块发生下述(7)~(12)的联系.
(7)当有某类文书生成的需求后,文书生成模块向文书信息库模块发出信息请求.
(8)文书信息库模块提供存储的此类文书所有相应信息.
(9)对文书信息库模块提供的信息进行推理,判断信息是否冗余,有以下映射:①0对366南京理工大学学报第26卷第4期一:此类文书的必需信息缺少,转(10);以下几方面转(11);②一对一:必需信息只存在一条信息源;③多对一:文书中所需的某类信息有多个信息对应.
(10)人工干预,输入缺少的必需信息.
(11)给出相应处理策略,把信息输入到文书生成模块处理.
(12)经过文书生成模块的处理,最后自动生成相应文书输出.
l2345参考文献姜放然.
军用文书新编.
北京:军事科学出版社,1999LynneC,ChristyD,RogerE,eta1.
Insearchofreferencearchitecture{orNLGsystems.
ArtificialIntelligence,1999,102(2):1021~1342McheownKR.
Discoursestrategies{orgeneratingnatural—languagetext.
ArtificialIntelligence,1985,27(4):l93~194刘开瑛.
自然语言处理.
北京:科学出版社,1991黄昌宁.
语言信息处理专论.
北京:清华大学出版社,1996AutomaticGenerationSystemModelingofMilitaryDocumentBasedonNLPXuYanyongGuoZhongweiZhouXianzhong(DepartmentofAutomation,NUST,Nanjing210094)ABSTRACTTheautomaticgeneration0fmilitarydocumentisoneofthekeytechniquesintheC4ISRsystem,andisalsoanecessarylinktoimprovetheC4ISRsystem'sefficiency.
Ac—cordingtosystemsanalysis,theimportantdevelopingdirectionofmilitarydocumentgenerationsystemi'ntheISRsystemwastheautomaticgenerationbasedonNaturalLanguageProcess—ing(NLP).
Followingtheinformationstreaminthemilitarydocumentgenerationcourse.
thepaperproposedthreemodulesframeofthesystem,includinginformationunderstandingmod—ute,documentinformationbasemoduleanddocumentgenerationmodule,thusstatingthewholeoperationfl0wofthethreemodules.
ThemodeliSofreferencevaluefortextgenerationbasedonnaturallanguageunderstandingin.
otherfields.
KEYWORDSnaturallanguageprocessing,militarydocument,systemmodeling,knowledgerepresentation;textgeneration
Hostiger商家我们可能以前也是有见过的,以前他们的域名是Hostigger,后来进行微调后包装成现在的。而且推出Columbus Day哥伦布日优惠活动,提供全场的VPS主机首月7折月付2.79美元起的优惠。这里我们普及一下基础知识,Columbus Day ,即为每年10月12日,是一些美洲国家的节日,纪念克里斯托弗·哥伦布在北美登陆,为美国的联邦假日。Hostiger 商家是一个成立于2...
我们很多老用户对于BuyVM商家还是相当熟悉的,也有翻看BuyVM相关的文章可以追溯到2014年的时候有介绍过,不过那时候介绍这个商家并不是很多,主要是因为这个商家很是刁钻。比如我们注册账户的信息是否完整,以及我们使用是否规范,甚至有其他各种问题导致我们是不能购买他们家机器的。以前你嚣张是很多人没有办法购买到其他商家的机器,那时候其他商家的机器不多。而如今,我们可选的商家比较多,你再也嚣张不起来。...
陆零网络是正规的IDC公司,我们采用优质硬件和网络,为客户提供高速、稳定的云计算服务。公司拥有一流的技术团队,提供7*24小时1对1售后服务,让您无后顾之忧。我们目前提供高防空间、云服务器、物理服务器,高防IP等众多产品,为您提供轻松上云、安全防护 为核心数据库、关键应用系统、高性能计算业务提供云端专用的高性能、安全隔离的物理集群。分钟级交付周期助你的企业获得实时的业务响应能力,助力核心业务飞速成...
塞尔维亚军用机坠毁为你推荐
Beitragsvolumenphp操作httpdangersbit现有新的ios更新可用请从ios14be苹果手机更新不了最新14系统是怎么回事?internetexplorer无法打开Internet Explorer无法打开站点怎么解决flashfxp下载求最新无需注册的FlashFXP下载地址重庆网站制作重庆网站制作,哪家专业,价格最优?360免费建站搭建卡盟分站(卡乐购系统,免费360网站收录)只要29元,想建的找2208647548!购物车通过自己的体会总结购物车的作用pintang俏品堂是干什么的?很多论坛都有他们的踪迹。
二级域名查询 新加坡主机 服务器怎么绑定域名 嘟牛 idc是什么 tna官网 hdd 爱奇艺vip免费领取 鲁诺 环聊 atom处理器 杭州电信宽带优惠 中国联通宽带测速 域名转入 服务器防御 新网dns 2016黑色星期五 服务器监测软件 1500元电脑主机配置 北京公租房申请网站 更多