硕士学位论文开放式中文实体关系抽取研究RESEARCHONCHINESEOPENENTITYRELATIONEXTRACTION刘安安哈尔滨工业大学2013年6月国内图书分类号:TP391.
2学校代码:10213国际图书分类号:681.
37密级:公开工程硕士学位论文开放式中文实体关系抽取研究硕士研究生:刘安安导师:秦兵教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2013年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.
2U.
D.
C:681.
37DissertationfortheMasterDegreeinEngineeringRESEARCHONCHINESEOPENENTITYRELATIONEXTRACTIONCandidate:LiuAnanSupervisor:Prof.
QinBingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2013Degree-Conferring-Institution:HarbinInstituteofTechnology摘要I摘要实体关系是描述实体之间语义关系的重要途径.
实体关系抽取是信息抽取任务中的重要环节,也有着广泛的应用前景.
随着Web2.
0的迅猛发展,人们对实体关系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取对用户有价值的信息.
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.
开放式实体关系抽取技术通过使用关系指示词描述关系的方法解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.
因此,针对不同的应用场景,本文提出了两种不同的开放式实体关系抽取方法,并且探索自动构建关系类型体系的相关方法.
针对句子的开放式实体关系抽取问题,本文提出基于有指导的开放式实体关系抽取方法.
首先,制定开放式实体关系抽取语料标注规范,并且构建开放式实体关系抽取语料库;然后,通过分析语料中的语言现象,制定了先识别实体对和先识别关系指示词两套方法,并且设计了泛化能力强的特征抽取方案.
在开放式实体关系语料上测试的F值达到61.
41%.
针对互联网的开放式实体关系抽取问题,本文提出面向大规模网络文本的无指导开放式中文实体关系抽取(UnCORE:UnsupervisedChineseOpenEntityRelationExtractionfortheWeb)方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对候选关系三元组进行过滤得到最终的关系三元组.
在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率,满足实用要求.
本文使用基于关系指示词聚类的方法自动构建关系类型体系.
基于RNN-LM的关系指示词相似度计算方法和基于HowNet的关系指示词相似度计算方法,尝试使用近邻传播聚类算法和层次聚类算法对关系指示词进行聚类.
在PER-PER实体对类型的关系指示词集合上实验,平均F值最高达到64.
25%.
最后,为了把本文的相关研究成果展示给研究人员,搭建了两个演示系统:面向句子的开放式实体关系抽取系统和开放式实体关系三元组查询系统.
面向句子的开放式实体关系抽取系统从用户输入的自然语言文本中抽取关系三元组,并且把抽取结果以网页的形式展现.
开放式实体关系三元组查询系统对从互联网文本中挖掘的大量关系三元组构建索引,用户输入查询的实体,系统返回该实体相关哈尔滨工业大学工学硕士学位论文II的关系三元组,并且以清晰直观的方式展示关系三元组.
关键词开放式;实体关系抽取;关系三元组;关系指示词;关系类型体系AbstractIIIAbstractEntityrelationshipisanimportantwaytodescribethesemanticrelationshipsbetweenentities.
Asoneofthemostimportantsubtaskofinformationextraction,entityrelationextractionhaswideapplicationprospects.
WiththerapiddevelopmentoftheWeb2.
0,peopleputforwardnewrequirementsontheentityrelationextractiontoaccommodatequicklyandaccuratelyobtainingvaluableinformationontherapidgrowthofmassivewebtextforuser.
Traditionally,EntityRelationExtraction(RE)methodsrequiredapre-definedsetofrelationtypes.
Butit'sdifficulttobuildawell-definedarchitectureoftherelationtypes.
OpenEntityRelationExtraction(ORE)isthetaskofextractingrelationtriplesfromnaturallanguagetextwithoutpre-definedrelationtypes.
WeproposetwoOREmethodstosolverelationextractionondifferentapplicationscenarios,andexploresolutionstoautomaticallybuildrelationtypes.
Thispaperpresentsasupervisedmethodtosolvesentence-levelOREproblem.
Thedetailedcriterionofannotationisestablishedandacorpuswhichcontains1000documentsisannotated.
Byanalyzingthelinguisticphenomenonofthecorpus,wedesignadomain-independentprogramtoextractfeatures.
TheaverageF-measureachieves61.
64%onthecorpus.
ThispaperpresentsUnCORE(UnsupervisedChineseOpenEntityRelationExtractionfortheWeb),anunsupervisedOREmethodwhichistodiscoverrelationtriplesfromlarge-scalewebtext.
UnCOREexploitsworddistanceandentitydistanceconstraintstogeneratecandidaterelationtriples,andthenadoptsglobalrankinganddomainrankingmethodstodiscoverrelationwordsfromtherelationtriplecandidate.
FinallyUnCOREfiltersthembyusingtheextractedrelationwordsandsomesentencerules.
ResultsshowthatUnCOREextractslargescalerelationtriplesatprecisionhigherthan80%.
Thispaperproposestherelation-words-clustering-basedmethodtobuildtherelationtypes.
First,wecalculatethesimilaritybetweenrelationwordsbasedonRNN-LMorHowNet,andthenclustertherelationwordsbyAPorHAC.
Finally,webuildawell-definedrelationtypes.
哈尔滨工业大学工学硕士学位论文IVAtlast,wedesignandimplementademonstrationplatformforuserstoextractrelationtriplesfromsentenceandtosearchrelationtriple.
KeywordsEntityRelationExtraction,RelationTriple;RelationWord,RelationTypes目录V目录摘要.
IAbstractIII第1章绪论.
11.
1课题来源11.
2课题背景11.
3研究目的和意义21.
4关系抽取的研究现状21.
4.
1预测实体对之间的关系31.
4.
2挖掘特定关系的实体对51.
4.
3开放式实体关系抽取71.
5本文的主要研究内容12第2章面向句子的开放式中文实体关系抽取.
142.
1引言142.
2语料构建142.
3有指导的开放式实体关系抽取182.
3.
1语料分析182.
3.
2先识别实体对的方法202.
3.
3先识别关系指示词的方法212.
4实验结果及其分析222.
4.
1先识别实体对的方法222.
4.
2先识别关系指示词的方法242.
4.
3实验结果分析242.
5本章小结25第3章面向互联网的开放式中文实体关系抽取.
263.
1引言263.
2无指导的开放式实体关系抽取263.
2.
1预处理273.
2.
2生成候选三元组283.
2.
3生成关系指示词词表303.
2.
4后处理313.
3实验结果及其分析33哈尔滨工业大学工学硕士学位论文VI3.
3.
1数据及评价方法333.
3.
2结果及分析343.
3.
3错误分析393.
4本章小结40第4章开放式中文实体关系类型体系自动构建.
424.
1引言424.
2基于聚类的开放式实体关系类型体系自动构建424.
2.
1相似度计算434.
2.
2聚类434.
3实验结果及其分析454.
3.
1数据与评价标准454.
3.
2结果与分析474.
4本章小结49第5章开放式中文实体关系抽取平台设计与实现.
515.
1引言515.
2句子级开放式实体关系抽取系统515.
3开放式实体关系三元组查询系统535.
4本章小结54结论.
55参考文献.
57攻读硕士学位期间发表的论文及其它成果.
61哈尔滨工业大学学位论文原创性声明和使用权限.
62致谢.
63ContentsVIIContentsAbstract(InChinese)IAbstract(InEnglish)IIIChapter1Introduction11.
1Sourceofsubject11.
2Backgroundofthesubject11.
3Objectiveandsignificanceofthesubject21.
4ResearchstatusofRelationExtraction21.
4.
1Predicttherelationshipbetweenentities31.
4.
2Mininginstancewithspecificrelationship51.
4.
3OpenEntityRelationExtraction71.
5Mainresearchcontentsofthissubject12Chapter2OpenEntityRelationExtractionforsentence142.
1Introduction142.
2OpenEntityRelationExtractionCorpusbuilding142.
3SupervisedMethodforOpenEntityRelationExtraction182.
3.
1Corpusanalysis182.
3.
2Identifytheentitypairfirst202.
3.
3Identifytherelationwordsfirst212.
4Experimentandanalysis222.
4.
1Identifytheentitypairfirst222.
4.
2Identifytherelationwordsfirst242.
4.
3Resultanalysis242.
5Summary25Chapter3OpenEntityRelationExtractionforweb263.
1Introduction263.
2UnsupervisedMethodforOpenEntityRelationExtraction263.
2.
1Preprocessing273.
2.
2Generatecandidatetriples283.
2.
3Generaterelationwords303.
2.
4Post-processing313.
3Experimentandanalysis33哈尔滨工业大学工学硕士学位论文VIII3.
3.
1EvaluationMethod333.
3.
2Resultsandanalysis343.
3.
3Erroranalysis393.
4Summary40Chapter4Buildingsetofopenentityrelationtypes424.
1Introduction424.
2Buildingsetofopenentityrelationtypesbasedonclustering424.
2.
1Calculatingsimilarity…434.
2.
2Clustering434.
3Experimentandanalysis454.
3.
1EvaluationMethod454.
3.
2Resultsandanalysis474.
4Summary49Chapter5Openentityrelationextractionplatformdesignandimplementation.
515.
1Introduction515.
2OpenEntityRelationExtractionforsentence515.
3OpenEntityRelationExtractionforweb535.
4Summary54Conclusion55References57Paperspublishedintheperiodofmastereducation61StatementofcopyrightandLetterofauthorization62Acknowledgements63第1章绪论1第1章绪论1.
1课题来源本课题的主要研究内容来自于国家重点自然基金项目《中文篇章级语义分析理论与方法》.
1.
2课题背景随着Web2.
0的兴起,互联网的普通用户可以参与到互联网的建设中来,向互联网贡献着大量的文本数据,例如社交网站、微博、博客、贴吧、论坛、百科知识等等.
互联网的快速增长为人们提供了一个取之不尽用之不竭的信息源,怎么使用一种自动的方法对这些文本进行处理,快速准确地从海量文本中抽取出对用户有用的信息成为人们关注的焦点.
搜索引擎(SearchEngine)在一定程度上解决了用户的问题.
搜索引擎(如谷歌、百度)对网页结构进行连接分析计算网页的重要性返回和查询相关的网页,这种方法能获取用户感兴趣的网页,但是无法对文本进行深层次的理解,所以还需用户浏览大量网页获取有用的知识.
对文本进行深层分析可以为用户提供更加精准的服务.
信息抽取(InformationExtraction,IE)技术正是在这种背景下产生.
信息抽取的主要目的是从自然语言文本中抽取指定的实体(Entity)、关系(Relation)、事件(Event)等事实信息.
信息抽取技术可以把文本中蕴含的无结构化信息转化成结构化的信息,存储在数据库中,方便用户检索,快速获取感兴趣的信息.
实体关系抽取(EntityRelationExtraction)是信息抽取的子任务,其主要目的是识别实体之间的语义关系.
在传统的关系抽取任务中,需要预先定义好关系类型体系.
例如雇佣关系(employee-of)、整体部分关系(part-whole)、位置关系(location)等等.
文本"百度董事长兼首席执行官李彦宏"中的"百度"(机构)和李彦宏(人物)两个实体之间构成雇佣关系(employee-of),即"李彦宏"受雇于"百度".
通过以上介绍可以发现,如果说信息抽取的主要功能是自动将非结构化的自然语言文本表述为结构化的表格数据,实体识别确定了表格中各个元素的话,那么实体关系抽取则是确定这些元素在表格中的相对位置[1].
由此可见,实体关系抽取的主要目的是在实体识别的基础上,把无结构的自然语言文本中所哈尔滨工业大学工程硕士学位论文2蕴含的实体之间的语义关系抽取出来,整理成结构化的三元组(关系,实体1,实体2)存储在数据库中,供用户查询或者进一步分析利用,是信息抽取中非常重要的一个任务.
1.
3研究目的和意义传统的实体关系抽取方法需要预先定义实体关系类型体系,针对预先定义好的每一类实体关系人工标注训练语料,然后利用机器学习的方法训练分类器进行新的关系实例识别和关系元组抽取.
然而,预先定义一个全面实体关系类型体系是很困难的,并且人工构建大规模的语料库是及其耗时耗力的.
所以,急需一种无指导的方法,可以自动的完成关系类型发现和关系抽取任务,避免预先定义关系类型体系和人工构建语料库.
开放式实体关系抽取技术[8]应运而生,开放式实体关系抽取技术使用实体对上下文中的一些词语来描述实体之间的语义关系,从而避免了构建关系类型体系.
开放式实体关系抽取任务是在文本中抽取关系三元组(entity1,relationWords,entity2),其中(entity1,entity2)是存在关系的实体对,relationWords(关系指示词)是上下文中描述实体对的语义关系的词或词序列.
在文本"早在去年,腾讯首席执行官马化腾就多次全面阐述了腾讯的发展战略.
"中可以抽取出关系三元组(腾讯,首席执行官,马化腾).
目前中文上的开放式实体关系研究还比较少,也没有公共的评价体系.
本文在提出中文上的开放式实体关系抽取方法的同时,还将构建一个标准的开放式中文实体关系抽取评价语料.
将本文的方法应用到大规模语料上,可以抽取出大量的关系三元组,这些关系三元组可以应用到下列任务中:1)构建知识图谱.
通过知识图谱,搜索引擎可以给用户呈现出更加精准的信息,其搜索结果是知识而不是普通文本;2)问答系统.
为问答系统提供大规模结构化信息,当用户提问"美国总统有哪些人",将从关系三元组中找到结果.
1.
4关系抽取的研究现状实体关系抽取技术已经被广泛应用到自然语言文本中,包括新闻[2]、科学出版物[3]、博客、电子邮件[4]、维基百科[5][6]和普通的网络文本[7][8].
MUC(MessageUnderstandingConference)[9][10]和ACE(AutomaticContentExtraction)[2]评测会议促进了关系抽取研究的蓬勃发展.
第1章绪论3MUC会议由美国国防高级研究计划委员会(DefenseAdvancedResearchProjectsAgency,DARPA)资助,在1987年到1998年共召开了七届.
关系抽取任务于1998年在MUC-7[11]正式提出,其任务是确定实体之间的语义关系[12].
在MUC-7之后,MUC被美国国家标注技术研究院(NationalInstituteofStandardsandTechnology,NIST)引导的ACE评测会议所取代.
ACE评测会议从1999年到2008年至今共举办过八届,每次评测会议的有所不同.
最近一届ACE评测会议是ACE08,于2008年5月举办.
ACE08的关系抽取任务共定义了7个大类、18个子类[13].
现阶段的关系抽取研究可以分为三个方向:1)预测实体对之间的关系2)挖掘特定关系的实体对3)开放式实体关系抽取1.
4.
1预测实体对之间的关系这个任务的主要目的是,给定一个关系类型体系R,根据两个实体的上下文,预测这两个实体的语义关系.
这两个实体往往出现在同一个句子当中,所以这个任务可以这么描述:给定一个句子s以及s中的两个实体E1和E2,预测E1和E2在句子s中的关系类型rel,rel的候选集合是R.
例如(美国,奥巴马)在句子"奥巴马当选美国总统"中是"雇佣"关系,而在句子"奥巴马出生于美国"中是"籍贯-出生地"关系.
目前有主要有三类方法:基于规则(Rule-basedMethods)的方法、基于特征抽取的方法(Feature-basedMethods)和基于核函数的方法(Kernel-basedMethod).
1)基于规则的方法基于规则的方法需要书写描述两个实体所在结构的规则,[14][15][4][16]描述了一系列的基于规则的实体关系抽取系统.
这种方法要求规则构建者都领域的特点有深入的了解,投入成本大,移植性差,所以逐渐被其他方法所取代.
2)基于特征的方法从实体的上下文、词性、句法等信息中抽取特征训练一个分类器(决策树、最大熵、支撑向量机等),从而完成关系抽取任务.
Jiang等人[17]提出了一套系统的方法从各种信息中抽取特征.
下面将具体介绍抽取句子"哈尔滨工业大学校长王树国"的特征.
浅层特征:分词和命名实体识别后的结果为"国务院\Organization总理\n温家哈尔滨工业大学工程硕士学位论文4宝\Person","国务院"和"温家宝"是句子中的两个实体.
每个词xi有若干属性,比如词本身、实体类别、词性等.
对于词"国务院"的一元特征有:(文本=国务院)(词性="n")(实体类型="Organization")二元特征有:(文本="国务院_总理")(词性="n_n")(实体类型="Organization_null")使用这种方法可以抽取大量的特征.
深层特征:上述句子的依存句法分析结构如图1-1所示.
在这类方法中,一般先找出两个实体的最短路径,然后以依存弧为节点抽取特征.
在图1-1中,最短依存路径是"国务院←总理←温家宝",对第一条依存弧抽取一元特征:(依存弧="ATT",文本="国务院_总理",词性="n_n")同样地,可以抽取二元特征:(依存弧="ATT_ATT",文本="国务院_总理_温家宝")图1-1"国务院总理温家宝"的依存句法分析结果Fig.
1-1Dependencypathforsentence"国务院总理温家宝"在训练语料中可以统计出大量的特征,从而导致维数灾难问题.
董静等人[18]对语料库的特点进行分析,提出将实体关系划分为包含实体关系与非包含实体关系两类,同一种句法特征在这两类问题中的作用有明显的差异,从而选取不同句法特征集合,同时提出适合各自特点的新特征.
在CRF模型下,以ACE2007语料作为实验数据,结果表明划分方法和新特征有效提高了汉语实体关系抽取任务的性能.
Sun等[19]提出特诊稀疏现象对实体关系抽取任务的性能有很大的影响.
3)基于核函数的方法基于特征的方法需要考虑如何将非线性结构(句法)转换成线性结构,而基于核函数的方法不用这样做.
基于核函数的方法可以利用核函数直接计算两个非线性结构的相似度,不需要抽取特征,从而也没有维数灾难问题.
基于核函数的方法最重要的一步是设计一个计算两个实例(X,X')相似度的核函数(Kernelfunction)K(X,X').
基于核函数的方法最早在SVM模型中引入.
第1章绪论5设训练实例(,1,2,),其中i=1…N,N是语料库中训练实例的数目.
我们使用来代表(,1,2),使用公式(1-1)预测X(x,E1,E2)的关系类别.
=argmax∑=1(,X)(11)是第i个训练实例在类别r上的权重,需要在模型训练的时候估计其取值.
Tsochantaridis等人[20]对训练方法有详细的研究.
Bunescu等人[21][22][23][24][25][26]对短语句法和依存句法上的核函数有深入的研究,在依存句法上的核函数研究更加广泛.
[21]提出了计最短依存路基相似度的核函数,设T是关系实例X(x,E1,E2)两个实体的最短依存路径,{P}是依存路径上的节点集合,{p}是各个节点的属性集合,核函数K(X,X′)的计算公式如(1-2)所示.
K(X,X′)={∏(,′)|*P+|=1|*P+|=|*P′+|0(12)(,′)是节点,和节点′中相同属性值的个数.
从公式(1-2)中不难发现,当T和T′的长度相同并且路径上节点的属性相似的时候,核函数会得到一个比较大的数值.
公式(1-2)有一个很大的缺点是,一旦依存路径的长度不相等的时候,核函数的值为0.
使用卷积核函数计算字符串、短语结构句法和依存句法的相似度,可以避免公式(1-2)的缺点.
卷积核函数最初使用于字符串的相似度中,但是被扩展应用到树状结构.
Zhang等人[25]的研究表明,在关系抽取任务中使用卷积核函数可以得到更好的性能.
1.
4.
2挖掘特定关系的实体对不同于前一任务,挖掘满足特定关系的实体对的主要目的是在大规模语料中抽取出满某一种特定关系的实体对[27][7][8][28][29][30][31].
由于要处理大规模语料库,所以对系统的速度要求很高.
近期的工作主要集中在挖掘大规模网络文本中的关系实例,使用半指导的方法,不需要标注语料,只需人工给定少量的关系种子.
该方法的输入有如下几类:构成关系的实体类型.
如雇佣关系是由"机构"和"人物"两类实体构成的,哈尔滨工业大学工程硕士学位论文6即employee-of(Organization,Person);关系种子集合S.
关系种子是指能描述关系,例如employee-of(哈尔滨工业大学,王树国).
同时需要不能描述该关系的种子,用来生成反例;人工书写的模板,这类输入是可选的.
例如雇佣关系的一个模板([Organization]校长[Person]),又如籍贯关系的一个模板([Person]出生于[Location]);给定输入后,有三个主要的步骤来解决问题.
给定语料库D,关系类型r,构成关系r的实体类型对类型(E1,E2),关系种子集合S(包含正例P+和反例P-.
雇佣关系的关系种子集合如表1-1所示表1-1雇佣关系的种子Table1-1Relationseedsofemployee-of实体1实体2极性哈尔滨工业大学王树国正例国务院温家宝正例百度比尔盖茨反例第一步,通过种子集合S学习出模板集合M.
第二步,使用模板集合在生语料库D中挖掘候选的关系实例(r,1,2).
第三步,使用统计的方法对候选关系实例进行过滤.
下面将详细描述这三个步骤.
1)获取关系模板获取关系模板分为三个步骤:从语料库中查询获取包含正例的句子:对于给定的种子(r,1,2),从语料库中查询同时包含12的句子.
检索之后会得到一个句子集合{candidate-si},集合中的每一个句子都会包含12.
句子过滤:并非所有通过查询获得的句子所包含的实体都蕴含关系r,所以还需要对句子进行过滤.
12的词距离超过minDis的句子过滤[28][31],例如对于雇佣关系句子"美国总统奥巴马"将被保留,而句子"奥巴马针对基地组织领导人进行的军事打击,究竟在多大程度上削弱了该组织的力量引发了美国民众的激烈讨论"将被过滤.
Bankoetal.
等人[8]提出一种简单的启发式规则来过过滤不包含关系的句子.
他们提出在句子中两个实体的依存路径长度不能超过阈值,这种方法取得了很好的效果.
通过过滤后,得到句子集合{si}.
学习关系模板:Yan等人[32]对序列化模板(SurfacePatterns)和依存模板(DependencyPatterns)的训练都有深入的研究.
获取关系模板的过程也可以看作是一个学习的过程,让模型自己选择那些模板更能描述关系r.
2)抽取候选关系实例有了关系模板之后,我们可以训练一个模型M,用来在生语料库中抽取关系实第1章绪论7例.
我们可以扫描生语料库D获取所有包含两个或两个以上实体的句子.
然后使用这些模板对所有的句子进行匹配,如果匹配成功则获取一个新的候选关系实例.
3)过滤关系实例由于关系种子的数目有限,导致模型有很大噪声.
为了减少新的关系实例的错误率,还需要在整个生语料库D上进行统计分析,利用生语料库D的冗余信息,保留可信度高的候选关系实例.
同一个关系实例可能在多个不同的句子中出现,例如雇佣关系的实例(百度,李彦宏)出现在如下句子中:"百度总裁李彦宏明确表示,百度将在移动互联网方面发力.
""3月23日消息,据国外媒体报道,百度CEO李彦宏表示,该公司计划开发适用于移动设备的操作系统,该战略表明这家领先的中国网络搜索公司将再次追随谷歌.
"这样,可以把出现的句子数目多的关系实例保留下来,当做最终的抽取结果.
1.
4.
3开放式实体关系抽取上述两个研究方向都需要预先确定关系类型体系,然而预先定义一个全面实体关系类型体系是很困难的.
开放式实体关系抽取技术[8]使用实体对上下文中的一些词语来描述实体之间的语义关系,从而避免了构建关系类型体系.
开放式实体关系抽取任务是在文本中抽取关系三元组(entity1,relationWords,entity2),其中(entity1,entity2)是存在关系的实体对,relationWords(关系指示词)是上下文中描述实体对的语义关系的词或词序列.
在文本"早在去年,腾讯首席执行官马化腾就多次全面阐述了腾讯的发展战略.
"中可以抽取出关系三元组(腾讯,首席执行官,马化腾).
英文上的开放式实体关系抽取研究最早在2007年被提出来,目前研究方法已经比较成熟.
2007年MicheleBanko等人[8]最早提出开放式信息抽取(OpenIE,OpenInformationExtraction)的概念,并且构建了TextRunner系统,该系统利用启发式规则从宾州树库中自动构建开放式关系抽取语料,然后利用自动构建的语料训一个朴素贝叶斯模型识别关系三元组.
FeiWu等人[33]提出WOE系统使用维基百科中信息框(Infobox)的信息来标注关系抽取语料,基于WOE构建语料的方法大大提高了训练语料的质量和数量.
MihaiSurdeanu等人[34]认为同一个实体对在不同的上下文中呈现出不同的关系,为了解决这个问题提出了MIML模型提高自动标注语料的准确率.
AnthonyFader等人[35]对TextRunner系统和WOE系统的关系三元组抽取结果进行分析,发现错误的关系三元组主要分为不合逻辑和无意义哈尔滨工业大学工程硕士学位论文8两类,为了减少这两类错误,提出了先识别关系指示词的ReVerb系统.
LiminYao等人[36]认为同一个关系模板可以描述不同的关系,提出了基于LDA的关系模板聚类模型,先使用LDA模型确定模板的语义类别,再使用层次聚类对这些模板进行聚类,最后形成一个关系类型体系.
在上述介绍的英文的开放式实体关系相关研究中,TextRunner、WOE以及ReVerb都是完整开放式实体关系抽取系统,下面将分别介绍这几个系统.
1)TextRunnerTextRunner是第一个开放式实体关系抽取系统,不需要人工定义关系类型体系,使用启发式规则在宾州树库中自动标注语料.
图1-2是TextRunner的系统框架图.
图1-2TextRunner系统框图Fig.
1-2ArchitectureofTextRunnerTextRunner包含3个主要的模块,下面将详细介绍这三个模块.
i.
训练分类器TextRunner使用启发式规则自动从滨州树库中构建训练语料,然后再训练NaveBayes分类器.
a)利用启发式规则自动构建语料(基于依存句法分析)两个实体的依存距离不能大于maxLength;两个实体的依存路径不能跨越句子边界(例如关系从句是一个句子边界);两个实体不能是由单独的代词组成;关系指示词是依存两个实体的路径上的动词或动词短语;满足上述前3个要求的被标注成正例,否则被标注成反例.
b)训练NaveBayes分类器,对每一个三元组(ei,rij,ej)进行分类.
其特征如下:rij的词性标注序列;rij的长度;rij中包含的停用词数目;实体是否是专有名词;第1章绪论9ei左边词语的词性;ej右边词语的词性.
ii.
对大规模Web文本进行处理,对每一个句子中的三元组使用NaveBayes分类器进行分类,如果被标注成正例,那么把三元组存储在数据库中.
iii.
计算三元组的可信度a)合并相似的三元组,如(e1,wasdevelopedby,e2),(e1,wasoriginallydevelopedby,e2)是两个相同的三元组;计算合并后三元组在Web文本中出现的句子数目,把句子数目作为三元组的一个可信度.
2)WOE图1-3WOE系统框架图Fig.
1-3ArchitectureofWOEWOE(Wikipedia-basedOpenExtractor)是基于维基百科的一个开放式信息抽取系统,其关键在于使用维基百科中的信息框自动构建语料库.
如图1-3所示,WOE包含三个主要的模块:i.
预处理a)对维基百科中的文本进行分句b)NPL处理词性标注名词短语识别依存句法分析(只针对WOEparse)c)同义词扩展,找出网页信息框中所有词语的同义词维基百科中的重定向连接后向链接.
哈尔滨工业大学工程硕士学位论文10ii.
构建语料库a)对信息框中的每一个(属性,属性值)都在正文中匹配,匹配方法如下:整体匹配,即整个字符串都匹配成功同义词匹配前缀匹配,如"Amherst"和"Amherst,Mass"能匹配成功,但是"Mass"和"Amherst,Mass"不能匹配模板匹配,the.
当需要识别city的时候,只需要实例化模板the就可以找到大量的实体常用的代词b)为了提高语料的质量,需要对a)中构建的语料进行过滤,过滤规则如下:如果一个属性值被多个句子所匹配,那么把该属性过滤如果在句子中匹配上的属性值或者文章标题不是名词短语的核心词,那么把这个句子过滤掉如果句子中中匹配上的属性值和文章标题之间跨越了子句,那么把该句子过滤iii.
训练分类器.
WOE有两个不同的分类器,以满足不同的需求.
基于句法特征的分类器是WOEparse,基于词性特征的分类器是WOEposc)WOEparse对句子进行压缩的句法分析,如"DanwasnotborninBerkeley",压缩的句法分析结果是:.
构建模板集合.
依据句法分析结果,用词性代替词,提高模板的召回能力.
对"DanwasnotborninBerkeley"生成的模板是:使用公式w(p)=max(log()log(),0)log()log()对每一个模板进行打分,其中fp代表模板P在模板集合中出现的次数.
Max是出现次数最多的模板,fmin是人工设定的一个阈值.
WOEpos不使用句法,从而速度比WOEparse更有优势.
其方法是训练一个CRF模型,使用WOEparse中的模板集合生成正例,如果句子不被模板匹配,那么被标注成反例.
第1章绪论113)ReVerb和TextRunner以及WOE这些开放式实体关系抽取系统先识别实体再识别关系词不同,ReVerb先识别关系词再识别实体.
ReVerb有两个主要的步骤,如下所述:i.
识别关系短语,使用两个限制:a)语法限制,满足下面三条规则的词串作为关系短语图1-4关系指示词的语法限制Fig.
1-4SyntacticConstraintforrelationwords句子"HudsonwasborninHampstead,whichisasuburbofLondon"中找出两个候选短语"wasbornin""isasuburbof".
b)词汇限制统计利用a)中三条规则找出来的短语在大规模语料中出现的三元组数目;如果出现次数少于阈值,那么把该短语丢弃.
例如"TheObamaadministrationisofferingonlymodestgreenhousegasreductiontargetsattheconference.
"中的"isofferingonlymodestgreenhousegasreductiontargetsat"将被该短语过滤掉.
ii.
三元组识别a)找出关系短语左右两边最近的两个名词短语,构成一个三元组.
例如句子"HudsonwasborninHampstead,whichisasuburbofLondon"中有两个三元组(Hudson,wasbornin,Hampstead)和(Hampstead,isasuburbof,London).
b)利用线性加权模型对三元组进行分类.
由于采用的特征是领域无关的,并且没有词的特征,所以可以应用到开放域信息抽取中.
在训练线性加权模型时,需要人工标注一部分语料,在该系统中一共标注了1000个句子作为训练语料.
AnthonyFader[35]对三个系统的性能进行了对比,如图1-5所示.
哈尔滨工业大学工程硕士学位论文12图1-5三个系统的PR曲线Fig.
1-5PRcurveofthreesystems中文的开放式实体关系抽取相关研究还比较少,中文的语言现象和英文的语言现象相差比较多,无法直接把英文上的开放式实体关系抽取方法直接移植到中文上来.
王莉峰[37]提出了领域自适应的中文实体关系抽取方法,结合半指导和无指导的学习方法解决关系类型自动发现、关系种子集自动构建、关系描述模式挖掘和关系元组抽取等问题,并且应用到音乐领域人与人之间的关系三元组识别任务上,取得了不错的效果.
1.
5本文的主要研究内容本文将探索开放式中文实体关系抽取的解决方案,针对不同的应用场景分别提出有指导和无指导的方法来解决关系三元组抽取问题,并且运用聚类技术解决开放式实体关系类型体系自动构建的问题.
本文的研究工作流程如图1-6所示.
具体地,本文各章节安排如下:第1章,首先介绍本研究课题的来源和研究背景,接着探讨研究的目的和意义,然后详细介绍实体关系抽取的研究方向以及方法,并且分析这些方法的不足,在此基础上,提出本文的主要研究内容.
第2章,针对句子级的开放式关系抽取问题,提出基于有指导的方法,同时制定了中文开放式实体关系语料的标注规范,标注开放式实体关系抽取语料.
在对语料细致分析的基础上,提出两种有指导的关系三元组抽取方法.
第3章,针对互联网的开放式实体关系抽取问题,提出面向互联网的无指导开放式中文实体关系抽取(UnCORE:UnsupervisedChineseOpenEntityRelation第1章绪论13ExtractionfortheWeb)方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对关系三元组进行过滤.
在不同的领域使用UnCORE方法,以证实方法的鲁棒性.
第4章,在前两章的工作基础上,研究和探讨了基于关系指示词聚类的开放式实体关系类型体系构建的方法.
我们以PER-PER的关系指示词集合为处理对象,尝试了不同的相似度计算算法和关系指示词聚类算法,最终形成一个类型丰富的关系类型体系.
第5章,为了把本文的相关研究成果展示给研究人员,在第二章的基础上搭建面向句子的开放式实体关系抽取系统,系统从输入的自然语言文本中抽取关系三元组,并且把抽取结果以网页的形式展现;同时,对第三章从互联网文本中挖掘的大量关系三元组构建索引,搭建了开放式实体关系三元组查询系统,以清晰直观的方式展示关系三元组.
图1-6本文研究工作流程Fig.
1-6Architectureofthispaper第2章面向句子的开放式中文实体关系抽取14第2章面向句子的开放式中文实体关系抽取2.
1引言基于机器学习的方法在传统的关系抽取上取得了很好的效果,那么是否可以使用机器学习算法来来解决开放式的实体关系抽取任务呢答案是肯定的.
但是不同于传统的实体关系抽取任务,开放式实体关系抽取任务是在文本中抽取关系三元组(实体1,关系指示词,实体2),需要识别出关系指示词.
所以把传统的关系抽取任务看作一个分类问题的做法在开放式实体关系抽取任务中不再适用,在本章中,我们把识别关系指示词的问题看作是序列化标注的问题.
2.
2语料构建有指导的方法需要带开放式实体关系标记的语料库,但是目前还没有中文的开放式实体关系语料,所以我们构建了一个开放式实体关系抽取语料库.
首先从Ontonotes4.
0上选取了1000篇文档,大部分文档已经带有命名实体标记,我们人工对没有标注命名实体标记的文档进行标注.
在标注语料过程中,首先要指出这次标注的内容.
在标注开放式实体关系的时候需要标注的内容有5个:1)关系元素1:构成关系的第一个实体.
2)关系元素2:构成关系的第二个实体.
3)ACE实体关系类型:如果实体之间构成的关系类型能用ACE实体关系类型来描述,那么标注ACE实体关系类型.
4)关系指示词:在上下文中能描述两个实体构成关系的词语,可以是多个词语.
5)关系是否对称:两个关系元素的相对位置改变之后,是否还构成相同的关系,如果构成相同关系那么就对错,否则不对称.
其中关系元素1、关系元素2、关系指示词是句子中的词片段,"ACE实体关系类型"和"关系是否对称"为标注者添加的信息.
所以对每一个开放式关系实例,可以用一个五元组来描述,五元组形式为.
本次标注的输入是一个已经分词、命名实体识别的词序列,输出是序列中所有的关系五元组.
哈尔滨工业大学工程硕士学位论文15输入:微软公司/ORG董事长比尔盖茨/PER出生于1955年10月/TIME.
输出:表2-1是一些实体关系的标注样例,指示词中用引号引起来的词语为标注者添加的指示词.
表2-1开放式实体关系标注实例Table2-1Samplesofopenrelationinstance例句关系元素1关系元素2ACE关系类型指示词对称性华西金塔矗立在苏南平原华西金塔苏南平原物理处于矗立否他曾经效力于中央电视台他中央电视台机构关系雇佣曾经效力否他曾经住在巴黎他巴黎一般关系市民曾经住在否姚明是易建联的朋友姚明易建联持续的-私人的朋友是毛泽东出生于1893年毛泽东1893年其他出生否《花蝴蝶》中蔡依林为了让影子呈现蝴蝶展翅高飞的效果,坚持吊威亚近一小时后,她的右腰出现了深色瘀青蔡依林花蝴蝶其他"歌曲"否为了标注的规范性,我们对标注过程中遇到的一些问题进行分类,并且制定了标注规范,如下:1)实体关系实体之间存在特定的语义关系的都要标注出来.
例如"朗讯是阿尔卡特的子公司"中存在实体关系实例.
2)关系元素关系元素1和关系元素2是构成特定关系的两个关系元素.
关系元素包括命名实体和代词.
3)关系指示词的类型以及标注方法关系指示词是句子中用来出发两个实体(或者代词)之间的词序列,有时在句第2章面向句子的开放式中文实体关系抽取16子中找不出用来指示两个实体的关系词语,需要添加一个合适的词语来指示该关系.
关系指示词为名词、动词以及短语.
动词:"毛泽东出生于1893年"中的"出生"指示"毛泽东"和"1893年"两个实体之间存在"出生日期"的关系;名词:"林俊杰携手师妹金莎一起来到上海"中的"师妹"指示"林俊杰"和"金莎"存在"同门师兄妹"的关系;短语:"刘欢和莎拉·布莱曼共同演绎了主题歌《我和你》"中的"共同演绎"指示"刘欢"和"莎拉·布莱曼"存在"合作关系".
无关系指示词:"《花蝴蝶》中蔡依林为了让影子呈现蝴蝶展翅高飞的效果,坚持吊威亚近一小时后,她的右腰出现了深色瘀青"中的"花蝴蝶"和"蔡依林"存在实体关系,但是在句子中找不出指示实体间关系的词语,需要标注者添加一个合适的词语(最好是名词),例如上例中可以添加"歌曲"来指示该关系.
4)ACE实体关系类型以及关系指示词与ACE实体类型的映射句子中指示词(relationWord)的可以归类到{人工制品,一般关系,机构关系,部分-整体,人-社会,物理,其他}这几种关系类型中.
下面是对这几个关系类型的具体描述.
人工制品:使用者-拥有者,发明者-制造者;一般关系:市民-居民,宗教团体-种族、机构所在地;机构关系:雇佣、创建者、所有者、学生-校友、运动-团体、投资者-股东、会员;部分整体:人工制品、地理、子公司;人-社会:家庭、持续的-私人的;物理:处于,临近;其他:其他.
对其中一些关系的说明:物理处于:江、河、湖、山等的位置,arg1位于arg2,区别于整体部分关系;洞庭湖位于湖南.
他来到哈尔滨.
"哈尔滨位于黑龙江"属于"整体部分"中的"地理关系",不在本关系中.
临近:位置不是相邻的关系;哈尔滨工业大学工程硕士学位论文17哈尔滨工业大学在"脑汇附近.
人-社会家庭:亲属关系.
刘德华的老婆是朱丽倩.
持续的-私人的:人和人之间非亲属关系姚明是易建联的朋友.
他是我的上级.
机构关系:ORG-PER雇佣他是NEC的员工.
创建者马化腾创建了腾讯公司.
所有者他继承了父亲的所有财产,从而拥有ABC公司.
学生-校友1988年,李开复获卡内基梅隆大学计算机学博士学位.
运动-团体来自中国队的林丹获得了羽毛球冠军.
投资者-股东巴菲特从2006年开始投资康菲石油.
会员他购买了腾讯公司的黄钻会员.
人工制品:人工制品为arg1使用者-拥有者:我的iphone4S.
发明者-制造者统计自然语言处理基础是Manning写的.
苹果公司制造了iphone4s.
一般关系市民-居民:PER-LOC他是中国人.
他出生于哈尔滨.
宗教团体-种族:PER-NC第2章面向句子的开放式中文实体关系抽取18小明是汉族人.
他信仰基督教.
机构所在地:ORG-LOC部分-整体:整体为arg1,部分为arg2人工制品:人工制品的整体部分地理:地理上的整体部分,LOC-LOC哈尔滨位于黑龙江.
黄岩岛是中国的领土.
子公司:ORG-ORG,母公司在前,子公司在后.
5)对称性关系元素1和关系元素2可以交换位置的关系实例称为具有对称性的关系元组.
例如"姚明是易建联的朋友"中的朋友关系具有对称性而"叶惠美是周杰伦的母亲.
"中的"母亲"关系不具有对称性.
如果关系具有对称性,那么在句子中先出现的实体被标注为arg1,后出现的实体被标注为arg2.
如果关系不具有对称性,可以用以下两个规则来确定arg1和arg2.
可以用所有格的方法来确定,即"的是";考察""所构成的句子是否通顺.
2.
3有指导的开放式实体关系抽取在抽关系取三元组(实体1,关系指示词,实体2,)的时候,有两种不同元素需要从原本中抽取出来,一个是实体对(实体1,实体2),还有关系指示词.
因此我们设置了两种不同的方法来识别关系三元组:先识别实体对的方法和先识别关系指示词的方法.
2.
3.
1语料分析为了更好的关系三元组抽取构建模型,我们对语料进行了分析,统计了语料中关系三元组的关系指示词和实体对的相对位置信息.
表2-2显示了关系指示词在句子中的位置.
关系指示词的位置分为以下几种:1)两个实体之间:句子中"哈尔滨工业大学校长王树国来到计算机学院.
"的关系指哈尔滨工业大学工程硕士学位论文19示词"校长"在实体"哈尔滨工业大学"和实体"王树国"中间;2)实体右边:句子"梁朝伟是刘嘉玲的老公.
"的关系指示词"老公"在两个实体的右边;3)实体左边:句子"作为董事长,李彦宏在百度有别人不可替代的作用.
"的指示词"董事长"在两个实体的左边;4)没有指示词:句子"中国的刘翔在田径比赛中取得了可喜的成绩.
"中没有关系指示词,但是两个实体确实存在关系(刘翔,国籍,中国);5)错误:不在上诉四种类型当中的,例如"铁道部长傅志寰.
"中"铁道部长"是实体,但是关系指示词是"部长",两者有重合,这是语料标注错误.
表2-2指示词在句子中的位置分布Table2-2Thedistributionofrelationtripleswiththepositionofrelationword关系指示词的位置实例数目(个)比例(%)两个实体之间317775.
36实体右边60914.
44实体左边1603.
80没有指示词2405.
69错误300.
71从表2-2中可以看出,绝大部分(93.
6%)存在关系的实例在句子中都能找到一个关系指示词来标识实体之间的关系,这也验证了用三元组来描述一个关系实例的是可行的.
75.
36%的关系实例的关系指示词在两个实体的中间,14.
44%的关系实例的关系指示词在实体的右边,这两者占总关系实例数目的89.
80%,覆盖了大部分(95.
94%)存在关系指示词的关系实例.
基于上面的发现,我们在构建关系抽取模型的时候,只需考虑"关系指示词在两个实体之间"和"关系指示词在两个实体右边"这两种情况即可,在保证关系三元组抽取效果的同时也简化了模型的复杂程度.
为了更加精准的找到关系指示词,我们统计了"关系指示词在实体右边"的时候,关系指示词与实体2距离取不同的值时关系三元组的数目,如表2-3所示.
可以发现右边的前三个词可以覆盖大部分(80.
92%)情况,所以在实验的时候,只考虑实体2右边三个词.
第2章面向句子的开放式中文实体关系抽取20表2-3关系三元组的数目和指示与实体2距离的关系Table2-3Thedistributionofrelationtripleswiththedistanceofthesencondentity距离012345678大于8数目2921455535171719116112.
3.
2先识别实体对的方法在图2-1中,实线部分是系统的训练过程,虚线部分是预测过程.
训练数据和测试文本都先通过特征提取器提取特征.
提取特征之后,先通过实体对识别模型,判断实体之间是否存在关系;如果实体之间存在关系,则再通过关系指示词识别模型把描述实体之间关系的词语标注出来.
图2-1先识别实体对的算法框架图Fig.
2-1Architectureofthefirstmethod1)实体对识别模型实体对识别模型可以判断句子中两个实体是否存在关系,使用最大熵算法训练.
包含以下一些特征:实体本身特征:实体1的类型,实体2的类型,实体1的词序列,实体2的词序列;两个实体之间的特征:是否有其他的实体,是否相邻,两个实体之间的每个词语;实体两边的特征:实体1左边3个词和词性,实体2右边3个词和词性.
在使用实体本身的特征时,本文使用了实体的词序列,而没有使用实体本身.
这是由于实体分成若干词语之后,特征的泛化能力更强.
假如训练语料中包含实体"哈尔滨工业大学",其词序列的特征是{哈尔滨,工业,大学},在测试过程中哈尔滨工业大学工程硕士学位论文21遇到实体"哈尔滨工程大学",其用词序列的特征为{哈尔滨,工程,大学},可以看出,两个实体词序列的特征有一部分是相同的.
2)关系指示词识别模型当1)判断出两个实体存在关系时,那么就需要把指示他们关系的词语抽取出来.
由于关系指示词语可以使一个词序列,所以理所当然地把它看作一个序列化标注的问题.
而序列化标注使用最多的模型是CRF,所以本文训练了一个CRF模型抽取特征词.
其训练语料是只包括正例(即只有存在关系的实体对),没有反例.
在2.
3.
1小节中,我们提到过,大部分关系三元组的关系指示词存在于实体之间和实体右边2个词,所以CRF标注关系指示词的候选限定于这个范围之内.
CRF模型使用的特征有:词、词性、词和词性的组合、是否是实体.
这些都是unigram的特征,没有使用bigram的特征.
我们使用{B,I,O,E,S}三类标签标注候选关系指示词,B代表这个词语是关系指示词序列的开始,I代表这个词语在关系指示词的中间位置,O代表这个词语不是关系指示词的一部分,E代表这个词语是关系指示词的结束,S代表这个词语是一个完整的关系指示词.
下面是一个标注样例:"美国/O代表团/B的/I团长/E希尔/O在/O呃/O,/O"其中,(美国,希尔)是存在关系的实体对,"代表团的团长"是关系指示词.
2.
3.
3先识别关系指示词的方法本方法与2.
3.
2所描述的方法最大不同是,本方法不在需要判断实体之间是否存在关系.
图2-2先识别关系指示词的算法框架图Fig.
2-2Architectureofthefirstmethod如图2-2所示,对句子中任意两个实体,先抽取特征,然后使用识别关系指示第2章面向句子的开放式中文实体关系抽取22词,如果句子中有词语被标注成关系指示词,那么这两个实体就构成关系,否则实体之间不存在关系.
图中实线代表训练过程,虚线代表预测过程.
关系指示词识别模型使用的特征有:词、词性、词和词性的组合、词语是否是实体.
2.
4实验结果及其分析训练和测试语料是我们自己标注的信息抽取语料,语料构建规范如2.
2节所述.
标注信息包括分词、命名实体、名词复合短语、实体共指、实体关系、事件以及篇章语义7种,在本章试验中使用的信息有分词、命名实体、实体共指和实体关系4种.
实验使用了其中的805篇标注文档.
训练样例是以实体对为单位的,其中正例3658个、反例95401个.
这样正反例严重不平衡.
所以使用了两条规则对反例进行过滤.
1)如果两个实体存在共指,那么这两个实体不存在关系2)对任意i>j并且实体i和实体j共指,如果k>j,则实体k和实体i不存在关系.
对语料使用规则1)之后,剩下正例3658个,反例91285个.
同时使用规则1)和2)之后,剩下正例3656个,反例86323个.
可以看出,使用规则后,反例有所减少,但还是存在数据不平衡的问题.
2.
4.
1先识别实体对的方法先识别实体对的方法包含两个模型,我们对每一个模型都有评价.
表2-4判断两个实体之间是否存在关系的分类效果Table2-4Theperformanceofmaxentmodel类别准确率(%)召回率(%)F值(%)实体之间存在关系622131实体之间不存在关系969998从表2-4可以看出,数据不平衡问题在对分类结果又很大的结果.
数量占优的一方无论是准确率还是召回率上都完全超过占劣势的一方.
而所关注的恰恰是数量较少的一方(存在关系的三元组),其准确率只有62%,这给后续实验带来的累积错误太大.
表2-5是在两个实体存在关系的前提下关系指示词的抽取效果,评价设置了三种不同标准.
哈尔滨工业大学工程硕士学位论文23表2-5关系指示词抽取实验结果Table2-5Theperformanceofrelationwordsextraction评测标准准确率(%)召回率(%)F值(%)精确匹配73.
1470.
2371.
66模糊匹配174.
6771.
7073.
16模糊匹配275.
9872.
9674.
441)精确匹配:模型的抽取结果要与标准结果完全一致.
2)模糊匹配1:CRF抽取出来的特征词是标准答案的一部分,如表2-6所示.
表2-6模糊匹配1Table2-6Fuzzymatching1词标准答案预测结果美国OO代表团BO的IO团长ES希尔OO在OO呃OO,OO3)模糊匹配2:标准答案的特征词是CRF抽取的特征词的一部分,如表2-7所示.
表2-7模糊匹配2Table2-7Fuzzymatching2词标准答案预测结果悉尼OO奥运会OB女子BI体操II金牌II获得者EE刘璇OO告诉OO记者OO,OO第2章面向句子的开放式中文实体关系抽取24表2-5所展示的是判断实体之间存在关系全都正确前提下的关系指示词识别结果.
如果在使用模型先判断两个实体是否构成关系,然后再识别有关系的实体对的关系指示词,将会累积两个模型的错误.
级联后的关系三元组抽取结果评价如表2-8所示,可以看出,无论准确率和召回率的值都很低,这可能是复杂的模型会带来过拟合的现象.
表2-8先识别实体方法的关系三元组抽取实验结果Table2-8Theperformanceofsecondmethod评测标准准确率(%)召回率(%)F值(%)精确匹配45.
3514.
7522.
26模糊匹配146.
3015.
0622.
72模糊匹配247.
1115.
3223.
122.
4.
2先识别关系指示词的方法表2-9是先识别关系指示词方法的关系三元组抽取实验结果,对比表2-8可知,先识别关系指示词的方法比先识别实体对的方法效果在F值上要高47%以上,其提高幅度是很明显的.
其原因是先识别关系指示词的方法只是用了CRF模型,在训练时同时使用了正反例信息,比先识别实体对方法中关系指示词识别模块的信息多.
表2-9先识别关系指示词方法的三关系元组抽取实验结果Table2-9Theperformanceofsecondmethod评测标准准确率(%)召回率(%)F值(%)精确匹配87.
8045.
2859.
75模糊匹配187.
8045.
2859.
75模糊匹配290.
2446.
5461.
412.
4.
3实验结果分析表2-10两个方法的实验结果对比Table2-10Compareoftwomethods方法准确率(%)召回率(%)F值(%)先识别实体对47.
1015.
3223.
12先识别关系指示词90.
2446.
5461.
41表2-10是本章两个方法的实验结果对比,可以看出先识别关系指示词的方法哈尔滨工业大学工程硕士学位论文25的关系三元组抽取实验结果比先识别实体对的关系三元组抽取实验结果的F值提高了38.
29%,这是由于先识别实体对的方法中使用了最大熵模型,数据不平衡问题严重影响了最大熵模型的效果.
而先识别关系指示词的方法中只是用了CRF模型,数据不平衡的问题对CRF模型影响没有造成很大的影响.
2.
5本章小结本章构建了一个开放式实体关系语料库,制定了语料标注规范,得到一个标准的评价集.
通过分析开放式实体关系语料,证实了使用三元组来描述一个关系实例是可行的.
我们把开放式实体关系抽取任务分成两个子问题:实体对识别和关系指示词识别.
针对两个子问题的解决先后顺序,分别设计了两种不同的解决方案:先识别实体对的方案和先识别关系指示词的方案.
由于采用了有指导的方法,为了增强模型的移植能力,我们设计了泛化能力较强的特征:使用词性、实体的词序列等特征.
对两种不同的方案进行实验,发现先识别关系指示词方法的三元组抽取结果的F值达到61.
41%,高于先识别实体对的方法,同时还对原因进行了分析.
综上所述,使用有指导的方法在有效的解决句子级的开放式实体关系抽取任务的同时,还避免了传统关系抽取中预先定义关系类型体系的问题.
第3章面向互联网的开放式中文实体关系抽取26第3章面向互联网的开放式中文实体关系抽取3.
1引言有指导的方法需要构建语料库,当从一个领域移植到另外一个领域时需要重新标注语料,消耗大量的人力资源.
同时机器学习算法时间复杂度高,无法适用于处理大规模的网络文本.
为了适应快速增长的网络文本,本章提出面向网络文本的无指导的开放式中文实体关系抽取方法.
我们通过分析中文语料库,发现同一个关系指示词往往只出现在特定的实体对类型的三元组中,例如"首席执行官"出现在实体对类型为(机构名,人名)的三元组中,"爸爸"出现在实体对类型为(人名,人名)的关系三元组中.
基于上述发现,本章提出一种新颖的面向互联网的无指导开放式实体关系抽取(UnCORE:UnsupervisedChineseOpenEntityRelationExtractionfortheWeb)方法,主要研究人、机构、地点之间的实体关系开放式描述.
UnCORE首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对关系三元组进行过滤.
3.
2无指导的开放式实体关系抽取UnCORE的核心思想是从大规模网络文本中通过启发式规则获取候选三元组,然后从候选三元组中自动挖掘关系指示词,最后利用关系指示词和句式规则过滤三元组.
如图3-1所示,UnCORE的输入是大规模网页、输出是从网页文本中抽取的关系三元组.
UnCORE共包含4个模块:1)预处理模块2)生成候选三元组模块3)生成关系指示词词表模块4)后处理模块预处理模型对网页进行正文提取,然后把正文转换成带自然语言标记(断句、分词、词性标注、命名实体识别)的句子集合.
生成候选三元组模块在句子集合中使用两类限制条件获取候选三元组.
生成关系指示词词表模块使用全局排序和哈尔滨工业大学工程硕士学位论文27领域排序的方法在候选三元组集合中挖掘关系指示词词表.
后处理模块是对候选三元组集合进行过滤和完善,最终得到大规模的关系三元组.
图3-1面向互联网的开放式中文实体关系抽取模型Fig.
3-1architectureofUnCORE3.
2.
1预处理预处理模块从网页中获取正文信息并转换成带有自然语言处理标记的句子集合,包含网页正文提取和自然语言处理两个步骤,下面我们将分别介绍这两个步骤.
1)网页正文提取使用基于文本行分布的正文抽取1方法对网页进行处理,抽取出网页中的正文文本.
在网页正文提取结果中,随机选取300个百科网页上进行人工判断,基于文本行分布的正文抽取方法准确率达到95%以上.
2)自然语言处理使用哈尔滨工业大学社会计算与信息检索研究中心发布的语言技术平台[38](LTP,LanguageTechnologyPlatform)对网页正文进行断句、分词、词性标注和命名实体识别.
对网络文本进行命名实体识别的时候,发现很多机构名都不能识别出来,这是由于在LTP集成的命名实体识别模型是使用人民日报语料训练的,导致在处理网1https://code.
google.
com/p/cx-extractor/第3章面向互联网的开放式中文实体关系抽取28络文本时的机构名召回率太低.
为了提高实体的召回率,我们通过百度百科2构建了一个机构名列表,构建词表的核心思想是百度百科中的每个词条都有一个开放的标签集合,如果标签集合中出现"公司"、"学校"等类似标签,那么就认为这个词条是一个机构.
从百度百科中抽取的机构名列表共包含19286个机构名.
使用机构名列表的规则很简单:如果文本中的某个词语在机构名列表中,那么就认为这个词是机构名.
这样可以召回大量的机构名,提高命名实体的召回率.
3.
2.
2生成候选三元组为了更好的刻画关系三元组抽取模型,同时也为了提高候选三元组抽取的准确率,我们对开放式实体关系语料进行了更细致的分析.
通过分析语料,我们提出了两个生成候选关系三元组的限制条件:实体之间的距离限制和关系指示词的位置限制.
1)实体之间的距离限制图3-2关系三元组数目在词距离上的分布情况Fig.
3-2Thedistributionofrelationtripleswithdifferentworddistance图3-2上点(5,0.
7457)表示两个实体之间词数目小于等于5的关系三元组数目占总的关系三元组数目的74.
57%.
从图3-2可以看出,当词的数目小于某个值的时候,关系三元组的数量随着词距离增大而急剧上升;而当词的数目超过这个值的时候,随着词的数目的增多关系三元组数量增加幅度越来越小.
也就是说大部分存在关系的实体对之间的词距离很小.
因此,在生成候选关系三元组的时2http://baike.
baidu.
com/(5,0.
7457)00.
20.
40.
60.
8105101520253035关系三元组所占比例两个实体之间其他词的数目哈尔滨工业大学工程硕士学位论文29候,我们规定候选三元组的两个实体之间词的数目不能超过maxDistance.
图3-3上点(4,0.
9855)表示两个实体之间其他实体数目小于等于4的关系实例数目占总关系三元组数目的98.
55%.
从图3-3中的曲线可以看出,关系实例的增长速度一直比较缓慢,也说明了实体之间其他实体数量越少越有可能存在关系,所以,在生成候选关系三元组时,本文规定实体之间其他实体数量不能超过maxEntityDistance.
图3-3关系三元组数目在实体距离上的分布Fig.
3-3Thedistributionofrelationtripleswithdifferententitydistance2)关系指示词的位置限制在2.
3.
1节中我们提到过,75.
36%的关系实例的关系指示词在两个实体的中间,这说明两个实体中间的词语很有可能是关系指示词.
当指示词在实体1的左边或者实体2的右边时,关系指示词靠近实体的情况占绝大部分的关系三元组.
同时我们对关系指示词的词性进行统计,当单个词语作为关系指示词的时候,该词语的词性往往是动词和名词.
基于上述发现,我们制定了以下限制条件来抽取候选关系指示词:实体之间的名词和动词第一个实体左边leftWordNumber个名词和动词第二个实体右边rightWordNumber个名词和动词作通过关系指示词的位置限制,在保证三元组抽取数量的同时,还提高了候选三元组的准确率.
(4,0.
9855)00.
20.
40.
60.
810510152025关系三元组所占比例两个实体之间其他实体数目第3章面向互联网的开放式中文实体关系抽取303.
2.
3生成关系指示词词表通过生成候选关系三元组,可以得到候选关系指示词集合.
但是候选关系指示词集合中包含了大量的噪声,为了提高关系指示词抽取的准确率,我们对候选关系指示词集合进行了排序和过滤,并且针对每个实体对类型生成一个关系指示词词表.
1)全局关系指示词排序前文已经指出同一个关系指示词往往只出现在特定实体对类型的关系三元组中,换一种说法就是关系指示词可以区分不同的实体对类型的关系三元组,区分能力越强的词语越可能是关系指示词.
信息增益值可以评价词语的区分能力,信息增益的计算公式(3-1)所示.
()=(ypes)(|rel)(31)(ypes)=∑()log()∈(32)(|)=∑(,)log(|)∈∑(,)log(|)∈(33)其中rel表示候选关系指示词,t表示实体对类型,t∈types.
统计发现,与人相关的关系类型比较丰富,所以本文只关注types={PER-PER,PER-ORG,PER-LOC,ORG-PER,LOC-PER}.
使用公式(3-1)可以对关系指示词进行全局排序,其排名靠前的词语可能是关系指示词.
2)类型关系指示词排序信息增益能找到指示实体关系的词语,但是不能说明该词语是指示哪一类实体对类型的关系,所以必须使用类型(实体对类型)打分公式来评价一个词语是否能描述特定实体对类型的关系.
公式(3-4)计算的是关系指示词rel描述实体对类型t的实体关系的能力.
score(rel,)=(|rel)log(,)(34)公式(3-4)中(rel|)保证了指示词rel要在实体对类型t上出现概率高,才能使score(rel,)的值大;而log(,)要求rel和实体对类型t共现次数多,才能使score(rel,)的值大.
哈尔滨工业大学工程硕士学位论文31具体地,"总裁"在实体对ORG-PER中出现的概率比在其他实体对类型中出现的概率值大,并且"总裁"在实体对ORG-PER中出现的频率很高,所以使用公式(3-5)计算score(总裁|ORG-PER)的值很大.
3)过滤关系指示词基于全局关系指示词排序和类型关系指示词排序的方法,可以对关系指示词进行过滤,最终生成每个实体对类型的关系指示词词表.
生成关系指示词词表的算法如下:算法3-1:生成关系指示词词表输入:候选关系指示词集合CandidateRelationWords,IG(rel),score(rel,),types输出:关系指示词词表{RelationWords(t)|t∈types}步骤:1.
令集合IGCandidateRelationWords为CandidateRelationWords按照IG(rel)值降序排序结果2.
令集合IGList为IGCandidateRelationWords的前N个元素3.
对集合types中的每个元素t3.
1.
令集合scoreCandidateRelationWords(t)为CandidateRelationWords按照score(rel,)值降序排序结果3.
2.
令集合scoreList(t)为scoreCandidateRelationWords(t)的前K个元素3.
3.
令集合RelationWords(t)为scoreList(t)和IGList的交集4.
返回集合{RelationWords(t)|t∈types}3.
2.
4后处理候选关系三元组集合中包含大量噪声,本节中使用关系指示词词表和句式规则来过滤这些噪声.
同时还包含一些关系指示词抽取不完整的三元组,我们使用补全关系指示词的方法来解决这个问题.
下面将分别介绍这些过滤和补全方法.
1)使用关系指示词词表过滤三元组候选三元组中的关系指示词包含很多噪声,例如从句子"陈曦主任近6年为佳木斯地区完成的部分首创手术"中抽出的候选关系三元组(陈曦,主任,佳木斯地区),这是由于候选关系三元组中的候选关系指示词包含很多不能指示关系的词语.
在3.
2.
3小节中针对每一个实体对类型都生成了一个关系指示词词表,通过关系指示词词表可以过滤掉这些噪声.
基于关系指示词词表过滤候选三元组的算法第3章面向互联网的开放式中文实体关系抽取32如下表:算法3-2:通过指示词词表过滤三元组输入:候选关系三元组集合CandidateTriples,{RelationWord(t)|t∈types}输出:关系三元组集合RelationTriples步骤:1.
初始化RelationTriples为空2.
对集合CandidateTriples中的每一个关系三元组triple(entity1,relationWords,entity2)2.
1.
令t为:entity1的实体类型-entity2的实体类型2.
2.
对relationWords中的每个词语relationWord2.
2.
1.
如果relationWord不属于RelationWord(t),那么:把relationWord从集合relationWords中删除2.
3.
如果集合relationWords非空,那么:把triple加入到集合RelationTriples3.
返回RelationTriples2)使用句式规则过滤三元组从某些固定的句式中抽取出来的三元组(i,relationWords,j)很可能是噪声,其中i是第一个实体在句子中的位置,j是第二个实体在句子中的位置.
下面是两条噪声句式.
系指示词包含动词且第二个实体后面第一个词语是动词,其形式化描述为:as(relationWords)∧(+1)(,,)这类句式往往存在连动结构,三元组无法描述其完整的关系实例.
例如从"傅红雪告诉叶开说"抽取的三元组(傅红雪,告诉,叶开)是不完整的,本章的方法还无法处理这类句式,所以将其过滤.
关系指示词都是名词且句子中第二个实体后面第一个词语是"的",其形式化描述为:as()∧(+1)(,,)这类句式中正确抽取结果中存在关系的两个元素是第一个实体和第二个实体的所有格.
例如从"宏仁集团的总裁是王泉仁的爸爸"抽取的三元组(宏仁集团,总裁,王泉仁)是一个错误的三元组,其正确抽取结果是(宏仁集团,总裁,王泉仁的爸爸).
但本章只处理实体之间的关系,所以过滤从这类句式中抽取的三元组.
哈尔滨工业大学工程硕士学位论文33本文制定了句式过滤规则:如果三元组所在句子满足上述两种句式,那么三元组将被从候选集合中删除.
3)补全关系指示词在句子"王树国担任哈尔滨工业大学校长.
"中,由于"校长"不是"PER-ORG"关系指示词词表中的词语,所以在补全关系指示词之前的关系三元组抽取结果是(王树国,担任,哈尔滨工业大学),显然这是一个错误的关系三元组,我们对这些错误进行处理,将"校长"补全到三元组的关系指示词中.
补全关系指示词主要针对实体对类型为PER-LOC和PER-ORG的关系三元组.
对于实体对类型是PER-LOC的关系三元组,考察实体2右侧3个词语,如果发现某个词语在LOC-PER关系指示词词表中,那么把这个词语添加到关系三元组的关系指示词中.
同理,对于实体对类型是PER-ORG的关系三元组,考察实体2右侧3个词语,如果发现某个词语在ORG-PER关系指示词词表中,那么把这个词语添加到关系三元组的关系指示词中.
3.
3实验结果及其分析3.
3.
1数据及评价方法本章实验使用的网络文本语料抽取正文后共10G文本,网页包含以下三个来源:1)百度百科3160W个网页2)新浪音乐新闻4(2008年~2012年)3)搜狗新闻语料5(2006年,2012年6月~2012年7月)为了评估句式过滤规则和补全关系指示词的效果,我们设置了两组不同的实验:1)UnCORE:完整的系统.
2)UnCORE-post:UnCORE除去句式规则过滤和补全关系指示词两个步骤后的系统.
对于网络文本上的关系三元组抽结果很难直接评价召回率,所以使用三元组的数量来反映召回率.
准确率的评价方法是对每种方法获取的每个实体对类型取结3http://baike.
baidu.
com/4http://ent.
sina.
com.
cn/music/roll.
html5http://www.
sogou.
com/labs/dl/ca.
html第3章面向互联网的开放式中文实体关系抽取34果中随机抽取200个关系三元组(共2000个关系三元组),然后人工判断每个关系三元组正确与否.
同时我们还在Ontonotes4.
0上构建的开放式实体关系抽取语料上进行关系三元组抽取实验,从而评价方法的P、R、F值.
由于UnCORE在获取关系指示词词表的时候是基于大规模候选三元组集合的,而Ontonotes4.
0上的语料规模过小,无法获取大量的候选三元组.
所以在Ontonotes4.
0上实验时,本文使用从网络文本中挖掘的关系指示词词表.
3.
3.
2结果及分析本文对不同实验参数进行测试,发现参数设置如表3-1时,实验效果最好.
表3-1最优参数设置Table3-1ValueofParameters参数NKmaxDistancemaxEntityDistanceleftWordNumberrightWordNumber值600050005000表3-2是从网络文本中抽取的各个实体对类型关系指示词词表中排名前20的词语,可以看出这些词语大多数都能描述实体之间的语义关系.
当然也有一些噪声,如LOC-PER的关系指示词词表中的"雄鹰",我们对关系指示词词表的抽取结果进行分析,发现这些错误大都是由于网络文本不规范和命名实体识别结果不准确而导致的.
表3-2从网络文本中抽取的各个实体对类型关系指示词词表的前20个关系指示词Table3-2Top20relationwordsineachdomain实体对类型关系指示词词表前20个关系指示词LOC-PER总统选手首相市长名将作家国务卿省长雄鹰舞台笔画大使诗人科学家物理学家村民数学家国防部长哲学家国王PER-LOC出生祖籍离开原籍下台率领躬耕生于故里南巡病逝访问回到追悼会流放统一全家遗体走遍来到ORG-PER主任书记局长所长秘书长董事长院长部长会长主席司长委员长总经理总裁研究员执行官科室理事长校长总工程师PER-ORG现任担任做客调任哀思代表考入致辞出任考上毕业当选母校杀人案考取辞去加入兼任受聘主持PER-PER妻子儿子女儿饰演弟弟丈夫扮演哥哥妹妹遗孀女友母亲夫人父亲扮演者神似好友男友女婿长子表3-3是在网络文本语料上抽取的关系三元组样例,句子中的斜体代表存在关系的两个实体,黑体代表关系指示词.
关系三元组的评价结果如表3-4所示.
图3-4哈尔滨工业大学工程硕士学位论文35是三元组抽取结果中正确关系三元组的数量,是一个估计值,其大小为三元组数量乘以准确率.
表3-3网络文本中抽取的关系三元组样例Table3-3Samplesofrelationtriplesextrction实体对类型关系三元组句子LOC-PER香港导演严浩能说双语的香港著名导演严浩也积极加盟.
美国总统奥巴马涨工资后,他的年薪是美国总统奥巴马的5倍.
PER-LOC佟铁鑫出生辽宁锦州男中音歌唱家佟铁鑫出生于辽宁锦州的一个音乐世家.
秦始皇统一中国秦始皇统一中国后,置齐地东部为琅琊郡,郡驻地在今天的琅琊镇.
ORG-PER英特尔公关经理牛大鹏英特尔公关经理牛大鹏并没有正面确认该信息.
腾讯董事长马化腾昨天,腾讯董事长马化腾在其微博上直接表态,重申腾讯不会做手机.
PER-ORG林茨效力布拉加队林茨目前效力于布拉加队,本赛季中前期表现出色.
李开复担任院长微软亚洲研究院上世纪90年代末,李开复曾担任微软亚洲研究院首任院长.
PER-PER李冰冰妹妹李雪李冰冰为妹妹李雪补办婚礼.
奥多姆经纪人杰夫﹒施瓦茨小牛已经给了奥多姆的经纪人杰夫﹒施瓦茨充分的自由去为奥多姆寻求下家.
表3-4网络文本上的关系三元组抽取结果Table3-4Performanceofrelationtriplesextractiononthewebdata实体对类型三元组数量准确率(%)UnCORE-postUnCOREUnCORE-postUnCORELOC-PER28930926608072.
0078.
00PER-LOC17873411024437.
5056.
00ORG-PER21100720331895.
0099.
00PER-ORG315741866539.
5079.
00PER-PER764983598261.
5078.
50微平均68.
0180.
97第3章面向互联网的开放式中文实体关系抽取36图3-4正确的三元组数目Fig.
3-4Thenumberofcorretrelationtriples表3-5是在Ontonotes4.
0的实验结果.
由于Ontonotes4.
0上的文本数量太少,无法使用本文的方法获取关系指示词词表,所以使用了在网络文本语料上构建的关系指示词词表.
从表3-5中可以看出,UnCORE的召回率比UnCORE的召回率有小幅度下降,但是准确率的提升幅度是很明显的.
表3-5Ontonotes4.
0上的实验结果Table3-5PerformanceofrelationtriplesextractiononOntonotes4.
0抽取方法准确率(%)召回率(%)F值(%)UnCORE-post69.
1950.
2058.
18UnCORE77.
1848.
5559.
61通过实验结果分析,可以得出以下结论:1)UnCORE的微观平均准确率比UnCORE-post提高12.
96%,这说明句式过滤规则覆盖了大部分错误的关系三元组.
2)使用句式规则和补全关系指示词后,PER-LOC和PER-PER两个实体对类型的正确关系三元组数量下降较多,但是这两个实体对类型的关系三元组抽取准确率提高幅度很大,分别提高了18.
5%和17%.
3)PER-ORG实体对类型的关系三元组抽取结果不但提高准确率,还增加了正确关系三元组的数量,其原因是在后处理中补全了关系指示词.
通过补全关系指示词,可以从类似"PER出任ORG[职位]"的句式中抽取正确的三元组(PER,出任[职位],ORG).
050000100000150000200000250000LOC-PERPER-LOCORG-PERPER-ORGPER-PERUnCORE-postUnCORE哈尔滨工业大学工程硕士学位论文374)目前典型的开放式信息抽取系统ReVerb识别名词短语之间关系,其抽取结果最好的前30%三元组准确率为80%[35],UnCORE的抽取结果的准确率在不排序的情况下达到80%以上.
5)在把方法移植到别的领域(Ontonotes4.
0,新闻领域)时,三元组抽取的效果并没有太大的变化,这也证实了UnCORE的鲁棒性.
我们在不同的语料规模上进行实验,以评价语料规模对实验效果的影响.
把包含候选三元组的句子集合10等份,然后设置10组对比实验.
第一组实验使用一份候选集合,第二组实验使用2份候选集合,依次类推,知道第十组实验使用全部的候选集合.
图3-5关系指示词数目随语料规模的变化趋势Fig.
3-5Therelationbetweenthenumberofrelationwordsandcorpus图3-5显示,关系指示词的数目随着语料规模增大而增加,但是增长趋势有所减缓.
这也说明互联网上的关系描述形式很丰富,很难通过人工构建一个全面的关系类型体系.
如图3-6所示,关系三元组数量随着语料规模的增大而增加,关系三元组数量的增大趋势一直很稳定.
并且当增加一份语料时,关系三元组的增加数量要比从语料规模是1时抽取出来的三元组数量多,例如PER-PER实体对类型,从2份语料中抽取出来的关系三元组数量要比从1份语料中抽取出来的数量多3651个,多出来的数量这比单独从1份语料中出去出来的关系三元组数量(2640个)大很多.
这是由于在语料增大时,关系指示词的数量也越来越多,所以从单位语料中挖掘出的关系三元组数量将增多.
0200400600800100012001400160012345678910关系指示词数量语料规模PER_PERPER_ORGPER_LOCORG_PERLOC_PER第3章面向互联网的开放式中文实体关系抽取38图3-6关系三元组数量随着语料规模的变化趋势Fig.
3-6Therelationbetweenthenumberofrelationtriplesandcorpus图3-7关系三元组准确率随着语料规模的变化趋势Fig.
3-7Therelationbetweenprecisionandcorpus在不同语料规模上,关系三元组抽取的准确率(Ontonotes4.
0上的测试结果)并没有太大的变化,如图3-7所示.
说明了本章所提出的关系三元组抽取方法可以是很稳定的.
05000010000015000020000025000030000012345678910关系三元组数量语料规模PER_PERPER_ORGPER_LOCORG_PERLOC_PER0.
000.
100.
200.
300.
400.
500.
600.
700.
800.
901.
0012345678910准确率语料规模哈尔滨工业大学工程硕士学位论文393.
3.
3错误分析我们通过分析错误的关系三元组发现,实体识别错误占很大的比例,如表3-6所示.
实体错误会导致关系三元组抽取错误,例如句子"SOHO中国首席执行官张欣等中国民营企业家在会场发言或参与主题讨论.
"中"SOHO中国"是一个机构,但是命名实体识别出地名"中国",从而导致抽取出来错误的三元组(中国,首席执行官,张欣).
表3-6实体识别错误的三元组所占比例Table3-6Thepercentageoftripleswithwrongentity实体对类型实体错误占所有三元组的比例(%)实体错误所占错误三元的组比例(%)LOC-PER14.
5065.
91PER-LOC20.
0045.
45ORG-PER1.
00100.
00PER-ORG4.
0019.
05PER-PER12.
5058.
14关系指示词词表中包含一些不能指示关系的词语,这些词语被称为错误的关系指示词.
这些错误的关系指示词可以分为两类:第一类是这些错误的关系指示词总出现在关系三元组的上下文中,一个典型的例子是"先生"总出现在PER-ORG的上下文中,从而被识别成PER-ORG的关系指示词,例如"黄如论先生荣获国家民政部颁发的爱心捐助奖个人奖项";第二类错误是实体识别错误带来的影响,句子"菊科艾属植物冷蒿Artemisia"中两个被识别成PER的实体都是错误的,并且这种情况非常多,所以导致"植物"被识别成一个关系指示词,进而影响最终的关系三元组抽取结果.
下面是对抽取结果中错误的三元组进行更细致的分类:1)实体边界错误实体边界错误占很大一部分,例如广州市第四中学中只识别出广州市.
广州市第四中学校长助理黄小燕黄小燕同志,广州市第四中学校长助理、党委委员,中学高级教师,广州市十佳青年语文教师,广州市高二语文中心组成员.
第3章面向互联网的开放式中文实体关系抽取40姜煜摄中新网上海6月17日电(记者姜煜)正在上海为"日本电影周"担任"亲善大使"的2012年国际小姐世界大赛日本代表吉松育美,17日对中新网记者表示,很想在中国有所发展.
2)分词错误分词错误对关系指示词识别影响较大,下面例子中"中后卫"应该是一个词语,但是被分成两个词.
本报讯(记者刘超峰)由于中后卫外援一直是河南建业足球队急需的"人才",中原球迷也在热切盼望实力派中后卫的加盟,昨天,建业引进中后卫外援的消息在网上传开效力于瑞士锡永队的巴西中后卫阿代尔顿,已经与建业签约,近两天将宣布加盟.
3)关系指示词抽取不全关系指示词抽取不全主要是由于正确的结果中包含修饰成分,例如"副"、"常务"、"前"等.
市县两级200亿元财政资金重点投向十大产业昨天,杭州市政协举行"以创新促转型做强实体经济"专题常委会,杭州市常务副市长杨戌标通报了杭州市实体经济发展情况.
4)实体类型错误故事背景封印着一千八百年前三国时代无法完成国家统一理想的英雄魂魄的勾玉辗转流落到现代的日本国,并散落关东各地.
5)指示词识别错误针对库班地区将发生第二轮洪灾的传言,俄罗斯紧急情况部南部地区中心新闻处负责人奥列格·格列科夫日前表示,库班地区的克雷姆斯克不可能发生第二轮洪灾,所有水库均运行正常,他还驳斥了这种挑衅性言论.
3.
4本章小结本章提出面向互联网的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序哈尔滨工业大学工程硕士学位论文41和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对关系三元组进行过滤.
在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.
把方法应用于Ontonotes4.
0时,关系三元组抽取的准确率变化并不太大,这证实了UnCORE方法有较强可移植性.
同时,我们还在不同语料规模上做实验,发现关系三元组的数量随着语料规模的增大呈线性增长,并且关系三元组抽取的准确率一直很稳定.
UnCORE不需要预先标注语料库,只需要输入大规模的文本,在挖掘大规模关系三元组的同时,还可以得到的文本中包含的关系指示词.
当语料规模较大时,从中挖掘出来的关系指示词数目和类型将非常丰富.
相对于有指导的方法,UnCORE不包含时间复杂度高的算法,所以可以把本方法用于对时间复杂度要求高的应用中.
本章为从大规模文本中挖掘出关系实例提供了一套快速有效的方法.
第4章开放式中文实体关系类型体系自动构建42第4章开放式中文实体关系类型体系自动构建4.
1引言通过观察和分析关系指示词集合,我们发现有部分关系指示词表达相同或相近的实体关系,例如"PER-PER"实体对类型的关系指示词词表中包含"妻子"、"老婆、"丈夫"等描述"夫妻关系"的词语.
为了把这些描述关系相同或相近的关系指示词聚集在一起,我们将提出基于关系指示词聚类的方法来自动构建开放式实体关系类型体系.
我们以特定的实体对类型的关系指示词词表(第三章中的处理结果)为处理对象,然后使用不同的相似度计算方法(基于HowNet[39]、基于RNN-LM[40]),最后通过不同的聚类算法(层次聚类算法,近邻传播算法[41])对关系指示词进行聚类.
最终形成一个关系类型体系,聚类结果中的每一个簇就是一类实体关系.
4.
2基于聚类的开放式实体关系类型体系自动构建图4-1基于聚类的开放式实体关系类型体系自动构建Fig.
4-1architectureofrelationtypesbuilding基于关系指示词聚类的开放式实体关系类型体系自动构建算法框图如图4-1所示.
从图中可以看出,算法的输入是关系指示词词表,输出是关系类型体系.
算法包括两个主要的步骤:相似度计算和关系指示词聚类.
下面我们将详细介绍这两个步骤.
哈尔滨工业大学工程硕士学位论文434.
2.
1相似度计算为了获取更好的性能,我们尝试两种不同的相似度计算方法:基于HowNet的相似度计算和基于RNN-LM的相似度计算.
下面我们将详细介绍这两种相似度计算方法.
1)基于HowNet的相似度计算HowNet又称为《知网》[39],有两个主要的概念:"概念"和"义原".
义原是对概念的最小描述单位,一个词语可以表示若干个概念.
HowNet与普通的语义词典不同,HowNet试图使用一系列"义原"来描述"概念".
通过HowNet中的"义原",我们可以计算不同词之间的语义相似度.
sim(,)=2+(4-1)公式(4-1)描述了关系指示词之间的语义相似度计算方法,其中和是要计算语义相似度的两个词语,表示的概念定义中义原的个数,表示概念定义中义原的个数,表示和的概念定义中相同义原的数目.
借助HowNet,通过公式(4-1)可以计算任意两个关系指示词的语义相似度,并且两个关系指示词相同的义原个数越多,相似度值越大.
在对关系指示词进行聚类时,我们使用语义相似度作为关系指示词之间的相似度.
2)基于RNN-LM的相似度计算对于在HowNet中的两个关系指示词,我们可以通过公式(4-1)计算他们的相似度,但是如果有一个关系指示词不在HowNet中,我们将无法精确计算他们之间的相似度.
为了克服这个问题,我们使用RNN-LM[40](RecurrentNeuralNetworkLanguageModel)训练模型,使用一个实数向量来描述关系指示词.
然后通过余弦相似度来计算两个关系指示词之间的相似度.
4.
2.
2聚类我们尝试了两类不同的聚类方法来对关系指示词进行聚类,分别是:层次聚类和近邻传播算法.
下面我们将分别介绍这两种算法.
1)层次聚类算法由于贪心策略不同,层次聚类的实现可以分为两种:自底向上(bottom-up)和自顶向下(top-down).
在实现聚类算法时,我们采用自底向上的策略,首先初始第4章开放式中文实体关系类型体系自动构建44化每一个关系指示词为一个单独的簇,然后每次把最相似的两个簇合并,直到簇的数目少于阈值为止.
传统的层次聚类算法的输出时一个层次化的聚类结果,但是我们对关系指示词进行聚类的时候,并不需要输出层次化的聚类结果,所以针对我们的问题,对传统的层次聚类算法有所改进.
算法4-1:改进的层次聚类算法输入:关系指示词词表RelationWords={rw1…rwk}聚类数目n关系指示词集合之间相似度计算函数f(ci,cj)输出:n个簇步骤:1.
初始化ci={rwi}2.
C={ci|1<=i<=k}3.
j=k+14.
循环k-n次4.
1.
(1,2)=argmax(,)∈(,)4.
2.
=124.
3.
=*1,2+5.
返回C算法4-1是改进后的层次聚类算法,和原始层次聚类算法的不同点在于步骤4,原始算法中循环k-1次,最后所有的元素都被聚集在一个集合中.
改进后,元素将被分成n个集合.
在算法4-1的输入中的关系指示词集合相似度计算函数f(ci,cj)不同于4.
2.
1节中描述的关系指示词之间的相似度,f(ci,cj)计算的是两个关系指示词集合之间的相似度,他需要满足单调性:c,c′,c′′满足min(f(c,c′),f(c,c′′))≥f(c,c′c′′)关系指示词集合之间相似度计算函数单调性保证在聚类过程中不会增加关系指示词之间的相似程度.
否则会出现这样的情况:原本相似度很小的两个关系指示词,在经过若干步合并操作后,两个关系指示词之间的相似度变大了.
这显然是错误的.
针对层次聚类算法中的关系指示词集合之间相似度计算函数,我们设计了两种哈尔滨工业大学工程硕士学位论文45方案:单连通:关系指示词集合之间的相似度是两个集合间最相似的两个关系指示词的相似度.
全连通:关系指示词集合之间的相似度是两个集合间最不想死的两个关系指示词的相似度.
不难证明,通过单连通和全连通的集合设计的相似度计算函数f(ci,cj)满足单调性.
2)近邻传播算法FreyBJ[41]于2007年提出近邻传播(AP,AffinityPropagation,简称AP)算法.
AP算法不需要预先给定类别数目,这不同于k-means聚类.
AP聚类算法是在元素的相似度矩阵基础上,通过信息传播进行聚类的.
它把每一个聚类元素都看作一个潜在的聚类中心,并且不要求元素之间的相似度矩阵对称(即允许sim(a,b)≠(,)).
代表矩阵R和适选矩阵A是近邻传播算法的两个重要参数.
矩阵R中的元素r(i,k)(responsibility)衡量使用聚类元素xk作为聚类元素xi所属类别中心的能力,矩阵A中的元素a(i,k)(availability)衡量当xk作为类别中心的时候xi属于这个类的程度.
r(i,k)与a(i,k)的和越大,说明聚类元素k越适合作为聚类中心点出现,且聚类元素i越可能属于这个类别.
AP算法经过若干次迭代后,会把相似的关系指示词聚成一个集合,并且每个集合都有一个类别中心(能代表该集合的一个关系指示词),满足元素i隶属的簇的中心点为arg((,)+(,)).
4.
3实验结果及其分析4.
3.
1数据与评价标准实验数据为第三章生成的PER-PER实体对类型的关系指示词集合.
为了评估自动构建的关系类型体系是否合理,我们人工构建了一个标准的评价集,由于聚类标准的评价方法不一,我们选取了两种不同的评价方法.
下面我们将详细介绍标准评价集的构建方法和聚类记过的评价方法.
1)标准评价集由于PER-PER实体对类型的关系指示词包含600多个关系指示词,很难对所有的关系指示词进行细致的分类,并且随着语料规模的增长,关系指示词的数目第4章开放式中文实体关系类型体系自动构建46还会不断的变化,所以我们在PER-PER的关系指示词集合中随机(频次越高的关系指示词被选中的概率越大)抽取了97个关系指示词进行人工分类.
表4-1是我们构建的标准评价集.
表4-1中包含两列:第一列是人工给定的关系类型,这是关系指示词集合能描述的关系;第二列是能描述特定关系类型的关系指示词.
我们在构建评价集时,尽量使各个实体关系类型内部的关系指示词内聚性高,同时,对于表述相关系类型的关系指示词,必须被分到同一个关系类型,例如"男朋友"和"男友"描述的是同一类关系.
表4-1关系类型体系评价集Table4-1Evaluationsetofrelationtypes关系类型关系指示词兄弟姐妹兄长妹妹表哥胞弟弟弟姐姐大哥哥哥兄弟姐妹双胞胎亲属儿媳祖父祖母侄女岳父舅舅孙女奶奶孙子姑姑婆婆外甥侄子爷爷侄儿叔叔女婿子女小儿子父子大儿子儿子养女长子长女女儿次子情侣男朋友男友恋情女友初恋恋人情人约会夫妻未婚夫老婆老伴夫人新婚新娘太太爱人丈夫未婚妻妻子前任夫妻离婚前妻老乡同乡老乡同门前辈师徒徒弟教练老师恩师师傅弟子班主任接班人传人接班人继承人同事同事好友老友老朋友友人好友朋友战友挚友队友偶像粉丝偶像模仿助手助手扮演者饰演扮演主演扮演者经纪人经纪人父母父亲妈妈母亲爸爸酷似酷似暗恋对象暗恋合作搭档制作人搭档2)评价标准由于我们的标准评价集并不全部包含PER-PER实体对类型的关系指示词,而实验是针对真个关系指示词词表进行聚类的,所以我们需要一种策略使用标准集来评价聚类结果.
我们的处理方法如下:哈尔滨工业大学工程硕士学位论文47对聚类结果中的每一个簇,如果簇中的关系指示词不在标准评价集中,那么就把这个关系指示词从簇中删除.
如果簇中不包含关系指示词,那么把簇删除.
通过上述处理后,我们再使用两种不同的聚类评价方法进行评价:纯度和F值测度.
这两种评价方法可以从不同的侧面对聚类结果进行评价.
下面将分别描述着两种评价指标.
纯度(Purity)是衡量聚类结果的内聚性,考察的是聚类之后在同一个簇中的元素是否来自于标准评价集中同一个簇,即聚类结果的混乱程度,纯度越高聚类结果的混乱程度越低.
纯度的计算方法如公式4-3所示.
purity(r)=1max*|∩|+(4-2)avgPurity=∑||=1()(4-3)聚类结果中的簇,是标准集中的簇,k是聚类结果中簇的个数,n是关系指示词的数目.
从公式4-3可以看出,当聚类结果中每一个关系指示词是一个簇的时候,avgPurity的值将为100%,这说明纯度指标无法惩罚聚类算法中聚类倒退(即当个关系指示词是一个簇)的情形.
F值测度可以解决这个问题,它是准确率和召回率的加权调和平均数,如公式4-7所示,在这里,我们设置准确率和召回率的权值是一样的.
R(i,r)=|∩|||(4-4)P(i,r)=|∩|||(4-5)F(i,r)=2()()()+()(4-6)avgF=∑||maxF(i,r)(4-7)4.
3.
2结果与分析我们设置了随机聚类算法作为baseline,其做法是:给定的聚类数目n,对每一个关系指示词随机从1到n之间选取一个数作为类别标签.
然后针对不同的聚类数目n,选取F值最高的一次作为baseline.
表4-2列出了7种关系指示词聚类的方法.
第4章开放式中文实体关系类型体系自动构建48表4-2实验方法Table4-2Methodsofbuildingrelationtypes方法相似度计算方法聚类算法Baseline无随机HowNet+APHowNetAPHowNet+HAC(singlelink)HowNetHAC(singlelink)HowNet+HAC(completelink)HowNetHAC(completelink)RNN-LM+APRNN-LMAPRNN-LM+HAC(singlelink)RNN-LMHAC(singlelink)RNN-LM+HAC(completelink)RNN-LMHAC(completelink)AP聚类算法需要预先设置阈值参数threshold,为了选取最好的实验结果,我们对threshold的不同进行了实验,参数threshold对实验效果的影响如图4-2所示.
图4-2AP算法中参数threshold对效果的影响Fig.
4-2Therelationbetweenperformanceandthreshold从图4-2中可以看出,基于HowNet计算相似度的聚类效果要比基于RNN-LM计算相似度的聚类效果好,这是由于HowNet包含了关系指示词的语义信息.
RNN-LM+AP方法的F值最高达到44.
65%,HowNet+AP方法的F值最高达到58.
3%.
在层次聚类中,需要输入聚类数目,所以,我们尝试了不同聚类数目m,并且统计了m对聚类鲜果的影响,如图4-3所示.
不难看出,基于全连通的层次聚类算法要比单连通的层次聚类算法效果好,这是由于全连通在计算两个关系指示词集合的相似度时,考虑了全局信息,而单连通只考虑了局部信息.
00.
10.
20.
30.
40.
50.
60.
70.
10.
20.
30.
40.
50.
60.
70.
80.
9F值thresholdRNN-LM+APHowNet+AP哈尔滨工业大学工程硕士学位论文49图4-3层次聚类参数对聚类效果的影响Fig.
4-3Therelationbetweenperformanceandclusternumber表4-3呈现了各个方法最好的效果(F值),可以看出使用HowNet计算相似度要比使用RMM-LM计算相似度的效果好,这是由于HowNet是一部语义资源,相比之下RMM-LM是基于无指导的方法计算出来的.
同时可以看出基于AP聚类算法的效果要比HAC算法好.
在所有的方法中,HowNet+HAC(completelink)取得了最优的效果,其F值达到64.
25%,这是由于HowNet引入了语义信息,并且能覆盖全部的关系指示词.
表4-3各个方法的效果比较Table4-3Theperformanceofeachmethod方法类别数目纯度(%)F值(%)baseline54091.
7533.
43RNN-LM+AP26665.
9844.
65RNN-LM+HAC(completelink)23062.
8941.
72RNN-LM+HAC(singlelink)58083.
5135.
97HowNet+AP32584.
5458.
30HowNet+HAC(completelink)36078.
3564.
25HowNet+HAC(singlelink)42085.
5759.
374.
4本章小结本章通过对关系指示词进行聚类而自动构建关系类型体系,首先以PER-PER实体对类型的关系指示词集合为处理对象,然后分别使用HowNet和RNN-LM的00.
10.
20.
30.
40.
50.
60.
71090170250330410490570F值类别数目mRNN-LM+HAC(completelink)RNN-LM+HAC(singlelink)HowNet+HAC(completelink)HowNet+HAC(singlelink)第4章开放式中文实体关系类型体系自动构建50方法来计算关系指示词之间的相似度,最后通过层次聚类算法或近邻传播算法对关系指示词进行聚类,其聚类结果就是PER-PER领域的关系类型体系.
我们对各种方法进行对比,发现HowNet+HAC(completelink)的方法达到了最好的实验结果,其F值达到64.
25%.
综上所述,针对开放式实体关系抽取任务,我们可以通过聚类的方法自动构建关系类型体系,可以为关系三元组的相似度计算、关系指示词归一化的相关研究提供参考.
第5章开放式中文实体关系抽取平台设计与实现51第5章开放式中文实体关系抽取平台设计与实现5.
1引言第二章中,本文提出了基于有指导的方法从句子中抽取关系三元组,在此基础上搭建了面向句子的开放式实体关系抽取系统.
为了查询从互联网的大量网络文本中快速挖掘关系三元组,本文在第三章中提出了基于无指导的开放式实体关系抽取方法,并且使用该方法获取了大量的关系三元组,在此基础上,搭建了开放式实体关系三元组查询系统.
5.
2句子级开放式实体关系抽取系统图5-1输入界面Fig.
5-1Theinterfaceofinput本节以第二章的方法为基础,搭建了一个句子级的开放式中文实体关系抽取系统6.
前台使用FLEX对抽取结果进行展示,后台使用JAVA编程语言实现实体关6http://ir.
hit.
edu.
cn/opentms/哈尔滨工业大学工程硕士学位论文52系的抽取过程,通过Tomcat服务器实现前台和后台的通信.
图5-1是系统的输入界面.
前台把输入文本传给后台,在通过断句、分词和命名实体的基础上,系统会对每一个句子进行开放式实体关系三元组抽取,并把抽取结果返回给前台.
对于输入文本"12月7日下午,中共中央总书记习近平在广东省省委书记汪洋及广东省省长朱小丹陪同下,到腾讯公司参观考察.
陪同考察的还有中央政策研究室主任王沪宁,中央办公厅主任栗战书.
"的开放式实体关系抽取结果展示界面如图5-2所示.
图5-2句子级的开放式实体关系抽取结果展示Fig.
5-2Theresultscreenofrelationextraction从图5-2中可以看出,系统从文本中抽取出4个关系三元组(中共中央,总书记,习近平)、(广东省省委,书记,汪洋)、(广东省,省长,朱小丹)、(中央办公厅、主任、栗战书).
在演示界面中,存在关系的两个实体使用一个单向箭头相连,连线上会附有关系指示词.
第5章开放式中文实体关系抽取平台设计与实现535.
3开放式实体关系三元组查询系统基于第三章的方法,我们从互联网文本中获取了大量的关系三元组.
在此,我们提供一个关系三元组检索的演示系统7,用户输入一个实体,系统返回包含该实体的关系三元组,返回结果中还包含关系三元组所在的句子.
系统的输入结果如图5-3所示.
图5-3查询实体输入界面Fig.
5-3Theinterfaceofinput图5-4是实体"哈尔滨工业大学"的查询结果,返回结果中每一行是一个关系三元组实例,前三列是关系三元组的信息,最后一列是关系三元组出现的句子.
第四列是关系三元组的"可信度",通过计算关系三元组出现的不同句子数目得到.
图5-4实体"哈尔滨工业大学"关系三元组查询结果Fig.
5-4Theresultscreenofretrieval同一个关系三元组出现的句子数目多,其被认可的程度也越高,所以,在展示关系三元组查询结时,我们使用可信度对其进行降序排序,使得可信度高的关系三元组排在前面,以提高用户体验.
7http://ir.
hit.
edu.
cn/iknow/index.
jsp哈尔滨工业大学工程硕士学位论文545.
4本章小结在前面章节的相关研究成果的基础上,本章设计并实现了"面向句子的开放式实体关系抽取系统"和"开放实体关系三元组查询系统".
在面向句子的开放式实体关系抽取系统中,用户输入文本,系统把从文本中抽取的开放式实体关系三元组清晰的展现出来.
在开放式实体关系三元组查询系统中,用户输入实体,系统返回该实体相关的关系三元组,并且使用计算关系三元组出现的句子数目给出了关系三元组的可信度.
结论55结论实体关系是描述实体之间语义关系的重要途径.
实体关系抽取是信息抽取任务中的重要环节,也有着广泛的应用前景.
随着Web2.
0的迅猛发展,人们对实体关系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取对用户有价值的信息.
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.
开放式实体关系抽取技术通过使用关系指示词描述关系的方法解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.
本文从开放式实体关系语料建设开始,对中文的开放式实体关系抽取进行了系统的研究.
本文的主要创新点和贡献包括以下几个方面:(1)本文针对中文的开放式实体关系抽取任务制定了语料规范,并且构建了1000篇文档的语料库.
我们认真地分析语料中的语言现象,把开放式实体关系抽取任务分成两个子问题:实体对识别和关系指示词识别.
针对两个子问题的解决先后顺序,分别设计了两种不同的解决方案:先识别实体对的方案和先识别关系指示词的方案.
为了增强模型的移植能力,我们设计了泛化能力较强的特征:使用词性、实体的词序列等特征.
对两种不同的方案进行实验,关系组抽取结果的F值达到61.
41%.
(2)为了快速处理互联网上的海量文本,本文提出面向互联网的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对关系三元组进行过滤.
该方法在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.
我们还在不同的领域使用UnCORE方法,取得了较好的效果,证实了UnCORE方法的鲁棒性.
(3)通过观察和分析关系指示词集合,我们发现有部分关系指示词表达相同或相近的实体关系,例如"PER-PER"实体对类型的关系指示词词表中包含"妻子"、"老婆、"丈夫"等描述"夫妻关系"的词语.
为了把这些描述关系相同或相近的关系指示词聚集在一起,我们将提出基于关系指示词聚类的方法来自动构建开放式实体关系类型体系.
我们以特定的实体对类型的关系指示词集合为处理对象,然后使用不同的相似度计算方法计算关系指示词之间的相似度,通过HAC算法和AP算法对关系指示词进行聚类,最终形成一个类型丰富的关系体系.
哈尔滨工业大学工程硕士学位论文56尽管已经取得了一定的阶段性成果,但是还存在许多需要改进的地方以及值得研究的问题,有如下几部分:(1)面向句子的开放式实体关系抽取方法的召回率还有提高的空间,将来可以采用句法特征来优化方法的召回率.
(2)优化命名实体识别效果.
命名实体识别效果对关系三元组抽取任务有很大的影响,传统的命名实体识别方法在应用到网络文本上时,其效果会有较大的下降.
将来可以针对关系抽取任务优化命名实体识别的效果.
(3)关系指示词推理.
我们对实体之间的语义关系使用关系指示词来描述,同样关系指示词之间也存在语义关系.
例如关系三元组(A,父亲,B)和(B,父亲,C)可以推理出(A,爷爷,C).
将来,在大规模的关系三元组的基础上,自动学习这种推理关系.
参考文献57参考文献[1]车万翔,刘挺,李生.
实体关系自动抽取.
中文信息学报.
2005,19(2):1-6.
[2]ACE.
Annotationguidelinesforentitydetectionandtracking.
ACE2004.
2004.
[3]C.
Plake,T.
Schiemann,M.
Pankalla,J.
Hakenberg,andU.
Leser.
Alibaba:PubMedasaGraph.
Bioinformatics,vol.
22.
2006:2444-2445.
[4]T.
S.
Jayram,R.
Krishnamurthy,S.
Raghavan,S.
Vaithyanathan,andH.
Zhu.
AvatarInformationExtractionSystem.
IEEEDataEngineeringBulleti,vol.
29.
2006:40-48.
[5]F.
M.
Suchanek,G.
Ifrim,andG.
Weikum.
CombiningLinguisticandStatisticalAnaysistoExtractRelationsfromWebDocuments.
InKDD06:Proceedingsofthe12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.
2006:712-717.
[6]B.
M.
Suchnek,G.
KasneciandG.
Weikum.
Yago:Acoreofsemanticknowledge.
InWWW07:Proceedingsofthe16thInternationalConferenceonWorldWideWeb.
2007:698-706.
[7]E.
AgichteinandL.
Gravano.
Snowball:ExtractingRelationsfromLargePlain-txtCollection.
Inproceedingsofthe5thACMInternationalConferenceonDigitalLibraries.
2000:85-94.
[8]MicheleBanko,MichaelJCafarella,StephenSoderland,MattBroadheadandOrenEtzioni.
OpenInformationExtractionfromtheWeb.
InIJCAI.
2007:2670-2676.
[9]Chinchor,N.
OverviewofMUC-7/MET-2.
InMessageUnderstandingConferenceProceedings:MUC-7.
[10]RalphGrishmanandBethSundheim.
MessageUnderstandingConference-6:ABriefHistory.
Inproceedingsofthe16thConferenceonComputationalLinguistics.
1996:466-471.
[11]InProceedingsoftheSeventhMessageUnderstandingConference(MUC-7)[C].
NationalInstituteofStandardsandTechnology.
1998.
[12]ChinchorN.
,MarshE.
MUC-7InformationExtractionTaskDefinition.
InproceedingofSeventhMessageUnderstandingConference.
1998:2-3.
[13]ACE.
AutomaticContentExtraction2008EvaluationPlan(ACE08).
In哈尔滨工业大学工程硕士学位论文58proceedingsoftheACE2008Ecaluation.
2008:1-16.
[14]J.
Aitken.
LearningInformationExtractionRules:AnInductiveLogicProgrammingApproach.
Inproceedingsofthe15thEuropeanConferenceonArtificialIntelligence.
2002:355-359.
[15]D.
McDonald,H.
Chen,H.
SuandB.
Marshall.
ExtractingGenePathwayRelationsusingAHybridGrammar:TheArizonaRelationParser.
Bioinformatics,vol.
20.
2004:3370-3378[16]W.
Shen,A.
Doan,J.
F.
NaughtonandR.
Ramakrishna.
DeclarativeInformationExtractionusingDatalogwithEmbeddedExtractionPredicates.
InVLDB.
2007:1033-1044.
[17]J.
JiangandC.
Zhai.
ASystematicExplorationoftheFeatureSpaceforrelationExtraction.
InHumanLanguageTechnologies2007:TheConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics;ProceedingsoftheMainConference.
2007:113-120.
[18]董静,孙乐、冯元勇.
中文实体关系抽取中的特征选择研究.
中文信息学报.
2007,21(4):80-91.
[19]YeeSengChanandDanRoth.
Exploitingbackgroundknowledgeforrelationextraction.
InProceedingsofth23thInternationalConferenceonComputationalLinguistics(COLING10).
AssociationforComputationalLinguistics2012:152-160.
[20]I.
Tsochantaridis,T.
Joachims,T.
HofmannandY.
Altun.
LargeMarginMethodsforStructuredandInterdependentOutputVariables.
JournalofMachineLearningResearch(JMLR).
2005:1453-1484.
[21]R.
C.
BunescuandR.
J.
Mooney.
AShortestPathDependencyKernelforRelationExtraction.
InHLT05:ProceedingsoftheConferenceonHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing.
2005:724-731.
[22]A.
CulottaandJ.
Sorensen.
DependencyTreeKernelsforRelationExtraction.
InProceedingsofthe42ndMeetingoftheAssociationforComputationalLinguistics(ACL04).
2003:24-31.
[23]M.
Wang.
ARe-examinationofDependencyPathKernelsforRelationExtraction.
InProceedingsofINCNLP2008.
2008:841-846.
[24]D.
Zelenko,C.
AoneandA.
Richardella.
KernelMethodsforRelationExtraction.
JournalofMachineLearningResearch,vol.
3.
2003:1083-1106.
参考文献59[25]M.
Zhang,J.
Zhang,J.
SuandG.
D.
Zhou.
ACompositeKerneltoExtractRelationsbetweenEntitieswithbothFlatandStructuredFeatures.
InProceedingsofthe21thInternationalConferenceonComputationalLinguisticsand44thAnnualMeetingoftheAssociationofComputationalLinguistics(COLING/ACL-2006),Sydney,Australia.
2006:825-832.
[26]S.
ZhaoandR.
Grishman.
ExtractingRelationswithIntegratedInformationusingKernelMethods.
InACL05:Proceedingsofthe43thAnnualMeetingonAssociationforComputationalLinguistics.
2005:419-426.
[27]E.
Agichtei.
ExtractingRelationsfromLargeTextCollections.
PhDthesis,ColumbiaUniversity.
2005.
[28]R.
BunescuandR.
Mooney.
LearningtoExtractrelationsformtheWebusingMinimalSupervision.
InProceedingsofthe45thAnnualMeetingoftheAssociationofComputationalLinguistics.
2007:576-583.
[29]B.
RosenfeldandR.
Feldman.
UsingCorpusStatisticsonEntitiestoimproveSemi-supervisedRelationExtractionformtheWeb.
InProceedingsoftheAssociationofComputationalLinguistics.
2007:600-607.
[30]Y.
ShinyamaandS.
Sekine.
PreemptiveInformationExtractionusingUnrestrictedRelationDiscovery.
InHLT-NAACL.
2006:304-311.
[31]P.
D.
Turney.
ExpressingImplicitSemanticRelationswithoutSupervision.
InALC.
2006:313-320.
[32]YulanYan,NaoakiOkazaki,YutakaNatsuo,ZhengluYangandMitsuruIshizuka.
UnsupervisedRelationExtractionbyMiningWikipediaTextsUsingInformationfromtheWeb.
InProceedingsof47thAnnualMeetingoftheACLandthe4thIJCNLPoftheAFNLP.
2009:1021-1029.
[33]FeiWu,DanielS.
Weld.
OpeninformationextractionusingWikipedia.
ACL'10Proceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics.
2010:118-127.
[34]SurdeanuM,TibshiraniJ,NallapatiR,etal.
Multi-instancemulti-labellearningforrelationextraction.
Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.
2012:455-465.
[35]AnthonyFader,StephenSoderland,OrenEtzioni.
EMNLP'11ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.
2011:哈尔滨工业大学工程硕士学位论文601535-1545.
[36]YaoL,RiedelS,McCallumA.
Unsupervisedrelationdiscoverywithsensedisambiguation.
Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics.
2012:712-720.
[37]王莉峰.
领域自适应的中文实体关系抽取研究.
哈尔滨:哈尔滨工业大学硕士论文,2011.
[38]CheW,LiZ,LiuT.
LTP:AChineseLanguageTechnologyPlatform.
InProceedingsoftheColing2010:Demonstrations.
2010.
08:13-16.
[39]DongZ,DongQ.
HowNetandtheComputationofMeaning.
WorldScientificPublishingCo.
,Inc.
,2006.
[40]MikolovT,KarafiátM,BurgetL,etal.
Recurrentneuralnetworkbasedlanguagemodel.
ProceedingsofInterspeech.
2010:1045-1048.
[41]FreyBJ,DueckD.
Clusteringbypassingmessagesbetweendatapoints.
science,2007,315(5814):972-976.
攻读硕士学位期间发表的论文及其它成果61攻读硕士学位期间发表的论文及其它成果(一)发表的学术论文[1]刘安安,秦兵,刘挺.
无指导的开放式中文实体关系抽取[C].
第十九届全国信息检索学术会议,2013.
哈尔滨工业大学学位论文原创性声明和使用权限62哈尔滨工业大学学位论文原创性声明和使用权限学位论文原创性声明本人郑重声明:此处所提交的学位论文《开放式中文实体关系抽取研究》,是本人在导师指导下,在哈尔滨工业大学攻读学位期间独立进行研究工作所取得的成果,且学位论文中除已标注引用文献的部分外不包含他人完成或已发表的研究成果.
对本学位论文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明.
作者签名:日期:年月日学位论文使用权限学位论文是研究生在哈尔滨工业大学攻读学位期间完成的成果,知识产权归属哈尔滨工业大学.
学位论文的使用权限如下:(1)学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文,并向国家图书馆报送学位论文;(2)学校可以将学位论文部分或全部内容编入有关数据库进行检索和提供相应阅览服务;(3)研究生毕业后发表与此学位论文研究成果相关的学术论文和其他成果时,应征得导师同意,且第一署名单位为哈尔滨工业大学.
保密论文在保密期内遵守有关保密规定,解密后适用于此使用权限规定.
本人知悉学位论文的使用权限,并将遵守有关规定.
作者签名:日期:年月日导师签名:日期:年月日致谢63致谢农历癸巳年仲夏之月,值此论文即将完成之际,心中感慨良多.
论文能以顺利完成,我既体会到辛勤劳动后的喜悦,又深感它与大家的帮助和支持是分不开的.
感谢哈工大社会计算与信息检索研究中心的所有老师,特别感谢研究中心主任刘挺教授,谢谢您为我们提供优越的工作环境和良好的学习科研氛围.
您开阔的视野、敏锐的思维、严谨的学风,以及严以律己、宽以待人的高尚品质无不是我学习的楷模.
感谢导师秦兵教授一直以来对我的信任和鼓励.
秦老师在生活上给了我无微不至的关心,在研究上给了我自由发挥的空间,让我在很多项目的研究和开发中锻炼动手和管理能力,使我学习了知识,开阔了视野,相信这些将使我终生受益.
感谢已经毕业的王莉峰和胡燊师兄,是你们把我带到了NLP、IR、IE领域,与你们相处的日子里我学到了很多,成长了很多,你们广阔的视野,出色的研发能力和团队合作意识给我留下了深刻的印象,并一直影响、改变着我.
感谢付瑞吉、李正华、宋巍师兄,和你们一起度过的每个"羽毛球之夜"是那么的激情.
感谢TM组所有组员,感谢一起学习奋斗过的11级SCIRer(宋原[TM]、张健[UA]、赵江江[TM]、邓知龙[LA]、陆子龙[SN]、焦扬[SN]、王沛[TM]、慕福楠[UA]、刘飞[UA])以及实验室其他成员,谢谢你们平日里热心的帮助、信任和鼓励,希望你们学习、工作顺利.
感谢我的两位好朋友、好兄弟吴峰和邓本洋,是你们在我空虚寂寞是陪伴我吃喝玩乐.
感谢哈工大对我的培养,希望母校蒸蒸日上,培养出更多优秀的人才,为国强民富作出更瞩目的贡献.
感谢我那还未出现的女友,谢谢你的矜持使得我能顺利完成论文.
感谢养育我长大成人的家人,谢谢你们始终如一的关心和支持,这些都是我不断向前进取的重要动力和保障.
感谢所有曾经给予我关心、支持和帮助的人们,愿你们好运常伴!
目前国内云计算市场竞争异常激烈,尤其是国内的腾讯云、阿里云、景安等商家促销活动一波接一波的进行,对于有需要的用户确实得到不小的实惠。但是这样给予国内的主机商确实是比较大的打击,毕竟这些商家的背景和实例强劲,即便是贴本补贴优惠,也是不怕的。前两年阿里一家各种活动促销,确实在国内市场占据主要的市场地位,腾讯云开始两年没有较大的吸引用户,不过这两年的发展还是比较稳健的。我们很多网友在之前肯定也享受到一些...
wordpress高级企业自适应主题,通用型企业展示平台 + 流行宽屏设计,自适应PC+移动端屏幕设备,完美企业站功能体验+高效的自定义设置平台。一套完美自适应多终端移动屏幕设备的WordPress高级企业自适应主题, 主题设置模块包括:基本设置、首页设置、社会化网络设置、底部设置、SEO设置; 可以自定义设置网站通用功能模块、相关栏目、在线客服及更多网站功能。点击进入:wordpress高级企业...
2021年各大云服务商竞争尤为激烈,因为云服务商家的竞争我们可以选择更加便宜的VPS或云服务器,这样成本更低,选择空间更大。但是,如果我们是建站用途或者是稳定项目的,不要太过于追求便宜VPS或便宜云服务器,更需要追求稳定和服务。不同的商家有不同的特点,而且任何商家和线路不可能一直稳定,我们需要做的就是定期观察和数据定期备份。下面,请跟云服务器网(yuntue.com)小编来看一下2021年国内/国...
googlepr值为你推荐
甘肃骄阳采购招标代理有限责任公司aspweb服务器asp网站挂上服务器,详细步骤Flash动画设计与制作——第九章:导出和发布动画什么是支付宝支付宝是什么意思?易名网易名网交易域名是怎么收费的可信网站可信网站认证一定要办吗中国保健养猪网135保健养猪,135天可以出栏吗?申请400电话400电话如何办理?discuz伪静态求虚拟主机Discuz 伪静态设置方法独立访客猎流的访问量都是真实的吗?想试试
成都虚拟空间 lamp debian7 七夕促销 已备案删除域名 速度云 免费智能解析 cxz 德讯 lamp是什么意思 mteam shuangcheng magento主机 reboot server2008 linux命令vi vpsaa 万网空间价格 好看的空间名字 win7配置web服务器 更多