代词的中文

的中文  时间:2021-04-18  阅读:()
!
""#$%%&'(%)*+,-.
#"+/+.
&012345617-5859:;231:@==31:@==2C:4.
'N52C:4O@6P5QRJH'%DG'J&J(D*&D!
结合规则与语义的中文人称代词指代消解张文艳$!
李存华D!
仲兆满D!
王!
艺D!
李!
莉D$C中国矿业大学计算机科学与技术学院徐州DD$$$HDC淮海工学院计算机工程学院连云港DDD%%G摘!
要指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术在海量信息文本智能处理中具有重要的作用而人称代词在各种指代词集合中占有相当一部分比例本文采用规则与语义相结合的方法对中文人称代词进行指代消解在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项提出更精确的同义词距离计算方法利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算选择关联度最高的候选先行词作为最终的指代结果通过不同方法的对比实验和在真实语料数据集上的实验表明本文所提方法获得了较好的效果关键词指代消解人称代词规则候选先行词语义特征中图分类号O)($C$!
!
!
文献标志码9!
"#$%$#$&'$($)"*+,-"&"%!
.
-&$)$/$#)"&0*/#"&"+&)1-,.
!
"23-&0,-"&"%4$20&,-')0&5(+*$)SM54AT@4L54$UO@:M4161AL+MO@:M4161ALY2ZM12DD$$$H+M@6L2=@>8@:M4161AL81I2>A@\M@8M@3E314124=:54N58:M\L@=E@:+M128\@W@61E@>56A13326@=C]5=@>14724>5N@48567N@:M541E8@>CO135@488M@5='=1:17E@3=1456E314124=54>=@6@:8@>548@:@>@48=K5=@>N@8M1>7135456LZ=@6@:8@48\M\17O14AL[1\'#@8C+1NE53=54>@QE@3585=@8\@3@:14>2:8@>54>3@=268==M1\8M588M@E3@=@48@>N@8M1>5:M1KW@48=@N548"#,-"&"%>$#)"&0*>#"&"+&)代词类别人物#个事件#个比例#_单数复数单数复数单数复数第一人称代词$自己&$G%$$D*&JJ&JH$$&J&$$$D&C&D$$%CGH&*CH&第二人称代词))%$*&$G*C(G%CGJ第三人称代词&$%G$*%J(H&DC()GCH&特殊指代词$%H%%CD*%总数*D$$)($GDDDDDJHC$&$)CJH从表$看出!
在中文人称代词的分布中!
第一人称和第三人称占有较大的比例!
单数人称代词出现的次数要远远超过复数人称代词!
因此对第一人称和第三人称代词消解的正确与否将直接影响最后效果'通过对第一人称代词的分析!
发现第一人称和第二人称在语料中主要以两种形式出现"第一类以直接或间接引用的方式描述说话内容!
是需要消解的%第二类是在祈使句中出现!
是不需要消解的'选择人名和代词周围特定词性的词语作为人物关联词!
根据关联词判断人名和代词之间的指代关系!
词性包括"4Z!
4A!
54!
W>!
W4!
WA!
$$'.
,0-&符号4Z4A54W>W4WA的中文人称代词指代消解如下形式-""R#43$R#WR#\R#\R""R#3$R""R#\R#\R""R#43DR#WR#\R#\R""R#3DR""R#\R#\.
!
表达中若3$(3D为第一人称则/3$0`/43$0(/3D0`/43D0!
若3$(3D为第二人称则/3$0`/43D0(/3D0`/43$0'$)&性别一致性收集具有明显性别特征的词分别组成男女性别词库'如女士(小姐为女性特征词!
先生(兄弟为男性特征词!
其余无明确特征的词则标注为无性别类'候选先行词与人称代词性别一致则为$!
有一项无性别为%CG!
不一致为%'$&&单复数一致性词语的单复数分为单数(复数和无单复数三类'人称代词的单复数可直接判断!
候选先行词则根据-和(每个(大部分(许多.
等特征词判断!
无明显特征的标注为无单复数类'$G&距离属性经过对待消解项的分析统计!
发现汉语中指代词与先行词的距离大多在三句话之内!
设定候选先行词与指代词的距离上线为)!
过滤掉大于)的候选先行词':;A!
语义特征判断语义特征的判断主要是对待消解项中人称代词的关联词与候选先行词的关联词语义关系的判断!
包括关联词一致性(关联词相似性和关联词相关性'其中!
关联词一致性用代词关联词与候选先行词关联词的字符串匹配判断!
利用同义词词林和[1\#@8确定关联词相似性)$$*和相关性'首先根据同义词词林计算待消解项中关联词的相似度!
在小于设定阈值的情况下再进一步计算关联词在[1\#@8中的相关度'对知网中未收录的词语从同义词词林中找出近义词!
利用近义词进行相关度计算'$C&C$!
语义相似度计算+同义词词林,是梅家驹等人于$(J)年编纂而成!
后来由哈尔滨工业大学信息检索实验室进一步扩展成为了一部具有汉语大词表的+哈工大信息检索研究室同义词词林扩展版,'词林中收录词语近*万条!
是一部同义类词典!
词典采用层级体系!
具备G层结构!
存储在同义词词林中的词语都采用J位标记法!
具体编码格式如表)所示'表@!
词语编码表=03;@!
1"#5'"5-&,03*$编码位$D)&GH*J符号举例-5$G]%D`##符号性质大类中类小类词群原子词群级别第一级第二级第三级第四级第五级词林级别越高词义越详细!
第G级词群中很多只有一个词语并且不可再分'若两个词语有相同的前三级编码!
其相似程度已非常地接近!
但是本文通过研究发现并非所有处于相同三级的词语都具有很高的相似性!
这与两词语所在的第四级的个数和编码距离有关'统计发现第四类的编码最大范围为+!
!
个数为$%!
当两词语的编码距离在&以内时!
词语的相似度较高!
若超过则需要进一步的相似计算'相似度与距离成反比!
用距离评测词语间的相似关系)$D*'给定两词+!
4!
其语义距离计算方法为-%D9%$`%$殖民9>%D.
%$$$DFH%C%G&*G唐人9>%D-%$`$$DF*%CG*(D$C&CD!
语义相关度计算知网$[1\4@8&是一个以汉语和英语词语所代表的概念为描述对象!
揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库'影响语义相关度计算的因素有"词语上下位关系所体现的相似度(横向关系所体现的相关度'采用李生琦)$&*的语义相关度计算方法"相关度`相似度$$权值$&R关联度$$权值D&R实力影响因素$$权值)&!
其中第三项的值为%'$$&词语相似度计算+知网,中的所有义原根据上下位关系构成了一个树状义原层次结构!
利用距离计算相似度)$)*'假设两个义原在层次体系中的路径长度为0!
定义两个义原的语义距离为""的中文人称代词指代消解%(!
%*!
%G!
F$!
%J!
%(!
%G5'义原关联度计算公式为^@6@$1$!
1D&5'9.
#@QE$1$&=.
@"$H&式中"@QE$1$&和@QE$1D&分别为义原1$和1D解释义原集合%=.
!
=为义原1$和1D解释义原个数'概念;$和;D的关联度近似为两概念的义原关联度最大值!
即^@6@$;$!
;D&5N5Q.
5$!
2!
%3@6@$9.
!
9^@6@$;.
!
;=K23A!
9!
V"9"9==1:1:2N@48545EM1353@=1628A@'K5=@>5EE315:M71324=2E@3W+M+M@NK@>>31:@==14@48326@=)0*C+1NE285831:@==@:="V4!
D%%D"D**')%JC)(*!
王厚峰C指代消解的基本方法和实现技术)0*C中文信息学报!
D%%D!
$H$H&"('$*CT54A[127@4AC"23W@L"+1NE2858@6=54>8@:M4161A的中文人称代词指代消解31:@==的中文人称代词的指代消解)0*C中文信息学报!
D%%G!
$($&&"D&')%CUg==@N548K5=@>14[1\4@8)0*C9EE6的中文相似句子检索)0*C高技术通讯!
D%%&!
$&$*&"$G'$(C+M@T54Q14@>713:1NE2814[1\4@8=@N548A@)0*C0123456178M@+MO@:M4\13>=14[1\#@8)0*C012345617+1NE28@39EE6@@40!
@856C9N1>@6'8M@13@8@3=854>的中文人称代词指代消解

香港2GB内存DIYVM2核(¥50月)香港沙田CN2云服务器

DiyVM 香港沙田机房,也是采用的CN2优化线路,目前也有入手且在使用中,我个人感觉如果中文业务需要用到的话虽然日本机房也是CN2,但是线路的稳定性不如香港机房,所以我们在这篇文章中亲测看看香港机房,然后对比之前看到的日本机房。香港机房的配置信息。CPU内存 硬盘带宽IP价格购买地址2核2G50G2M1¥50/月选择方案4核4G60G3M1¥100/月选择方案4核8G70G3M4¥200/月选择...

spinservers:圣何塞物理机7.5折,$111/月,2*e5-2630Lv3/64G内存/2T SSD/10Gbps带宽

spinservers美国圣何塞机房的独立服务器补货120台,默认接入10Gbps带宽,给你超高配置,这价格目前来看好像真的是无敌手,而且可以做到下单后30分钟内交货,都是预先部署好了的。每一台机器用户都可以在后台自行安装、重装、重启、关机操作,无需人工参与! 官方网站:https://www.spinservers.com 比特币、信用卡、PayPal、支付宝、webmoney、Payssi...

云基Yunbase无视CC攻击(最高500G DDoS防御),美国洛杉矶CN2-GIA高防独立服务器,

云基yunbase怎么样?云基成立于2020年,目前主要提供高防海内外独立服务器,欢迎各类追求稳定和高防优质线路的用户。业务可选:洛杉矶CN2-GIA+高防(默认500G高防)、洛杉矶CN2-GIA(默认带50Gbps防御)、香港CN2-GIA高防(双向CN2GIA专线,突发带宽支持,15G-20G DDoS防御,无视CC)。目前,美国洛杉矶CN2-GIA高防独立服务器,8核16G,最高500G ...

的中文为你推荐
政府采购项目招标文件360退出北京时间北京时间校准显示时间netshwinsockreset开始-运行-输入CMD-确定-输入netsh winsock reset,按Enter确定。然后重启。 是什么意思支持http即时通平台寻找娱乐高科技产品工具条工具栏不见了怎么办网站后台密码破解如何破解网站后台密码开源网店开源网店iWebMall中会员管理包括哪些只要内容呢?dz论坛DZ论坛Discuz论坛如何DIY门户首页和论坛首页discuz论坛申请请问现在哪些网址能给免费申请Discuz! 论坛
国外vps 域名备案号查询 阿里云搜索 t楼 vps.net Vultr windows主机 秒解服务器 sugarsync 表单样式 patcha 免费静态空间 申请个人网页 警告本网站美国保护 美国十次啦服务器 百兆独享 刀片式服务器 谷歌台湾 博客域名 七十九刀 更多