代词的中文

的中文  时间:2021-04-18  阅读:()
!
""#$%%&'(%)*+,-.
#"+/+.
&012345617-5859:;231:@==31:@==2C:4.
'N52C:4O@6P5QRJH'%DG'J&J(D*&D!
结合规则与语义的中文人称代词指代消解张文艳$!
李存华D!
仲兆满D!
王!
艺D!
李!
莉D$C中国矿业大学计算机科学与技术学院徐州DD$$$HDC淮海工学院计算机工程学院连云港DDD%%G摘!
要指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术在海量信息文本智能处理中具有重要的作用而人称代词在各种指代词集合中占有相当一部分比例本文采用规则与语义相结合的方法对中文人称代词进行指代消解在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项提出更精确的同义词距离计算方法利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算选择关联度最高的候选先行词作为最终的指代结果通过不同方法的对比实验和在真实语料数据集上的实验表明本文所提方法获得了较好的效果关键词指代消解人称代词规则候选先行词语义特征中图分类号O)($C$!
!
!
文献标志码9!
"#$%$#$&'$($)"*+,-"&"%!
.
-&$)$/$#)"&0*/#"&"+&)1-,.
!
"23-&0,-"&"%4$20&,-')0&5(+*$)SM54AT@4L54$UO@:M4161AL+MO@:M4161ALY2ZM12DD$$$H+M@6L2=@>8@:M4161AL81I2>A@\M@8M@3E314124=:54N58:M\L@=E@:+M128\@W@61E@>56A13326@=C]5=@>14724>5N@48567N@:M541E8@>CO135@488M@5='=1:17E@3=1456E314124=54>=@6@:8@>548@:@>@48=K5=@>N@8M1>7135456LZ=@6@:8@48\M\17O14AL[1\'#@8C+1NE53=54>@QE@3585=@8\@3@:14>2:8@>54>3@=268==M1\8M588M@E3@=@48@>N@8M1>5:M1KW@48=@N548"#,-"&"%>$#)"&0*>#"&"+&)代词类别人物#个事件#个比例#_单数复数单数复数单数复数第一人称代词$自己&$G%$$D*&JJ&JH$$&J&$$$D&C&D$$%CGH&*CH&第二人称代词))%$*&$G*C(G%CGJ第三人称代词&$%G$*%J(H&DC()GCH&特殊指代词$%H%%CD*%总数*D$$)($GDDDDDJHC$&$)CJH从表$看出!
在中文人称代词的分布中!
第一人称和第三人称占有较大的比例!
单数人称代词出现的次数要远远超过复数人称代词!
因此对第一人称和第三人称代词消解的正确与否将直接影响最后效果'通过对第一人称代词的分析!
发现第一人称和第二人称在语料中主要以两种形式出现"第一类以直接或间接引用的方式描述说话内容!
是需要消解的%第二类是在祈使句中出现!
是不需要消解的'选择人名和代词周围特定词性的词语作为人物关联词!
根据关联词判断人名和代词之间的指代关系!
词性包括"4Z!
4A!
54!
W>!
W4!
WA!
$$'.
,0-&符号4Z4A54W>W4WA的中文人称代词指代消解如下形式-""R#43$R#WR#\R#\R""R#3$R""R#\R#\R""R#43DR#WR#\R#\R""R#3DR""R#\R#\.
!
表达中若3$(3D为第一人称则/3$0`/43$0(/3D0`/43D0!
若3$(3D为第二人称则/3$0`/43D0(/3D0`/43$0'$)&性别一致性收集具有明显性别特征的词分别组成男女性别词库'如女士(小姐为女性特征词!
先生(兄弟为男性特征词!
其余无明确特征的词则标注为无性别类'候选先行词与人称代词性别一致则为$!
有一项无性别为%CG!
不一致为%'$&&单复数一致性词语的单复数分为单数(复数和无单复数三类'人称代词的单复数可直接判断!
候选先行词则根据-和(每个(大部分(许多.
等特征词判断!
无明显特征的标注为无单复数类'$G&距离属性经过对待消解项的分析统计!
发现汉语中指代词与先行词的距离大多在三句话之内!
设定候选先行词与指代词的距离上线为)!
过滤掉大于)的候选先行词':;A!
语义特征判断语义特征的判断主要是对待消解项中人称代词的关联词与候选先行词的关联词语义关系的判断!
包括关联词一致性(关联词相似性和关联词相关性'其中!
关联词一致性用代词关联词与候选先行词关联词的字符串匹配判断!
利用同义词词林和[1\#@8确定关联词相似性)$$*和相关性'首先根据同义词词林计算待消解项中关联词的相似度!
在小于设定阈值的情况下再进一步计算关联词在[1\#@8中的相关度'对知网中未收录的词语从同义词词林中找出近义词!
利用近义词进行相关度计算'$C&C$!
语义相似度计算+同义词词林,是梅家驹等人于$(J)年编纂而成!
后来由哈尔滨工业大学信息检索实验室进一步扩展成为了一部具有汉语大词表的+哈工大信息检索研究室同义词词林扩展版,'词林中收录词语近*万条!
是一部同义类词典!
词典采用层级体系!
具备G层结构!
存储在同义词词林中的词语都采用J位标记法!
具体编码格式如表)所示'表@!
词语编码表=03;@!
1"#5'"5-&,03*$编码位$D)&GH*J符号举例-5$G]%D`##符号性质大类中类小类词群原子词群级别第一级第二级第三级第四级第五级词林级别越高词义越详细!
第G级词群中很多只有一个词语并且不可再分'若两个词语有相同的前三级编码!
其相似程度已非常地接近!
但是本文通过研究发现并非所有处于相同三级的词语都具有很高的相似性!
这与两词语所在的第四级的个数和编码距离有关'统计发现第四类的编码最大范围为+!
!
个数为$%!
当两词语的编码距离在&以内时!
词语的相似度较高!
若超过则需要进一步的相似计算'相似度与距离成反比!
用距离评测词语间的相似关系)$D*'给定两词+!
4!
其语义距离计算方法为-%D9%$`%$殖民9>%D.
%$$$DFH%C%G&*G唐人9>%D-%$`$$DF*%CG*(D$C&CD!
语义相关度计算知网$[1\4@8&是一个以汉语和英语词语所代表的概念为描述对象!
揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库'影响语义相关度计算的因素有"词语上下位关系所体现的相似度(横向关系所体现的相关度'采用李生琦)$&*的语义相关度计算方法"相关度`相似度$$权值$&R关联度$$权值D&R实力影响因素$$权值)&!
其中第三项的值为%'$$&词语相似度计算+知网,中的所有义原根据上下位关系构成了一个树状义原层次结构!
利用距离计算相似度)$)*'假设两个义原在层次体系中的路径长度为0!
定义两个义原的语义距离为""的中文人称代词指代消解%(!
%*!
%G!
F$!
%J!
%(!
%G5'义原关联度计算公式为^@6@$1$!
1D&5'9.
#@QE$1$&=.
@"$H&式中"@QE$1$&和@QE$1D&分别为义原1$和1D解释义原集合%=.
!
=为义原1$和1D解释义原个数'概念;$和;D的关联度近似为两概念的义原关联度最大值!
即^@6@$;$!
;D&5N5Q.
5$!
2!
%3@6@$9.
!
9^@6@$;.
!
;=K23A!
9!
V"9"9==1:1:2N@48545EM1353@=1628A@'K5=@>5EE315:M71324=2E@3W+M+M@NK@>>31:@==14@48326@=)0*C+1NE285831:@==@:="V4!
D%%D"D**')%JC)(*!
王厚峰C指代消解的基本方法和实现技术)0*C中文信息学报!
D%%D!
$H$H&"('$*CT54A[127@4AC"23W@L"+1NE2858@6=54>8@:M4161A的中文人称代词指代消解31:@==的中文人称代词的指代消解)0*C中文信息学报!
D%%G!
$($&&"D&')%CUg==@N548K5=@>14[1\4@8)0*C9EE6的中文相似句子检索)0*C高技术通讯!
D%%&!
$&$*&"$G'$(C+M@T54Q14@>713:1NE2814[1\4@8=@N548A@)0*C0123456178M@+MO@:M4\13>=14[1\#@8)0*C012345617+1NE28@39EE6@@40!
@856C9N1>@6'8M@13@8@3=854>的中文人称代词指代消解

wordpress通用企业主题 wordpress高级企业自适应主题

wordpress高级企业自适应主题,通用型企业展示平台 + 流行宽屏设计,自适应PC+移动端屏幕设备,完美企业站功能体验+高效的自定义设置平台。一套完美自适应多终端移动屏幕设备的WordPress高级企业自适应主题, 主题设置模块包括:基本设置、首页设置、社会化网络设置、底部设置、SEO设置; 可以自定义设置网站通用功能模块、相关栏目、在线客服及更多网站功能。点击进入:wordpress高级企业...

如何低价香港服务器购买?有没有便宜的香港服务器推荐?

如何低价香港服务器购买?想要做一个个人博客,想用香港服务器,避免繁琐备案,性能不需要多高,只是记录一些日常而已,也没啥视频之类的东西,想问问各位大佬有没有低价的香港服务器推荐?香港距大陆近,相比美国服务器最大的优势在于延迟低,ping值低,但是带宽紧张,普遍都是1M,一般戏称其为“毛细血管”。同时价格普遍高,优质稳定的一般价格不菲。大厂云梯队阿里云、腾讯云两家都有香港服务器,要注意的是尽量不要选择...

friendhosting:(优惠55%)大促销,全场VPS降价55%,9个机房,不限流量

每年的7月的最后一个周五是全球性质的“系统管理员日”,据说是为了感谢系统管理员的辛苦工作....friendhosting决定从现在开始一直到9月8日对其全球9个数据中心的VPS进行4.5折(优惠55%)大促销。所有VPS基于KVM虚拟,给100M带宽,不限制流量,允许自定义上传ISO...官方网站:https://friendhosting.net比特币、信用卡、PayPal、支付宝、微信、we...

的中文为你推荐
elevatedto信用卡appleprohibitedleaning on the door prohibited什么用法(语法),不甚感激人人视频总部基地落户重庆渝洽会上的西部国际总部基地是做什么的?网站ipad我爱试用网我发现我对性爱这个话题好敏感!来吧看谁能把我下面说湿了?要200以上的才好评啊!瞄准的拼音穿越火线枪战王者辅助瞄准什么意思狙击辅助美国独立美国是什么时候独立的?店铺统计如何科学分析店铺日常数据图文模块为什么我的QQ弄了图文模块只出现字没有图片?
北京vps主机 wordpress主机 域名商 kvmla burstnet 狗爹 全球付 paypal认证 win8.1企业版升级win10 NetSpeeder 镇江联通宽带 免费全能空间 毫秒英文 泉州移动 空间合租 umax120 购买国外空间 沈阳主机托管 国外的代理服务器 photobucket 更多