代词的中文

的中文  时间:2021-04-18  阅读:()
!
""#$%%&'(%)*+,-.
#"+/+.
&012345617-5859:;231:@==31:@==2C:4.
'N52C:4O@6P5QRJH'%DG'J&J(D*&D!
结合规则与语义的中文人称代词指代消解张文艳$!
李存华D!
仲兆满D!
王!
艺D!
李!
莉D$C中国矿业大学计算机科学与技术学院徐州DD$$$HDC淮海工学院计算机工程学院连云港DDD%%G摘!
要指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术在海量信息文本智能处理中具有重要的作用而人称代词在各种指代词集合中占有相当一部分比例本文采用规则与语义相结合的方法对中文人称代词进行指代消解在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项提出更精确的同义词距离计算方法利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算选择关联度最高的候选先行词作为最终的指代结果通过不同方法的对比实验和在真实语料数据集上的实验表明本文所提方法获得了较好的效果关键词指代消解人称代词规则候选先行词语义特征中图分类号O)($C$!
!
!
文献标志码9!
"#$%$#$&'$($)"*+,-"&"%!
.
-&$)$/$#)"&0*/#"&"+&)1-,.
!
"23-&0,-"&"%4$20&,-')0&5(+*$)SM54AT@4L54$UO@:M4161AL+MO@:M4161ALY2ZM12DD$$$H+M@6L2=@>8@:M4161AL81I2>A@\M@8M@3E314124=:54N58:M\L@=E@:+M128\@W@61E@>56A13326@=C]5=@>14724>5N@48567N@:M541E8@>CO135@488M@5='=1:17E@3=1456E314124=54>=@6@:8@>548@:@>@48=K5=@>N@8M1>7135456LZ=@6@:8@48\M\17O14AL[1\'#@8C+1NE53=54>@QE@3585=@8\@3@:14>2:8@>54>3@=268==M1\8M588M@E3@=@48@>N@8M1>5:M1KW@48=@N548"#,-"&"%>$#)"&0*>#"&"+&)代词类别人物#个事件#个比例#_单数复数单数复数单数复数第一人称代词$自己&$G%$$D*&JJ&JH$$&J&$$$D&C&D$$%CGH&*CH&第二人称代词))%$*&$G*C(G%CGJ第三人称代词&$%G$*%J(H&DC()GCH&特殊指代词$%H%%CD*%总数*D$$)($GDDDDDJHC$&$)CJH从表$看出!
在中文人称代词的分布中!
第一人称和第三人称占有较大的比例!
单数人称代词出现的次数要远远超过复数人称代词!
因此对第一人称和第三人称代词消解的正确与否将直接影响最后效果'通过对第一人称代词的分析!
发现第一人称和第二人称在语料中主要以两种形式出现"第一类以直接或间接引用的方式描述说话内容!
是需要消解的%第二类是在祈使句中出现!
是不需要消解的'选择人名和代词周围特定词性的词语作为人物关联词!
根据关联词判断人名和代词之间的指代关系!
词性包括"4Z!
4A!
54!
W>!
W4!
WA!
$$'.
,0-&符号4Z4A54W>W4WA的中文人称代词指代消解如下形式-""R#43$R#WR#\R#\R""R#3$R""R#\R#\R""R#43DR#WR#\R#\R""R#3DR""R#\R#\.
!
表达中若3$(3D为第一人称则/3$0`/43$0(/3D0`/43D0!
若3$(3D为第二人称则/3$0`/43D0(/3D0`/43$0'$)&性别一致性收集具有明显性别特征的词分别组成男女性别词库'如女士(小姐为女性特征词!
先生(兄弟为男性特征词!
其余无明确特征的词则标注为无性别类'候选先行词与人称代词性别一致则为$!
有一项无性别为%CG!
不一致为%'$&&单复数一致性词语的单复数分为单数(复数和无单复数三类'人称代词的单复数可直接判断!
候选先行词则根据-和(每个(大部分(许多.
等特征词判断!
无明显特征的标注为无单复数类'$G&距离属性经过对待消解项的分析统计!
发现汉语中指代词与先行词的距离大多在三句话之内!
设定候选先行词与指代词的距离上线为)!
过滤掉大于)的候选先行词':;A!
语义特征判断语义特征的判断主要是对待消解项中人称代词的关联词与候选先行词的关联词语义关系的判断!
包括关联词一致性(关联词相似性和关联词相关性'其中!
关联词一致性用代词关联词与候选先行词关联词的字符串匹配判断!
利用同义词词林和[1\#@8确定关联词相似性)$$*和相关性'首先根据同义词词林计算待消解项中关联词的相似度!
在小于设定阈值的情况下再进一步计算关联词在[1\#@8中的相关度'对知网中未收录的词语从同义词词林中找出近义词!
利用近义词进行相关度计算'$C&C$!
语义相似度计算+同义词词林,是梅家驹等人于$(J)年编纂而成!
后来由哈尔滨工业大学信息检索实验室进一步扩展成为了一部具有汉语大词表的+哈工大信息检索研究室同义词词林扩展版,'词林中收录词语近*万条!
是一部同义类词典!
词典采用层级体系!
具备G层结构!
存储在同义词词林中的词语都采用J位标记法!
具体编码格式如表)所示'表@!
词语编码表=03;@!
1"#5'"5-&,03*$编码位$D)&GH*J符号举例-5$G]%D`##符号性质大类中类小类词群原子词群级别第一级第二级第三级第四级第五级词林级别越高词义越详细!
第G级词群中很多只有一个词语并且不可再分'若两个词语有相同的前三级编码!
其相似程度已非常地接近!
但是本文通过研究发现并非所有处于相同三级的词语都具有很高的相似性!
这与两词语所在的第四级的个数和编码距离有关'统计发现第四类的编码最大范围为+!
!
个数为$%!
当两词语的编码距离在&以内时!
词语的相似度较高!
若超过则需要进一步的相似计算'相似度与距离成反比!
用距离评测词语间的相似关系)$D*'给定两词+!
4!
其语义距离计算方法为-%D9%$`%$殖民9>%D.
%$$$DFH%C%G&*G唐人9>%D-%$`$$DF*%CG*(D$C&CD!
语义相关度计算知网$[1\4@8&是一个以汉语和英语词语所代表的概念为描述对象!
揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库'影响语义相关度计算的因素有"词语上下位关系所体现的相似度(横向关系所体现的相关度'采用李生琦)$&*的语义相关度计算方法"相关度`相似度$$权值$&R关联度$$权值D&R实力影响因素$$权值)&!
其中第三项的值为%'$$&词语相似度计算+知网,中的所有义原根据上下位关系构成了一个树状义原层次结构!
利用距离计算相似度)$)*'假设两个义原在层次体系中的路径长度为0!
定义两个义原的语义距离为""的中文人称代词指代消解%(!
%*!
%G!
F$!
%J!
%(!
%G5'义原关联度计算公式为^@6@$1$!
1D&5'9.
#@QE$1$&=.
@"$H&式中"@QE$1$&和@QE$1D&分别为义原1$和1D解释义原集合%=.
!
=为义原1$和1D解释义原个数'概念;$和;D的关联度近似为两概念的义原关联度最大值!
即^@6@$;$!
;D&5N5Q.
5$!
2!
%3@6@$9.
!
9^@6@$;.
!
;=K23A!
9!
V"9"9==1:1:2N@48545EM1353@=1628A@'K5=@>5EE315:M71324=2E@3W+M+M@NK@>>31:@==14@48326@=)0*C+1NE285831:@==@:="V4!
D%%D"D**')%JC)(*!
王厚峰C指代消解的基本方法和实现技术)0*C中文信息学报!
D%%D!
$H$H&"('$*CT54A[127@4AC"23W@L"+1NE2858@6=54>8@:M4161A的中文人称代词指代消解31:@==的中文人称代词的指代消解)0*C中文信息学报!
D%%G!
$($&&"D&')%CUg==@N548K5=@>14[1\4@8)0*C9EE6的中文相似句子检索)0*C高技术通讯!
D%%&!
$&$*&"$G'$(C+M@T54Q14@>713:1NE2814[1\4@8=@N548A@)0*C0123456178M@+MO@:M4\13>=14[1\#@8)0*C012345617+1NE28@39EE6@@40!
@856C9N1>@6'8M@13@8@3=854>的中文人称代词指代消解

raksmart:全新cloud云服务器系列测评,告诉你raksmart新产品效果好不好

2021年6月底,raksmart开发出来的新产品“cloud-云服务器”正式上线对外售卖,当前只有美国硅谷机房(或许以后会有其他数据中心加入)可供选择。或许你会问raksmart云服务器怎么样啊、raksm云服务器好不好、网络速度快不好之类的废话(不实测的话),本着主机测评趟雷、大家受益的原则,先开一个给大家测评一下!官方网站:https://www.raksmart.com云服务器的说明:底层...

90IDC-香港云主机,美国服务器,日本KVM高性能云主机,创建高性能CLOUD只需60秒即可开通使用!

官方网站:点击访问90IDC官方网站优惠码:云八五折优惠劵:90IDCHK85,仅适用于香港CLOUD主机含特惠型。活动方案:年付特惠服务器:CPU均为Intel Xeon两颗,纯CN2永不混线,让您的网站更快一步。香港大浦CN2測速網址: http://194.105.63.191美国三网CN2測速網址: http://154.7.13.95香港购买地址:https://www.90idc.ne...

HostDare($33.79/年)CKVM和QKVM套餐 可选CN2 GIA线路

关于HostDare服务商在之前的文章中有介绍过几次,算是比较老牌的服务商,但是商家背景财力不是特别雄厚,算是比较小众的个人服务商。目前主流提供CKVM和QKVM套餐。前者是电信CN2 GIA,不过库存储备也不是很足,这不九月份发布新的补货库存活动,有提供九折优惠CN2 GIA,以及六五折优惠QKVM普通线路方案。这次活动截止到9月30日,不清楚商家这次库存补货多少。比如 QKVM基础的五个方案都...

的中文为你推荐
开启javascript启用javascript是甚么意思360退出北京时间在国外如何把手机时间调回到中国北京时间?大飞资讯单仁资讯集团怎么样温州商标注册温州代理注册个商标是怎么收费的?科创板首批名单科创板开市后,可以通过哪些基金参与科创板投资和打新股?加多宝与王老吉加多宝王老吉有什么区别吗?电子商务世界世界前十大电子商务企业名字欢迎光临本店鸡蛋蔬菜饺子每个10个3元,牛肉蔬菜饺子每10个5元,欢迎光临本店! 汉译英什么是seoseo标题和seo关键词是什么意思discuz论坛Discuz论坛是什么啊?
me域名 中文域名注册 如何查询域名备案号 新网域名解析 重庆服务器托管 godaddy 免费个人博客 福建天翼加速 台湾谷歌地址 坐公交投2700元 架设服务器 qq云端 域名与空间 登陆空间 中国域名 畅行云 注册阿里云邮箱 1美元 存储服务器 中国电信宽带测速 更多