代词的中文

的中文  时间:2021-04-18  阅读:()
!
""#$%%&'(%)*+,-.
#"+/+.
&012345617-5859:;231:@==31:@==2C:4.
'N52C:4O@6P5QRJH'%DG'J&J(D*&D!
结合规则与语义的中文人称代词指代消解张文艳$!
李存华D!
仲兆满D!
王!
艺D!
李!
莉D$C中国矿业大学计算机科学与技术学院徐州DD$$$HDC淮海工学院计算机工程学院连云港DDD%%G摘!
要指代消解是一种为了确定文章中出现的指代词与前文中出现的内容是否为同一事物的技术在海量信息文本智能处理中具有重要的作用而人称代词在各种指代词集合中占有相当一部分比例本文采用规则与语义相结合的方法对中文人称代词进行指代消解在基础的语法过滤规则之上新增同位语规则过滤指代词的候选消解项提出更精确的同义词距离计算方法利用同义词词林和知网对人称代词的关联词与候选先行词的关联词进行语义关系计算选择关联度最高的候选先行词作为最终的指代结果通过不同方法的对比实验和在真实语料数据集上的实验表明本文所提方法获得了较好的效果关键词指代消解人称代词规则候选先行词语义特征中图分类号O)($C$!
!
!
文献标志码9!
"#$%$#$&'$($)"*+,-"&"%!
.
-&$)$/$#)"&0*/#"&"+&)1-,.
!
"23-&0,-"&"%4$20&,-')0&5(+*$)SM54AT@4L54$UO@:M4161AL+MO@:M4161ALY2ZM12DD$$$H+M@6L2=@>8@:M4161AL81I2>A@\M@8M@3E314124=:54N58:M\L@=E@:+M128\@W@61E@>56A13326@=C]5=@>14724>5N@48567N@:M541E8@>CO135@488M@5='=1:17E@3=1456E314124=54>=@6@:8@>548@:@>@48=K5=@>N@8M1>7135456LZ=@6@:8@48\M\17O14AL[1\'#@8C+1NE53=54>@QE@3585=@8\@3@:14>2:8@>54>3@=268==M1\8M588M@E3@=@48@>N@8M1>5:M1KW@48=@N548"#,-"&"%>$#)"&0*>#"&"+&)代词类别人物#个事件#个比例#_单数复数单数复数单数复数第一人称代词$自己&$G%$$D*&JJ&JH$$&J&$$$D&C&D$$%CGH&*CH&第二人称代词))%$*&$G*C(G%CGJ第三人称代词&$%G$*%J(H&DC()GCH&特殊指代词$%H%%CD*%总数*D$$)($GDDDDDJHC$&$)CJH从表$看出!
在中文人称代词的分布中!
第一人称和第三人称占有较大的比例!
单数人称代词出现的次数要远远超过复数人称代词!
因此对第一人称和第三人称代词消解的正确与否将直接影响最后效果'通过对第一人称代词的分析!
发现第一人称和第二人称在语料中主要以两种形式出现"第一类以直接或间接引用的方式描述说话内容!
是需要消解的%第二类是在祈使句中出现!
是不需要消解的'选择人名和代词周围特定词性的词语作为人物关联词!
根据关联词判断人名和代词之间的指代关系!
词性包括"4Z!
4A!
54!
W>!
W4!
WA!
$$'.
,0-&符号4Z4A54W>W4WA的中文人称代词指代消解如下形式-""R#43$R#WR#\R#\R""R#3$R""R#\R#\R""R#43DR#WR#\R#\R""R#3DR""R#\R#\.
!
表达中若3$(3D为第一人称则/3$0`/43$0(/3D0`/43D0!
若3$(3D为第二人称则/3$0`/43D0(/3D0`/43$0'$)&性别一致性收集具有明显性别特征的词分别组成男女性别词库'如女士(小姐为女性特征词!
先生(兄弟为男性特征词!
其余无明确特征的词则标注为无性别类'候选先行词与人称代词性别一致则为$!
有一项无性别为%CG!
不一致为%'$&&单复数一致性词语的单复数分为单数(复数和无单复数三类'人称代词的单复数可直接判断!
候选先行词则根据-和(每个(大部分(许多.
等特征词判断!
无明显特征的标注为无单复数类'$G&距离属性经过对待消解项的分析统计!
发现汉语中指代词与先行词的距离大多在三句话之内!
设定候选先行词与指代词的距离上线为)!
过滤掉大于)的候选先行词':;A!
语义特征判断语义特征的判断主要是对待消解项中人称代词的关联词与候选先行词的关联词语义关系的判断!
包括关联词一致性(关联词相似性和关联词相关性'其中!
关联词一致性用代词关联词与候选先行词关联词的字符串匹配判断!
利用同义词词林和[1\#@8确定关联词相似性)$$*和相关性'首先根据同义词词林计算待消解项中关联词的相似度!
在小于设定阈值的情况下再进一步计算关联词在[1\#@8中的相关度'对知网中未收录的词语从同义词词林中找出近义词!
利用近义词进行相关度计算'$C&C$!
语义相似度计算+同义词词林,是梅家驹等人于$(J)年编纂而成!
后来由哈尔滨工业大学信息检索实验室进一步扩展成为了一部具有汉语大词表的+哈工大信息检索研究室同义词词林扩展版,'词林中收录词语近*万条!
是一部同义类词典!
词典采用层级体系!
具备G层结构!
存储在同义词词林中的词语都采用J位标记法!
具体编码格式如表)所示'表@!
词语编码表=03;@!
1"#5'"5-&,03*$编码位$D)&GH*J符号举例-5$G]%D`##符号性质大类中类小类词群原子词群级别第一级第二级第三级第四级第五级词林级别越高词义越详细!
第G级词群中很多只有一个词语并且不可再分'若两个词语有相同的前三级编码!
其相似程度已非常地接近!
但是本文通过研究发现并非所有处于相同三级的词语都具有很高的相似性!
这与两词语所在的第四级的个数和编码距离有关'统计发现第四类的编码最大范围为+!
!
个数为$%!
当两词语的编码距离在&以内时!
词语的相似度较高!
若超过则需要进一步的相似计算'相似度与距离成反比!
用距离评测词语间的相似关系)$D*'给定两词+!
4!
其语义距离计算方法为-%D9%$`%$殖民9>%D.
%$$$DFH%C%G&*G唐人9>%D-%$`$$DF*%CG*(D$C&CD!
语义相关度计算知网$[1\4@8&是一个以汉语和英语词语所代表的概念为描述对象!
揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库'影响语义相关度计算的因素有"词语上下位关系所体现的相似度(横向关系所体现的相关度'采用李生琦)$&*的语义相关度计算方法"相关度`相似度$$权值$&R关联度$$权值D&R实力影响因素$$权值)&!
其中第三项的值为%'$$&词语相似度计算+知网,中的所有义原根据上下位关系构成了一个树状义原层次结构!
利用距离计算相似度)$)*'假设两个义原在层次体系中的路径长度为0!
定义两个义原的语义距离为""的中文人称代词指代消解%(!
%*!
%G!
F$!
%J!
%(!
%G5'义原关联度计算公式为^@6@$1$!
1D&5'9.
#@QE$1$&=.
@"$H&式中"@QE$1$&和@QE$1D&分别为义原1$和1D解释义原集合%=.
!
=为义原1$和1D解释义原个数'概念;$和;D的关联度近似为两概念的义原关联度最大值!
即^@6@$;$!
;D&5N5Q.
5$!
2!
%3@6@$9.
!
9^@6@$;.
!
;=K23A!
9!
V"9"9==1:1:2N@48545EM1353@=1628A@'K5=@>5EE315:M71324=2E@3W+M+M@NK@>>31:@==14@48326@=)0*C+1NE285831:@==@:="V4!
D%%D"D**')%JC)(*!
王厚峰C指代消解的基本方法和实现技术)0*C中文信息学报!
D%%D!
$H$H&"('$*CT54A[127@4AC"23W@L"+1NE2858@6=54>8@:M4161A的中文人称代词指代消解31:@==的中文人称代词的指代消解)0*C中文信息学报!
D%%G!
$($&&"D&')%CUg==@N548K5=@>14[1\4@8)0*C9EE6的中文相似句子检索)0*C高技术通讯!
D%%&!
$&$*&"$G'$(C+M@T54Q14@>713:1NE2814[1\4@8=@N548A@)0*C0123456178M@+MO@:M4\13>=14[1\#@8)0*C012345617+1NE28@39EE6@@40!
@856C9N1>@6'8M@13@8@3=854>的中文人称代词指代消解

日本CN2独立物理服务器 E3 1230 16G 20M 500元/月 提速啦

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...

Raksmart VPS主机如何设置取消自动续费

今天有看到Raksmart账户中有一台VPS主机即将到期,这台机器之前是用来测试评测使用的。这里有不打算续费,这不面对万一导致被自动续费忘记,所以我还是取消自动续费设置。如果我们也有类似的问题,这里就演示截图设置Raksmart取消自动续费。这里我们可以看到上图,在对应VPS主机的【其余操作】中可以看到默认已经是不自动续费,所以我们也不要担心被自动续费的。当然,如果有被自动续费,我们确实不想续费的...

亚洲云Asiayu,成都云服务器 4核4G 30M 120元一月

点击进入亚云官方网站(www.asiayun.com)公司名:上海玥悠悠云计算有限公司成都铂金宿主机IO测试图亚洲云Asiayun怎么样?亚洲云Asiayun好不好?亚云由亚云团队运营,拥有ICP/ISP/IDC/CDN等资质,亚云团队成立于2018年,经过多次品牌升级。主要销售主VPS服务器,提供云服务器和物理服务器,机房有成都、美国CERA、中国香港安畅和电信,香港提供CN2 GIA线路,CE...

的中文为你推荐
采用360outlookexpressoutlook Express是什么啊?怎么用啊?dell服务器bios设置如何进入DELL电脑BIOS设置360防火墙在哪里设置电脑或电脑360有联网防火墙吗,在哪里设置资费标准电信套餐资费介绍表35邮箱邮箱地址怎么写什么是通配符什么是直女癌?discuz伪静态求虚拟主机Discuz 伪静态设置方法联系我们代码农业银行代码独立访客百度统计中访客数(UV)什么意思
过期备案域名查询 域名主机基地 拜登买域名批特朗普 dropbox网盘 网通代理服务器 上海域名 中国电信测速112 新世界服务器 华为云建站 双十二促销 512内存 镇江高防服务器 phpinfo 什么是云主机 kosskeb79 正在登陆游戏服务器 电脑主机结构图 个人域名如何备案 广州摇号申请网站 789** 更多