排比字符串数组

字符串数组  时间:2021-02-22  阅读:()
收稿日期!
"#$%"$%#'修回日期!
"#$%".
%!
)((基金项目国家自然科学基金资助项目+江西省学位与研究生教育教学改革研究项目YMNYe%!
"#+%".
'作者简介熊李艳#)+.
%女江西南昌人教授硕导硕士主要研究方向为软件工程自然语言处理数据挖掘林晓乔#))*%女山西吕梁人硕士研究生主要研究方向为自然语言处理数据挖掘)5PP*)##+4-%F1,*51,285-,1!
!
8&))#2#&'8&0$:%#+.
/,'&+01%-&,(,[2-,##+-,2X-1,2R-F&+01)=,->#+4-%F1,*51,2**""!
!
85-,1!
"#$%&'$U79J18FG2187928:=OG:8:34:D23:9J7G8238GFDF2G=6I:F;A:32G8:I:=:2;:38F;;:4F3=F6FGF:D376:387GGF=799F3A28:732071886F=738F387I86FOG:8:3423A86FG6F87G:=7I86F2G8:=;F:D;FDD=7;7GI1;6:D2G8:=;F92:3;L1DFAO7GADF49F3828:73n\8244:34J13=8128:73O7GA=7%7==1G%GF3=F23A=79J;F8FAHFG:I:=28:738F=637;74L2187928:=:AF38:I:=28:737IJ2G2;;F;IF281GFD23ADF49F38DJF=:I:=28:73:386F;:%8FG281GF7IJFG:7A0F8OFF386F=62G2=8FG:D8:=D7IJ2G2;;F;:D96FF/JFG:9F382;GFD1;8DD67O862886F2==1G2=L7I86:D9F867A:DDF;F=8FA87GF2=697GF8623)*g=79J2GFAO:86D:9:;2GGFDF2G=686F2==1G2=LG28F:D:9JG7HFA'K%EaK)>F/8T23f和\Vb的主题词抽取三种&$%$"标点符号匹配标点符号匹配是对文本中两句话中出现的标点符号以及它们出现顺序进行匹配的过程&采用前向扫描文本的方法!
将出现的标点符号分别放入两个数组中!
并对两个数组中对应的标点符号进行对比&$%&"共现词匹配共现词匹配是对文本中两句话中共同出现的字符串以及它们出现的位置信息进行匹配&共现词匹配分为句首共现词匹配和句中共现词匹配两种情况&使用前向最大匹配的方法!
若发现匹配的字符!
将其放入字符串数组中继续向后匹配!
直到出现不一样的字符停止!
将整个字符串截取出来&$%'"工整性匹配工整性匹配主要是对文本中两句话的长度)分词数及对应词性进行匹配&由于中文在使用过程中较为复杂!
所以在匹配过程中!
对字符串长度)分词数及词性进行弹性处理!
不要求严格相同&对句子长度的判断!
由于中文在用词上较为复杂!
廷议结构中长度不等的词语也会给人朗朗上口的感觉!
所以将长度差的阈值设置为'#分词结果与实际语境相比会存在一定的误差!
因此将分词数之差的阈值设置为!
来进行分词数容错性处理#在词性匹配中将对应词性的相等改为相互包容性来进行词性容错性处理!
如132与1H32视为一致&本文使用XhET进行分词并且标注词性!
分词结果如图&所示&(文明B3(在BJ(开放BH(中BI(发展BH(!
BOA((民族B3(在BJ(融合BH(中BI(共存BH:(&BOC(图&(XhET分词结果&"基于段内排比特征和段间排比特征的排比句抽取算法((根据对大量汉语文本的分析!
本文对基于汉语语法规则的排比句进行分类!
如图'所示&图'(排比句分类本文根据上述排比句和工整句的分类!
分别研究段内排比和段间排比的特征及特征自动识别方法!
以便自动识别和抽取文献语料中存在的排比句和工整句&抽取任务的主要步骤包括文本收集)文本预处理)排比句抽取)结果分析和展示等几步!
具体流程如图+所示&图+(系统流程&%#"段内排比特征识别段内排比是指构成排比句组的每一个短句在同一段落内&这一类有一个明显的特征就是距离近!
读起来气势层层递进!
给人以积极向上的感觉!
起到增强文章说服力的作用&首先就汉语语法来看!
最传统的散文类文章写排比句时!
一般都是三句及三句以上!
中间会用到标志性标点符号1#2!
随着排比的大量使用!
现在也有人用1!
2和1&2来分隔排比句!
此外!
还有一种引用手法的句子!
这些句子本身属于排比句或工整句的一种!
为了抽取结果的完善性!
将这类句子作为一种类型单独抽取&根据上述情况!
本文将段内排比句分为四种类,!
'$#,计算机应用研究(第*'卷型来分别抽取&2$用1#2分隔的排比句抽取!
示例如图$所示!
其抽取过程如图.
所示&要着力化解热点!
坚持政治解决#要着力斡旋调解!
坚持公道正义#要着力推进反恐!
标本兼治!
消除贫困落后和社会不公&图$(1#2分隔排比句示例图.
(1#2分隔排比句抽取流程这一类排比句是最基本的排比句!
一般为三句或三句以上!
也有两句的情况&该类排比主要与第一类段间排比和引用型排比进行区分!
其他的句式中几乎不会用到1#2!
因此该类排比句的抽取较为简单&"2$读入文档!
以一个完整的句子作为样本&"0$判断每个句子中是否存在1#2!
若存在!
则将句子放入候选集&"=$排除候选集中第一类段间排比的情况!
找出1#2所在的索引位置!
判断其是否在段落末尾!
若在!
则属于第一类段间排比&"A$排除第四类引用排比的情况!
经过对人工标注结果的统计!
1#2位于引用排比中时!
句式较短!
每个短句不会超过$个字!
因此在排除这种情况时!
判断引号前后#'个字符是否含有引号即可&"F$将句子放入最终结果集&0$用1&2分隔的排比句抽取!
示例如图)所示!
其抽取过程如图#"所示&我们要建立多层次人文合作机制!
搭建更多合作平台!
开辟更多合作渠道&要推动教育合作!
扩大互派留学生规模!
提升合作办学水平&要发挥智库作用!
建设好智库联盟和合作网络&图)(1&2分隔排比句示例图#"(1&2分隔排比句抽取流程在段内排比中以句号分隔的排比形式较为少见!
在识别过程中主要采取句首共现字符串匹配)整句共现词最大匹配法和标点符号匹配法&经过统计!
这类排比共现词出现的位置较为固定&"2$读入文档!
以相邻两个完整的句子作为一个样本进行检测&"0$对样本进行句首共现词匹配!
将符合匹配规则的句子放入结果集&"=$对样本进行标点符号匹配!
将符合匹配规则的句子放入候选集&"A$对候选集中的句子进行整句共现词及索引匹配!
将符合规则的句子放入结果集&=$用1!
2分隔的排比句抽取!
示例如图##所示!
其抽取过程如图#!
所示&历史告诉我们%文明在开放中发展!
民族在融合中共存&图##(1!
2分隔排比句示例图#!
(1!
2分隔排比句抽取流程由于1!
2是最基本的断句符号之一!
所以这一类排比句在抽取时不能根据标点符号1!
2来识别&将一个完整的句子切割为一个个小句子!
由于这类排比句一般都是相邻的!
所以将切割后相邻的两句话作为一个样本&这类排比句句式较短)内容工整!
所以主要进行工整性检验&可以通过标点符号匹配度)字数匹配度)分词数匹配度以及对应词性的匹配度来分析样本的工整性&"2$读入文档!
将句子根据常用短句符号分割为较短的句子!
以相邻两个短句子作为一个样本进行检测&"0$对样本中两个句子进行标点符号匹配!
将匹配成功的句子放入候选集&"=$对候选集中的句子进行工整性匹配!
将匹配成功的句子放入结果集&A$引用型排比!
这类句子一般位于引号中!
在抽取过程中又分为两种%一种是位于句子中间!
示例如图#*所示#另一种是位于句子末尾!
示例如图#&所示!
其抽取过程如图#'所示&古丝绸之路见证了陆上1使者相望于道!
商旅不绝于途2的盛况!
也见证了海上1舶交海中!
不知其数2的繁华&图#*(位于句子中间的引用型排比///这是民心相通不断促进的&年&1国之交在于民相亲!
民相亲在于心相通&2图#&(位于句子末尾的引用型排比图#'(引用型排比句抽取流程对于位于句子中间的引用型排比!
如果以句为单位!
位于句末的排比句会丢失引号的后半部分!
为了避免这种情况!
本文对该类排比句的识别和抽取以段为单位进行&识别过程又分为两种情况%一种是包含在12中间的句子#另一种是句子本身包含在12中!
引用排比包含在40中!
在识别时采用前向匹配的方法&"2$读入文档!
以段为单位作为一个样本进行检测&"0$从前向后扫描样本!
扫描到112时!
将其索引放入数组中等候处理&"=$继续向后扫描!
若出现142!
将其索引也放入数组中!
继续向后扫描找到与之匹配的102!
并截取量符号中间的文本放入候选集#若出现122!
则取出数组中距离最近的112!
将两者匹配!
并截取中间文本放入候选集&"A$对候选集中的句子进行句子结构判断!
若其符合排比句基本结构!
则将其放入结果集&&%$"段间排比特征识别段间排比是指构成排比句组的每一个短句不在同一段落!
而是分布于不同的段落内&这一类排比较段内排比有一个明显的不同!
就是它们一般位于不同段落的首句!
起到总领段落)疏通文章脉络的作用'!
(&段间排比句!
根据排比句内短句所,*'$#,第+期熊李艳等面向自动写作的中文排比句抽取方法(((在段落的相对位置以及短句在段落内的相对位置'!
(!
可以大体将段间排比句分为三种具体的形式&2$段落排比&是指几个相邻的段落均是由一句话构成!
几个相邻的段落构成了一组排比段!
示例如图#+所示&青春是用意志的血滴和拼搏的汗水酿成的琼浆///历久弥香#青春是用不凋的希望和不灭的向往编织的彩虹///绚丽辉煌#青春是用永恒的执著和顽强的韧劲筑起的一道铜墙铁壁///固若金汤&图#+(段落排比示例0$引领排比&就是在第一种段落排比的基础上!
中间插入一段文字!
对每个排比句进行详细阐述!
这样的排比句结构更加清晰!
示例如图#$所示&((如果你问我%幸福是什么颜色3我会告诉你它是像彩虹一样的多彩色&幸福就是艳红&有时!
它是你幼儿园的小红花!
艳丽夺目&有时!
它是红色条幅上你潇洒的名字&有时!
它又是证书上的大红奖章**幸福就是淡蓝&幸福又似是淡蓝色的!
是友谊与亲情的象征颜色!
它总会有一种神奇的魔力!
使你的心如海一样的平静无澜**幸福就是墨绿&它是这样一种深沉的色彩!
它使人畏惧!
不敢靠近!
但如若转念一想!
或许它又是幸福的一角**图#$(引领段落排比示例=$首句排比&就是几个相邻的段落的第一句话组成了排比句!
每一句话对该段落进行总结!
使得相邻的几个段落结构紧凑!
内容衔接性强!
示例如图#.
所示&///这是政策沟通不断深化的&年&我多次说过!
1一带一路2建设不是另起炉灶)推倒重来!
而是实现战略对接)优势互补**///这是设施联通不断加强的&年&1道路通!
百业兴&2我们和相关国家一道共同加速推进雅万高铁)中老铁路)亚吉铁路)匈塞铁路等项目**///这是贸易畅通不断提升的&年&中国同1一带一路2参与国大力推动贸易和投资便利化!
不断改善营商环境**///这是资金融通不断扩大的&年&融资瓶颈是实现互联互通的突出挑战&中国同1一带一路2建设参与国和组织开展了多种形式的金融合作**///这是民心相通不断促进的&年&1国之交在于民相亲!
民相亲在于心相通&21一带一路2建设参与国弘扬丝绸之路精神**图#.
(首句段落排比示例三种形式的段间排比句的位置信息和句子特点较为相似!
因此在抽取时一次性进行抽取和分类!
其抽取过程如图#)所示!
其中段间排比规则如图!
"所示&图#)(段间排比句抽取流程图!
"(段间排比句规则段间排比相比段内排比处理起来简单一些!
因为在段内排比的抽取中!
要把很大的注意力放在标点符号的问题上!
在段间排比的抽取中!
段落与段落之间的划分很明显!
所以!
更多是对句子位置信息和句子结构的判断&前两类段间排比属于独立段落!
而第三种属于段落首句!
因此可以将其分开进行处理&"2$读取文本!
以段为单位对段落进行分类!
每段只有一句话的段落分为第一组!
其余分为第二种&"0$对第一组中段尾的标点符号进行判断!
若为1#2!
则将其与下一段落一起放入结果集!
若不是则放入待定集合&"=$对待定集合中的段落两两作为一个样本进行标点符号匹配!
若匹配成功则放入候选集&"A$对候选集中的样本分别进行共现词匹配和工整性匹配!
其中任意一种匹配成功!
则将样本放入结果集&"F$对第二组段落!
分别截取其第一句话!
并将两两作为一个样本进行标点符号匹配!
匹配成功的放入候选集!
再分别进行共现词匹配和工整性匹配!
其中任意一种匹配成功!
则将样本放入结果集&'"实验与结果'%#"实验数据及预处理通过大量文本的阅读得出!
排比句和工整句的使用在政府报告类的文章中使用最多&本文从中国演讲网共爬取#""篇文章进行实验!
爬取结果以8/8文档按顺序保存!
文档名以演讲稿标题命名!
如图!
#所示!
并从中随机抽取*"篇作为样本进行排比句人工标注!
并对实验结果进行评测&将样本文章用不同颜色标注出不同类型的排比句并进行统计!
人工标注示例如图!
!
所示"为了直观表示!
图中省略了样本中部分文字$!
蓝色标注引用型排比!
绿色标注1!
2分隔的排比!
橘色代表1#2分隔的排比!
紫色代表1&2分隔的排比!
红色代表段间排比"请见电子版$&人工标注统计结果如表#所示&#一带一路峰会<8/8!
李鸿忠%法治思维是现代治理的首要思维<8/8*抗战$"周年<8/8&习近平出席第十五届中越青年友好会见活动时的讲话<8/8'习近平在庆祝1五一2国际节大会上的讲话<8/8+习近平在亚非领导人会议上的讲话<8/8$英业达公司顺利通过UbbE%'国际认证<8/8.
习近平达沃斯演讲%这是最好的时代也是最坏的时代<8/8)习总书记在中法建交'"周年纪念大会上的讲话全文<8/8#"!
"#+年希拉里败选演讲全文<8/8图!
#(实验数据展示图!
!
(人工标注结果展示表#(实验数据的人工标注结果排比类型段内排比段间排比总计人工标注,&'$#,计算机应用研究(第*'卷'%$"实验结果评价方法对实验结果的评测!
本文采用平均误差"2HFG24FFGG7G$)段内排比准确率"JGF=:D:73#$和召回率"GF=2;;#$)段间排比准确率"JGF=:D:73!
$和召回率"GF=2;;!
$)全局准确率"JGF=:D:73$和召回率"GF=2;;$)3值&在计算过程中使用的符号有%GFD1;8表示抽取出的所有结果!
GFD1;8#)GFD1;8!
分别表示段内排比抽取结果和段间排比抽取结果#92Gf#)92Gf!
分别表示人工标记的段内排比数和段间排比数#=7GGF=8#)=7GGF=8!
分别表示抽取结果中正确的个数&以下是评价指标计算方法&#$平均误差"2HFG24FFGG7G$2HFG24FFGGR#=7138-R#20D"GFD1;8-Z92Gf-$=7138"#$!
$段内)段间排比句抽取准确率"JGF=:D:73$JGF=:D:73"K$R=7GGF=8"K$GFD1;8"K$"!
$其中%KR#!
!
!
分别表示段内和段间两种情况&*$段内)段间排比句抽取召回率"GF=2;;$GF=2;;"K$R=7GGF=8"K$92Gf"K$"*$&$3值的计算3"K$R!
iJGF=:D:73"K$iGF=2;;"K$JGF=:D:73"K$SGF=2;;"K$"&$'$全局准确率"3FOJGF=:D:73$的计算%3FOJGF=:D:73R=7GGF=8U713892GfU7138"'$其中%=7GGF=8U7138和92GfU7138均来源于两部分段内和段间&'%&"实验结果及分析将上述不同分类的排比句根据不同的规则识别并抽取出来!
对抽取结果进行分类统计!
统计结果如表!
所示&表!
(实验结果排比类型人工标注抽取结果正确数准确率Bg召回率Bg平均误差3值Bg段内排比+))&<")!
<**)#<*#段间排比"')!
<&'"<**.
$<'"总和!
#)*<)'!
<+)"<))((从上述计算结果来看!
段内排比的准确率和召回率比段间排比准确率和召回率要高!
因此对应的3值也相对比较高!
但是由于段间排比的数量比段内排比数量少很多!
所以其平均误差的值相对较低!
对全局准确率的影响也比较低&表!
是每个样本段内排比和段间排比中人工标注)抽取结果和抽取正确数的比较!
图!
*所示是段内排比的对比图!
图!
&所示是段间排比的对比图&从图中可以看出!
段内排比每个样本的人工标注结果)抽取结果和抽取正确数浮动不大!
曲线总体走势一致#段间排比数量较少!
基数较小!
曲线走势稍有波动!
但其数量差值很小&图!
*(段内抽取结果对比图!
&(段间排比结果对比'%'"抽取结果示例结合上述抽取方法!
为了方便且直观地展现抽取结果!
笔者开发了一个针对排比句抽取的可视化原型系统!
系统结果展示如图!
'所示!
图中展示的是习近平1一带一路2峰会演讲稿中的引用型排比句的抽取结果!
此外系统对抽取文本的关键字进行了提取!
并将抽取结果分类保存到数据库!
方便用户使用!
用户可以通过关键词和内容进行检索!
快速找到自己所需要的排比句!
并运用到自己的文章中&该原型系统中单选按钮中的不同选项表示不同类型的排比句!
其中段内排比包含了引用排比)分号排比)逗号排比和句号排比&图!
'(系统结果展示"结束语本文运用自然语言处理技术!
采用段内特征和段间特征识别方法!
对文章中的排比句和工整句进行自动抽取!
经过实验!
抽取正确率达到)*<)'g!
召回率达到.
.
#g!
实验结果表明本文的方法是可行的&未来可以从下面两个方面进行研究%2$文中对排比句的识别和抽取都是在标点符号使用规范的情况下进行的!
但本身写作时标点符号的使用达不到#""g的正确率!
这对抽取结果会造成一定的影响!
下一步要对标点符号的容错性进行处理#0$文中只对写作中的排比句进行了抽取!
后期可以考虑对其他修辞手法如比喻)拟人等进行识别研究!
并开发一款实用性较强的写作辅助工具&参考文献#邹岱<某部队公文自动生成系统的设计与实现a<成都电子科技大学!
"##巩捷甫<面向语文作文自动评阅的修辞手法识别系统的设计与实现a<哈尔滨哈尔滨工业大学!
"#+<*许歆艺<文本纹理模型及其应用研究a<上海上海交通大学!
"#&<&刘明杨秦兵刘挺<基于文采特征的高考作文自动评分Y<智能计算机与应用!
"#+@##%&.
<'陈玉敬吕学强周建设等"#$&!
!
##%!
#.
<+孔行<基于主题推荐的辅助写作系统a<哈尔滨哈尔滨工业大学!
"#'<$刘明杨<高考作文自动评分关键技术研究a<哈尔滨哈尔滨工业大学!
"#'<,''$#,第+期熊李艳等面向自动写作的中文排比句抽取方法(

HostKvm新上联通CUVIP线路VPS,八折优惠后1G内存套餐$5.2/月起

最近上洛杉矶机房联通CUVIP线路主机的商家越来越多了,HostKvm也发来了新节点上线的邮件,适用全场8折优惠码,基于KVM架构,优惠后最低月付5.2美元起。HostKvm是一家成立于2013年的国人主机商,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,君选择国内直连或优化线路,延迟较低,适合建站或者远程办公等。以洛杉矶CUVIP线路主机为例,...

Digital-VM:服务器,$80/月;挪威/丹麦英国/Digital-VM:日本/新加坡/digital-vm:日本VPS仅$2.4/月

digital-vm怎么样?digital-vm在今年1月份就新增了日本、新加坡独立服务器业务,但是不知为何,期间终止了销售日本服务器和新加坡服务器,今天无意中在webhostingtalk论坛看到Digital-VM在发日本和新加坡独立服务器销售信息。服务器硬件是 Supermicro、采用最新一代 Intel CPU、DDR4 RAM 和 Enterprise Samsung SSD内存,默认...

DMIT:美国cn2 gia线路vps,高性能 AMD EPYC/不限流量(Premium Unmetered),$179.99/月起

DMIT怎么样?DMIT最近动作频繁,前几天刚刚上架了日本lite版VPS,正在酝酿上线日本高级网络VPS,又差不多在同一时间推出了美国cn2 gia线路不限流量的美国云服务器,不过价格太过昂贵。丐版只有30M带宽,月付179.99美元 !!目前,美国云服务器已经有个4个套餐,分别是,Premium(cn2 gia线路)、Lite(普通直连)、Premium Secure(带高防的cn2 gia线...

字符串数组为你推荐
office2016激活密钥office2016用什么软件激活或者密钥淘宝收费淘宝要收费吗?真正免费的网络电话有真正的免费的网络电话吗 ?邮箱打不开怎么办我的邮箱打不开怎么办申请证书手机申请证书qq空间装扮qq空间怎么装扮xv播放器下载xv播放器怎么下载?奇虎论坛奇虎问答是什么分词技术怎样做好百度分词技术和长尾词优化系统分析员系统分析师是做什么 的
网站域名备案 京东云擎 服务器架设 有奖调查 183是联通还是移动 91vps 服务器干什么用的 1美金 免费网页申请 免费外链相册 登陆空间 监控服务器 cdn网站加速 globalsign ipower 建站行业 连连支付 vpsaa 堡垒主机 1000元电脑主机配置 更多