特征分词工具

分词工具  时间:2021-03-24  阅读:()
14ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5【引文格式】叶辉,姬东鸿.
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].
中国中医药图书情报杂志,2016,40(5):14-17.
DOI:10.
3969/j.
issn.
2095-5707.
2016.
05.
004基于多特征条件随机场的《金匮要略》症状药物信息抽取研究叶辉1,姬东鸿21.
广州中医药大学,广东广州510016;2.
武汉大学,湖北武汉430007摘要:目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法.
方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注.
结果基于多特征CRF自动标注的结果准确率达到84.
5%,召回率达到70.
9%,F测度值达到77.
1%.
结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息.
关键词:条件随机场;《金匮要略》;症状药物信息抽取;中医古籍中图分类号:R222.
3文献标识码:A文章编号:2095-5707(2016)05-0014-04ResearchonSymptomandMedicineInformationAbstractionofTCMBookJinGuiYaoLueBasedonConditionalRandomFieldYEHui1,JIDong-hong2(1.
GuangzhouChineseMedicineUniversity,GuangzhouGuangdong510006,China;2.
WuhanUniversity,WuhanHubei430007,China)Abstract:ObjectiveTofindanefficientwaytoabstractsymptomsandmedicineinformationfromTCMbookJinGuiYaoLuethroughcombinationofnaturallanguageprocessingmethod.
MethodsTakingJinGuiYaoLueasanexampleandbyusingconditionalrandomfields(CRF),textswereprocessedaccordingtowords,andthenpartofspeechandkeyassignmentsbasedonTCMdiagnosismarkergroupweresetasauxiliaryfeatures.
Symptom-medicineBIOlabelsweresetasthetrainingfeaturestotrainthemodel.
Thenthismodelwasusedtoconductautomaticlabelingtotestedtexts.
ResultsTheaccuracyrateofautomaticlabelingbasedonmulti-featureCRFwas84.
5%,recallrate70.
9%,Fmeasurevalue77.
1%.
ConclusionThemulti-featuremodeltrainedthroughCRFcombinedwithpartofspeechandTCMdiagnosismarkergroupcansuccessfullyimproveabstractionentityinformationabilityfromancientTCMbooks.
ThemodelcanbeusedtoautomaticallyabstractsymptomandmedicineentityinformationfromancientTCMbooks.
Keywords:conditionalrandomfields(CRF);JinGuiYaoLue;symptomandmedicineinformationabstraction;ancientTCMbooks基金项目:2014广东省中医药局建设中医药强省科研课题(20141073);广东财政专项(2013170)第一作者:叶辉,讲师,研究方向为医学信息学.
E-mail:yehui@gzucm.
edu.
cn中国医学存在大量的医药病案和古籍,如《伤寒论》《金匮要略》等中医药经典.
后人通过阅读理解这些经典,能够学习名医的经典药方和治疗思路,甚至可以挖掘在古籍中的药物信息,通过现代技术的药物提纯提炼,找出治疗某种疾病的特效药2016年10月第40卷第5期中国中医药图书情报杂志15物.
但由于中医药术语一直缺乏标准,古籍中的古文又偏涩难懂,科研人员想要获取古籍中的症状和药物信息比较费时,因此研究利用计算机自然语言处理中的算法高效地自动识别古籍里的中医药治疗信息具有实际的应用价值.
目前,医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法[1],而基于机器学习的方法是主流.
例如基于隐马尔可夫模型、决策树、支持向量机、最大熵、随机条件场等方法等,这些方法把词性、词形等特征融入到机器学习模型中,利用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称.
2001年,条件随机场(conditionalrandomfields,CRF)由美国Lafferty等人提出[2],结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,该模型的特性表明它非常适用于医学领域的命名实体识别研究.
有鉴于此,本文采用CRF算法对中医古籍《金匮要略》的医学症状和药物实体识别进行研究.
1研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果.
CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题.
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别.
1.
1数据准备与分词CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具.
首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料.
利用CRF训练测试的步骤概括如图1.
图1基于多特征的条件随机场的中医症状-药物抽取步骤《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种.
由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的"之乎者也"不影响上下文医学表达的词都去掉.
分词处理使用中国科学院计算技术研究所开发的ICTCLAS2015分词工具,此版本比过往版本对中文分词处理更加完善.
但由于分词系统没有经过大量古文的自然语言方面的优化,所以分出来的词汇偏向以单字的形式出现比较多.
最后本文采用书中前1~22篇的文本清洗后的分词结果共15525词条作为实验数据集.
1.
2多特征选择术语识别中可以利用的特征有很多,根据不同的文本和识别任务可以引入不同的特征,如字符、拼音、词性、词边界、各类命名实体列表、引导信息和频次统计及语法依赖关系和句子倾向性等,不同的特征对术语识别有不同的影响[3].
同时,特征数的增加对抽取效果的改善有积极作用.
根据《金匮要略》的文本特征,本实验选用以下3个特征.
特征1:词性.
词性是中文文本处理中常用的一项特征,词性特征指当前字符的词性,本研究釆用ICTCLAS2015的二级标注对语料库的词条进行自动词性标注,如:"极寒伤经"被系统标注为《金匮要略》未加工语料数据清洗词性与标注语料特征生成模型训练生成命名实体识别结果评测分词与校正测试语料训练语料16ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5"极/d寒/a伤/v经/n",其中d、a、v、n分别代表该词词性为副词、形容词、动词、名词.
特征2:采用键值对模型的中医诊断标记集进行诊断标注.
王国龙等[4]发现,使用基于键值对模型的中医诊断标记集标注的中医古文在基于词汇联系的隐马尔可夫模型测试中得到比较好的结果,因此本文参考键值对模型的中医诊断标记集作为辅助特征引入到实验中.
其中剔去时机、属性、附加描述这几个标记,简化后的键值对模型的中医诊断标记如表1.
表1键值对模型的中医诊断标记集的标注情况标记符号标记名称标记解释K键中医名词V值K的动词或描述ZN中医名词中医专业诊断名词U其他非症状信息特征3:症状-药物类别标签.
该特征作为术语识别过程中的状态值特征.
中医症状一般包括主症、舌象及脉象、部位、部位表征描述等信息,药物包括方剂和治法.
本文通过总结中医对症状和药物的处理方式,形成表2的标记集.
在识别类别的基础上采用"BIO"法标记[5],其中B(beginning)表示术语的首字符,I(intermediate)表示术语的非首字符和结束字符,O(outside)表示非术语字符.
由于中医诊断中对于脉象比较关注,因此在症状-脉象中特别标签了症状-脉类和症状-脉象,以提取其中的脉诊知识.
另外对症状也进行了标签处理.
表2CRF基于症状-药物的类别标签标记含义1级表示符号2级表示符号举例症状-脉类ZHML-BZHML-I寸口脉症状-脉象ZHMX-BZHMX-I浮症状-其他ZH-BZH-I小便难症(病)名ZM-BZM-I太阳病治法ZF-BZF-I发汗方剂FJ-BFJ-I黄芪防风汤药物YW-BYW-I细辛其他OO者1.
3语料训练与测试应用CRF++要求事先指定一种功能模板.
本文根据《金匮要略》文本特点设定一个特征模板,该模板用于描述训练文本和测试文本中的特征,进而提取训练集中的特征参数来实现测试文本标签的计算.
模板文件中的每一行表示一个子模版,表达方式为:%X[row,col],一个子模板表示输入数据的一个Token.
本文设计将相邻位置的特征进行联合,有助于识别错分词或长距离词.
本实验1和2选择模板窗口的大小为前后两行[-2,+2].
实验2设计例子见表3.
表3CRF实验2设计例子词词性中医诊断标记症状-药物标签太阳nZNZM-B病nZNZM-I,wUO无vZNZH-B汗nZNZH-I而cUO小便vKZH-B反vVZH-I利用CRF++train训练工具,按照表3的训练集格式进行训练得出模型文件model,然后再利用CRF++test工具将该模型应用到测试集中去,最后得出带有症状-药物自动标签的测试集.
1.
4实验设计本文设计了2组实验,通过对照组与实验组的对比,测试采用不同特征的基于CRF的《金匮要略》症状-药物识别的性能及不同特征对性能的影响情况.
实验1是单一特征对照实验,仅选用词本身、症状-药物标记(参见表2)进行实验作为基准.
实验2选用词、词性、简化的中医诊断标记集(参见表1),症状-方剂-药物标记(参见表2)的多特征进行实验,然后对以上2组实验的结果用conlleval工具进行测评,分析多特征对实验识别效能的影响.
1.
5评价标准基于CRF的中医专业术语识别性能的评估采用3个指标:准确率(precision,P)、召回率(recall,R)和F测度值(F-Measure).
P指抽取的信息中正确抽取的比例;R指正确抽取的信息占应抽取信息的比例;F测度值即为正确率和召回率的调和平均值.
其中F测度值能比较合理地反映该信息抽取的有效程度.
2结果与分析实验组1为实验的基准,采用单一特征的CRF方法,得到抽取词组准确率P为72.
0%,召回率R为55.
3%,F测度值为62.
5%;而实验组2引入多特征,再采用CRF处理后,得到抽取词组准确率P为2016年10月第40卷第5期中国中医药图书情报杂志1784.
5%,召回率R为70.
9%,F测度值为77.
1%.
见表4.
单一特征进行分词和症状药物BIO标签训练的F测度值比较低,而运用了分词、词性、中医诊断简化标记和症状药物BIO多特征标签后,F测度值结果升高到77.
1%,说明引入该组合特征模型的识别效能较优.
可见对于中医古籍的实体信息抽取,采用诊断标记和语言学规则(如词性、分词等)相结合的多特征模型,可令CRF抽取信息效果提高.
表4CRF2个实验组结果分析实验组引入特征P/%R/%F/%实验1分词、症状-药物BIO标签72.
055.
362.
5实验2分词、词性、中医诊断简化标记、症状-药物BIO标签84.
570.
977.
13小结本文主要通过CRF工具对《金匮要略》进行症状-药物信息提取,首先经过分词处理语料,然后加入词性、中医诊断标记等多个标注特征对中医症状-药物BIO标签进行训练和测试,得到F测度值77.
1%,比只运用单一特征的CRF抽取的结果效率更高,可见利用本文提出的多特征模型的CRF提取方法对中医古籍的信息抽取有良好的效果.
通过对《金匮要略》等中医古籍的信息抽取研究,为将来建立中医药搜索引擎及新药物发掘等方面提供了一种可行的方法.
参考文献[1]马瑞民,马民艳.
基于CRFs的多策略生物医学命名实体识别[J].
齐齐哈尔大学学报,2011,27(1):39-42.
[2]LAFFERTYJD,MCCALLUMA,PEREIRAFCN.
ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//The18thInternationalConferenceonMachineLearning.
SanFrancisco:MorganKaufmannPublishersInc.
,2001:282-289.
[3]孟洪宇.
基于条件随机场的《伤寒论》中医术语自动识别研究[D].
北京:北京中医药大学,2014:33-34[4]王国龙,杜建强,郝竹林,等.
中医诊断古文的词性标注与特征重组[J].
计算机工程与设计,2015,36(3):836-841.
[5]魏尊强,舒红平,王亚强.
基于序列标注的中医症状名识别技术研究[J].
山东工业技术,2015(8):237-238.
(收稿日期:2016-06-08)(修回日期:2016-08-08;编辑:魏民)

CloudCone($82/月)15-100M不限流量,洛杉矶CN2 GIA线路服务器

之前分享过很多次CloudCone的信息,主要是VPS主机,其实商家也提供独立服务器租用,同样在洛杉矶MC机房,分为两种线路:普通优化线路及CN2 GIA,今天来分享下商家的CN2 GIA线路独立服务器产品,提供15-100Mbps带宽,不限制流量,可购买额外的DDoS高防IP,最低每月82美元起,支持使用PayPal或者支付宝等付款方式。下面分享几款洛杉矶CN2 GIA线路独立服务器配置信息。配...

VoLLcloud6折限量,香港CMI云服务器三网直连-200M带宽

vollcloud LLC首次推出6折促销,本次促销福利主要感恩与回馈广大用户对于我们的信任与支持,我们将继续稳步前行,为广大用户们提供更好的产品和服务,另外,本次促销码共限制使用30个,个人不限购,用完活动结束,同时所有vps产品支持3日内无条件退款和提供免费试用。需要了解更多产品可前往官网查看!vollcloud优惠码:VoLLcloud终生6折促销码:Y5C0V7R0YW商品名称CPU内存S...

ATCLOUD-KVM架构的VPS产品$4.5,杜绝DDoS攻击

ATCLOUD.NET怎么样?ATCLOUD.NET主要提供KVM架构的VPS产品、LXC容器化产品、权威DNS智能解析、域名注册、SSL证书等海外网站建设服务。 其大部分数据中心是由OVH机房提供,其节点包括美国(俄勒冈、弗吉尼亚)、加拿大、英国、法国、德国以及新加坡。 提供超过480Gbps的DDoS高防保护,杜绝DDoS攻击骚扰,比较适合海外建站等业务。官方网站:点击访问ATCLOUD官网活...

分词工具为你推荐
今日油条联通大王卡看今日头条免流量吗?百度关键词工具如何通过百度官方工具提升关键词排名www.522av.com跪求 我的三个母亲高清在线观看地址 我的三个母亲高清QVOD下载播放地址 我的三个母亲高清迅雷高速下载地址mole.61.com谁知道摩尔庄园的网址啊5xoy.comhttp://www.5yau.com (舞与伦比),以前是这个地址,后来更新了,很长时间没玩了,谁知道现在的地址? 谢谢,www.niuav.com在那能找到免费高清电影网站呢 ?www.se333se.com米奇网www.qvod333.com 看电影的效果好不?梦遗姐男人梦遗,女人会吗?hao.rising.cn电脑每次开机的时候,都会弹出“http://hao.rising.cn/?b=34” 但是这个时关键词分析如何进行关键词指数分析
美国vps评测 免费申请域名和空间 个人免费空间 圣诞促销 ftp教程 200g硬盘 phpmyadmin配置 ftp免费空间 metalink 电信主机 上海服务器 申请免费空间和域名 web服务器搭建 东莞idc 工信部网站备案查询 华为k3 lamp怎么读 云服务是什么意思 免备案jsp空间 腾讯云平台 更多