特征分词工具

分词工具  时间:2021-03-24  阅读:()
14ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5【引文格式】叶辉,姬东鸿.
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].
中国中医药图书情报杂志,2016,40(5):14-17.
DOI:10.
3969/j.
issn.
2095-5707.
2016.
05.
004基于多特征条件随机场的《金匮要略》症状药物信息抽取研究叶辉1,姬东鸿21.
广州中医药大学,广东广州510016;2.
武汉大学,湖北武汉430007摘要:目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法.
方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注.
结果基于多特征CRF自动标注的结果准确率达到84.
5%,召回率达到70.
9%,F测度值达到77.
1%.
结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息.
关键词:条件随机场;《金匮要略》;症状药物信息抽取;中医古籍中图分类号:R222.
3文献标识码:A文章编号:2095-5707(2016)05-0014-04ResearchonSymptomandMedicineInformationAbstractionofTCMBookJinGuiYaoLueBasedonConditionalRandomFieldYEHui1,JIDong-hong2(1.
GuangzhouChineseMedicineUniversity,GuangzhouGuangdong510006,China;2.
WuhanUniversity,WuhanHubei430007,China)Abstract:ObjectiveTofindanefficientwaytoabstractsymptomsandmedicineinformationfromTCMbookJinGuiYaoLuethroughcombinationofnaturallanguageprocessingmethod.
MethodsTakingJinGuiYaoLueasanexampleandbyusingconditionalrandomfields(CRF),textswereprocessedaccordingtowords,andthenpartofspeechandkeyassignmentsbasedonTCMdiagnosismarkergroupweresetasauxiliaryfeatures.
Symptom-medicineBIOlabelsweresetasthetrainingfeaturestotrainthemodel.
Thenthismodelwasusedtoconductautomaticlabelingtotestedtexts.
ResultsTheaccuracyrateofautomaticlabelingbasedonmulti-featureCRFwas84.
5%,recallrate70.
9%,Fmeasurevalue77.
1%.
ConclusionThemulti-featuremodeltrainedthroughCRFcombinedwithpartofspeechandTCMdiagnosismarkergroupcansuccessfullyimproveabstractionentityinformationabilityfromancientTCMbooks.
ThemodelcanbeusedtoautomaticallyabstractsymptomandmedicineentityinformationfromancientTCMbooks.
Keywords:conditionalrandomfields(CRF);JinGuiYaoLue;symptomandmedicineinformationabstraction;ancientTCMbooks基金项目:2014广东省中医药局建设中医药强省科研课题(20141073);广东财政专项(2013170)第一作者:叶辉,讲师,研究方向为医学信息学.
E-mail:yehui@gzucm.
edu.
cn中国医学存在大量的医药病案和古籍,如《伤寒论》《金匮要略》等中医药经典.
后人通过阅读理解这些经典,能够学习名医的经典药方和治疗思路,甚至可以挖掘在古籍中的药物信息,通过现代技术的药物提纯提炼,找出治疗某种疾病的特效药2016年10月第40卷第5期中国中医药图书情报杂志15物.
但由于中医药术语一直缺乏标准,古籍中的古文又偏涩难懂,科研人员想要获取古籍中的症状和药物信息比较费时,因此研究利用计算机自然语言处理中的算法高效地自动识别古籍里的中医药治疗信息具有实际的应用价值.
目前,医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法[1],而基于机器学习的方法是主流.
例如基于隐马尔可夫模型、决策树、支持向量机、最大熵、随机条件场等方法等,这些方法把词性、词形等特征融入到机器学习模型中,利用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称.
2001年,条件随机场(conditionalrandomfields,CRF)由美国Lafferty等人提出[2],结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,该模型的特性表明它非常适用于医学领域的命名实体识别研究.
有鉴于此,本文采用CRF算法对中医古籍《金匮要略》的医学症状和药物实体识别进行研究.
1研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果.
CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题.
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别.
1.
1数据准备与分词CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具.
首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料.
利用CRF训练测试的步骤概括如图1.
图1基于多特征的条件随机场的中医症状-药物抽取步骤《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种.
由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的"之乎者也"不影响上下文医学表达的词都去掉.
分词处理使用中国科学院计算技术研究所开发的ICTCLAS2015分词工具,此版本比过往版本对中文分词处理更加完善.
但由于分词系统没有经过大量古文的自然语言方面的优化,所以分出来的词汇偏向以单字的形式出现比较多.
最后本文采用书中前1~22篇的文本清洗后的分词结果共15525词条作为实验数据集.
1.
2多特征选择术语识别中可以利用的特征有很多,根据不同的文本和识别任务可以引入不同的特征,如字符、拼音、词性、词边界、各类命名实体列表、引导信息和频次统计及语法依赖关系和句子倾向性等,不同的特征对术语识别有不同的影响[3].
同时,特征数的增加对抽取效果的改善有积极作用.
根据《金匮要略》的文本特征,本实验选用以下3个特征.
特征1:词性.
词性是中文文本处理中常用的一项特征,词性特征指当前字符的词性,本研究釆用ICTCLAS2015的二级标注对语料库的词条进行自动词性标注,如:"极寒伤经"被系统标注为《金匮要略》未加工语料数据清洗词性与标注语料特征生成模型训练生成命名实体识别结果评测分词与校正测试语料训练语料16ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5"极/d寒/a伤/v经/n",其中d、a、v、n分别代表该词词性为副词、形容词、动词、名词.
特征2:采用键值对模型的中医诊断标记集进行诊断标注.
王国龙等[4]发现,使用基于键值对模型的中医诊断标记集标注的中医古文在基于词汇联系的隐马尔可夫模型测试中得到比较好的结果,因此本文参考键值对模型的中医诊断标记集作为辅助特征引入到实验中.
其中剔去时机、属性、附加描述这几个标记,简化后的键值对模型的中医诊断标记如表1.
表1键值对模型的中医诊断标记集的标注情况标记符号标记名称标记解释K键中医名词V值K的动词或描述ZN中医名词中医专业诊断名词U其他非症状信息特征3:症状-药物类别标签.
该特征作为术语识别过程中的状态值特征.
中医症状一般包括主症、舌象及脉象、部位、部位表征描述等信息,药物包括方剂和治法.
本文通过总结中医对症状和药物的处理方式,形成表2的标记集.
在识别类别的基础上采用"BIO"法标记[5],其中B(beginning)表示术语的首字符,I(intermediate)表示术语的非首字符和结束字符,O(outside)表示非术语字符.
由于中医诊断中对于脉象比较关注,因此在症状-脉象中特别标签了症状-脉类和症状-脉象,以提取其中的脉诊知识.
另外对症状也进行了标签处理.
表2CRF基于症状-药物的类别标签标记含义1级表示符号2级表示符号举例症状-脉类ZHML-BZHML-I寸口脉症状-脉象ZHMX-BZHMX-I浮症状-其他ZH-BZH-I小便难症(病)名ZM-BZM-I太阳病治法ZF-BZF-I发汗方剂FJ-BFJ-I黄芪防风汤药物YW-BYW-I细辛其他OO者1.
3语料训练与测试应用CRF++要求事先指定一种功能模板.
本文根据《金匮要略》文本特点设定一个特征模板,该模板用于描述训练文本和测试文本中的特征,进而提取训练集中的特征参数来实现测试文本标签的计算.
模板文件中的每一行表示一个子模版,表达方式为:%X[row,col],一个子模板表示输入数据的一个Token.
本文设计将相邻位置的特征进行联合,有助于识别错分词或长距离词.
本实验1和2选择模板窗口的大小为前后两行[-2,+2].
实验2设计例子见表3.
表3CRF实验2设计例子词词性中医诊断标记症状-药物标签太阳nZNZM-B病nZNZM-I,wUO无vZNZH-B汗nZNZH-I而cUO小便vKZH-B反vVZH-I利用CRF++train训练工具,按照表3的训练集格式进行训练得出模型文件model,然后再利用CRF++test工具将该模型应用到测试集中去,最后得出带有症状-药物自动标签的测试集.
1.
4实验设计本文设计了2组实验,通过对照组与实验组的对比,测试采用不同特征的基于CRF的《金匮要略》症状-药物识别的性能及不同特征对性能的影响情况.
实验1是单一特征对照实验,仅选用词本身、症状-药物标记(参见表2)进行实验作为基准.
实验2选用词、词性、简化的中医诊断标记集(参见表1),症状-方剂-药物标记(参见表2)的多特征进行实验,然后对以上2组实验的结果用conlleval工具进行测评,分析多特征对实验识别效能的影响.
1.
5评价标准基于CRF的中医专业术语识别性能的评估采用3个指标:准确率(precision,P)、召回率(recall,R)和F测度值(F-Measure).
P指抽取的信息中正确抽取的比例;R指正确抽取的信息占应抽取信息的比例;F测度值即为正确率和召回率的调和平均值.
其中F测度值能比较合理地反映该信息抽取的有效程度.
2结果与分析实验组1为实验的基准,采用单一特征的CRF方法,得到抽取词组准确率P为72.
0%,召回率R为55.
3%,F测度值为62.
5%;而实验组2引入多特征,再采用CRF处理后,得到抽取词组准确率P为2016年10月第40卷第5期中国中医药图书情报杂志1784.
5%,召回率R为70.
9%,F测度值为77.
1%.
见表4.
单一特征进行分词和症状药物BIO标签训练的F测度值比较低,而运用了分词、词性、中医诊断简化标记和症状药物BIO多特征标签后,F测度值结果升高到77.
1%,说明引入该组合特征模型的识别效能较优.
可见对于中医古籍的实体信息抽取,采用诊断标记和语言学规则(如词性、分词等)相结合的多特征模型,可令CRF抽取信息效果提高.
表4CRF2个实验组结果分析实验组引入特征P/%R/%F/%实验1分词、症状-药物BIO标签72.
055.
362.
5实验2分词、词性、中医诊断简化标记、症状-药物BIO标签84.
570.
977.
13小结本文主要通过CRF工具对《金匮要略》进行症状-药物信息提取,首先经过分词处理语料,然后加入词性、中医诊断标记等多个标注特征对中医症状-药物BIO标签进行训练和测试,得到F测度值77.
1%,比只运用单一特征的CRF抽取的结果效率更高,可见利用本文提出的多特征模型的CRF提取方法对中医古籍的信息抽取有良好的效果.
通过对《金匮要略》等中医古籍的信息抽取研究,为将来建立中医药搜索引擎及新药物发掘等方面提供了一种可行的方法.
参考文献[1]马瑞民,马民艳.
基于CRFs的多策略生物医学命名实体识别[J].
齐齐哈尔大学学报,2011,27(1):39-42.
[2]LAFFERTYJD,MCCALLUMA,PEREIRAFCN.
ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//The18thInternationalConferenceonMachineLearning.
SanFrancisco:MorganKaufmannPublishersInc.
,2001:282-289.
[3]孟洪宇.
基于条件随机场的《伤寒论》中医术语自动识别研究[D].
北京:北京中医药大学,2014:33-34[4]王国龙,杜建强,郝竹林,等.
中医诊断古文的词性标注与特征重组[J].
计算机工程与设计,2015,36(3):836-841.
[5]魏尊强,舒红平,王亚强.
基于序列标注的中医症状名识别技术研究[J].
山东工业技术,2015(8):237-238.
(收稿日期:2016-06-08)(修回日期:2016-08-08;编辑:魏民)

搬瓦工:香港PCCW机房即将关闭;可免费升级至香港CN2 GIA;2核2G/1Gbps大带宽高端线路,89美元/年

搬瓦工怎么样?这几天收到搬瓦工发来的邮件,告知香港pccw机房(HKHK_1)即将关闭,这也不算是什么出乎意料的事情,反而他不关闭我倒觉得奇怪。因为目前搬瓦工香港cn2 GIA 机房和香港pccw机房价格、配置都一样,可以互相迁移,但是不管是速度还是延迟还是丢包率,搬瓦工香港PCCW机房都比不上香港cn2 gia 机房,所以不知道香港 PCCW 机房存在还有什么意义?关闭也是理所当然的事情。点击进...

Virmach款低价VPS可选可以选择多个机房,新增多款低价便宜VPS主机7.2美元起

Virmach商家我们是不是比较熟悉?速度一般,但是人家价格低,而且机房是比较多的。早年的时候有帮助一个有做外贸也许需要多个机房且便宜服务商的时候接触到这个商家,有曾经帮助够买过上百台这样的低价机器。这里需要提醒的,便宜但是速度一般,尤其是中文业务速度确实不快,如果是外贸业务,那肯定是没有问题。这几天,我们有看到Virmach推出了夏季优惠促销,VPS首年8折,最低年付仅7.2美元,多机房可选,如...

BuyVM($5/月)不限流量流媒体优化VPS主机 1GB内存

BuyVM商家属于比较老牌的服务商,早年有提供低价年付便宜VPS主机还记得曾经半夜的时候抢购的。但是由于这个商家风控非常严格,即便是有些是正常的操作也会导致被封账户,所以后来陆续无人去理睬,估计被我们风控的抢购低价VPS主机已经手足无措。这两年商家重新调整,而且风控也比较规范,比如才入手他们新上线的流媒体优化VPS主机也没有不适的提示。目前,BuyVM商家有提供新泽西、迈阿密等四个机房的VPS主机...

分词工具为你推荐
云爆发云联惠是什么来的网红名字被抢注球星名字被抢注合法合理吗?甲骨文不满赔偿公司倒闭员工不满一年怎么赔偿百花百游百花净斑方效果怎么样?125xx.com高手指教下,www.fshxbxg.com这个域名值多少钱?www.baitu.com我看电影网www.5ken.com为什么百度就不上关键字呢www.hyyan.comdota屠夫怎么玩?从初期到后期的装备是什么?woshiheida这个左下角水印woshiheida的gif出处在哪呢?急!!!!!ename.com做自己的网站、在哪里买域名啊?干支论坛天干地支常识?
万网域名注册 Oray域名注册服务商 秒解服务器 站群服务器 空间打开慢 美国php主机 搜狗抢票助手 服务器怎么绑定域名 一点优惠网 湖南服务器托管 ftp教程 美国堪萨斯 metalink 美国独立日 512mb 移动服务器托管 smtp服务器地址 湖南idc 网页加速 广东主机托管 更多