14ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5【引文格式】叶辉,姬东鸿.
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].
中国中医药图书情报杂志,2016,40(5):14-17.
DOI:10.
3969/j.
issn.
2095-5707.
2016.
05.
004基于多特征条件随机场的《金匮要略》症状药物信息抽取研究叶辉1,姬东鸿21.
广州中医药大学,广东广州510016;2.
武汉大学,湖北武汉430007摘要:目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法.
方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注.
结果基于多特征CRF自动标注的结果准确率达到84.
5%,召回率达到70.
9%,F测度值达到77.
1%.
结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息.
关键词:条件随机场;《金匮要略》;症状药物信息抽取;中医古籍中图分类号:R222.
3文献标识码:A文章编号:2095-5707(2016)05-0014-04ResearchonSymptomandMedicineInformationAbstractionofTCMBookJinGuiYaoLueBasedonConditionalRandomFieldYEHui1,JIDong-hong2(1.
GuangzhouChineseMedicineUniversity,GuangzhouGuangdong510006,China;2.
WuhanUniversity,WuhanHubei430007,China)Abstract:ObjectiveTofindanefficientwaytoabstractsymptomsandmedicineinformationfromTCMbookJinGuiYaoLuethroughcombinationofnaturallanguageprocessingmethod.
MethodsTakingJinGuiYaoLueasanexampleandbyusingconditionalrandomfields(CRF),textswereprocessedaccordingtowords,andthenpartofspeechandkeyassignmentsbasedonTCMdiagnosismarkergroupweresetasauxiliaryfeatures.
Symptom-medicineBIOlabelsweresetasthetrainingfeaturestotrainthemodel.
Thenthismodelwasusedtoconductautomaticlabelingtotestedtexts.
ResultsTheaccuracyrateofautomaticlabelingbasedonmulti-featureCRFwas84.
5%,recallrate70.
9%,Fmeasurevalue77.
1%.
ConclusionThemulti-featuremodeltrainedthroughCRFcombinedwithpartofspeechandTCMdiagnosismarkergroupcansuccessfullyimproveabstractionentityinformationabilityfromancientTCMbooks.
ThemodelcanbeusedtoautomaticallyabstractsymptomandmedicineentityinformationfromancientTCMbooks.
Keywords:conditionalrandomfields(CRF);JinGuiYaoLue;symptomandmedicineinformationabstraction;ancientTCMbooks基金项目:2014广东省中医药局建设中医药强省科研课题(20141073);广东财政专项(2013170)第一作者:叶辉,讲师,研究方向为医学信息学.
E-mail:yehui@gzucm.
edu.
cn中国医学存在大量的医药病案和古籍,如《伤寒论》《金匮要略》等中医药经典.
后人通过阅读理解这些经典,能够学习名医的经典药方和治疗思路,甚至可以挖掘在古籍中的药物信息,通过现代技术的药物提纯提炼,找出治疗某种疾病的特效药2016年10月第40卷第5期中国中医药图书情报杂志15物.
但由于中医药术语一直缺乏标准,古籍中的古文又偏涩难懂,科研人员想要获取古籍中的症状和药物信息比较费时,因此研究利用计算机自然语言处理中的算法高效地自动识别古籍里的中医药治疗信息具有实际的应用价值.
目前,医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法[1],而基于机器学习的方法是主流.
例如基于隐马尔可夫模型、决策树、支持向量机、最大熵、随机条件场等方法等,这些方法把词性、词形等特征融入到机器学习模型中,利用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称.
2001年,条件随机场(conditionalrandomfields,CRF)由美国Lafferty等人提出[2],结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,该模型的特性表明它非常适用于医学领域的命名实体识别研究.
有鉴于此,本文采用CRF算法对中医古籍《金匮要略》的医学症状和药物实体识别进行研究.
1研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果.
CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题.
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别.
1.
1数据准备与分词CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具.
首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料.
利用CRF训练测试的步骤概括如图1.
图1基于多特征的条件随机场的中医症状-药物抽取步骤《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种.
由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的"之乎者也"不影响上下文医学表达的词都去掉.
分词处理使用中国科学院计算技术研究所开发的ICTCLAS2015分词工具,此版本比过往版本对中文分词处理更加完善.
但由于分词系统没有经过大量古文的自然语言方面的优化,所以分出来的词汇偏向以单字的形式出现比较多.
最后本文采用书中前1~22篇的文本清洗后的分词结果共15525词条作为实验数据集.
1.
2多特征选择术语识别中可以利用的特征有很多,根据不同的文本和识别任务可以引入不同的特征,如字符、拼音、词性、词边界、各类命名实体列表、引导信息和频次统计及语法依赖关系和句子倾向性等,不同的特征对术语识别有不同的影响[3].
同时,特征数的增加对抽取效果的改善有积极作用.
根据《金匮要略》的文本特征,本实验选用以下3个特征.
特征1:词性.
词性是中文文本处理中常用的一项特征,词性特征指当前字符的词性,本研究釆用ICTCLAS2015的二级标注对语料库的词条进行自动词性标注,如:"极寒伤经"被系统标注为《金匮要略》未加工语料数据清洗词性与标注语料特征生成模型训练生成命名实体识别结果评测分词与校正测试语料训练语料16ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5"极/d寒/a伤/v经/n",其中d、a、v、n分别代表该词词性为副词、形容词、动词、名词.
特征2:采用键值对模型的中医诊断标记集进行诊断标注.
王国龙等[4]发现,使用基于键值对模型的中医诊断标记集标注的中医古文在基于词汇联系的隐马尔可夫模型测试中得到比较好的结果,因此本文参考键值对模型的中医诊断标记集作为辅助特征引入到实验中.
其中剔去时机、属性、附加描述这几个标记,简化后的键值对模型的中医诊断标记如表1.
表1键值对模型的中医诊断标记集的标注情况标记符号标记名称标记解释K键中医名词V值K的动词或描述ZN中医名词中医专业诊断名词U其他非症状信息特征3:症状-药物类别标签.
该特征作为术语识别过程中的状态值特征.
中医症状一般包括主症、舌象及脉象、部位、部位表征描述等信息,药物包括方剂和治法.
本文通过总结中医对症状和药物的处理方式,形成表2的标记集.
在识别类别的基础上采用"BIO"法标记[5],其中B(beginning)表示术语的首字符,I(intermediate)表示术语的非首字符和结束字符,O(outside)表示非术语字符.
由于中医诊断中对于脉象比较关注,因此在症状-脉象中特别标签了症状-脉类和症状-脉象,以提取其中的脉诊知识.
另外对症状也进行了标签处理.
表2CRF基于症状-药物的类别标签标记含义1级表示符号2级表示符号举例症状-脉类ZHML-BZHML-I寸口脉症状-脉象ZHMX-BZHMX-I浮症状-其他ZH-BZH-I小便难症(病)名ZM-BZM-I太阳病治法ZF-BZF-I发汗方剂FJ-BFJ-I黄芪防风汤药物YW-BYW-I细辛其他OO者1.
3语料训练与测试应用CRF++要求事先指定一种功能模板.
本文根据《金匮要略》文本特点设定一个特征模板,该模板用于描述训练文本和测试文本中的特征,进而提取训练集中的特征参数来实现测试文本标签的计算.
模板文件中的每一行表示一个子模版,表达方式为:%X[row,col],一个子模板表示输入数据的一个Token.
本文设计将相邻位置的特征进行联合,有助于识别错分词或长距离词.
本实验1和2选择模板窗口的大小为前后两行[-2,+2].
实验2设计例子见表3.
表3CRF实验2设计例子词词性中医诊断标记症状-药物标签太阳nZNZM-B病nZNZM-I,wUO无vZNZH-B汗nZNZH-I而cUO小便vKZH-B反vVZH-I利用CRF++train训练工具,按照表3的训练集格式进行训练得出模型文件model,然后再利用CRF++test工具将该模型应用到测试集中去,最后得出带有症状-药物自动标签的测试集.
1.
4实验设计本文设计了2组实验,通过对照组与实验组的对比,测试采用不同特征的基于CRF的《金匮要略》症状-药物识别的性能及不同特征对性能的影响情况.
实验1是单一特征对照实验,仅选用词本身、症状-药物标记(参见表2)进行实验作为基准.
实验2选用词、词性、简化的中医诊断标记集(参见表1),症状-方剂-药物标记(参见表2)的多特征进行实验,然后对以上2组实验的结果用conlleval工具进行测评,分析多特征对实验识别效能的影响.
1.
5评价标准基于CRF的中医专业术语识别性能的评估采用3个指标:准确率(precision,P)、召回率(recall,R)和F测度值(F-Measure).
P指抽取的信息中正确抽取的比例;R指正确抽取的信息占应抽取信息的比例;F测度值即为正确率和召回率的调和平均值.
其中F测度值能比较合理地反映该信息抽取的有效程度.
2结果与分析实验组1为实验的基准,采用单一特征的CRF方法,得到抽取词组准确率P为72.
0%,召回率R为55.
3%,F测度值为62.
5%;而实验组2引入多特征,再采用CRF处理后,得到抽取词组准确率P为2016年10月第40卷第5期中国中医药图书情报杂志1784.
5%,召回率R为70.
9%,F测度值为77.
1%.
见表4.
单一特征进行分词和症状药物BIO标签训练的F测度值比较低,而运用了分词、词性、中医诊断简化标记和症状药物BIO多特征标签后,F测度值结果升高到77.
1%,说明引入该组合特征模型的识别效能较优.
可见对于中医古籍的实体信息抽取,采用诊断标记和语言学规则(如词性、分词等)相结合的多特征模型,可令CRF抽取信息效果提高.
表4CRF2个实验组结果分析实验组引入特征P/%R/%F/%实验1分词、症状-药物BIO标签72.
055.
362.
5实验2分词、词性、中医诊断简化标记、症状-药物BIO标签84.
570.
977.
13小结本文主要通过CRF工具对《金匮要略》进行症状-药物信息提取,首先经过分词处理语料,然后加入词性、中医诊断标记等多个标注特征对中医症状-药物BIO标签进行训练和测试,得到F测度值77.
1%,比只运用单一特征的CRF抽取的结果效率更高,可见利用本文提出的多特征模型的CRF提取方法对中医古籍的信息抽取有良好的效果.
通过对《金匮要略》等中医古籍的信息抽取研究,为将来建立中医药搜索引擎及新药物发掘等方面提供了一种可行的方法.
参考文献[1]马瑞民,马民艳.
基于CRFs的多策略生物医学命名实体识别[J].
齐齐哈尔大学学报,2011,27(1):39-42.
[2]LAFFERTYJD,MCCALLUMA,PEREIRAFCN.
ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//The18thInternationalConferenceonMachineLearning.
SanFrancisco:MorganKaufmannPublishersInc.
,2001:282-289.
[3]孟洪宇.
基于条件随机场的《伤寒论》中医术语自动识别研究[D].
北京:北京中医药大学,2014:33-34[4]王国龙,杜建强,郝竹林,等.
中医诊断古文的词性标注与特征重组[J].
计算机工程与设计,2015,36(3):836-841.
[5]魏尊强,舒红平,王亚强.
基于序列标注的中医症状名识别技术研究[J].
山东工业技术,2015(8):237-238.
(收稿日期:2016-06-08)(修回日期:2016-08-08;编辑:魏民)
HostYun 商家以前是玩具主机商,这两年好像发展还挺迅速的,有点在要做点事情的味道。在前面也有多次介绍到HostYun商家新增的多款机房方案,价格相对还是比较便宜的。到目前为止,我们可以看到商家提供的VPS主机包括KVM和XEN架构,数据中心可选日本、韩国、香港和美国的多个地区机房,电信双程CN2 GIA线路,香港和日本机房,均为国内直连线路。近期,HostYun上线低价版美国CN2 GIA ...
ucloud:全球大促活动降价了!这次云服务器全网最低价,也算是让利用户了,UCloud商家调低了之前的促销活动价格,并且新增了1核1G内存配置快杰型云服务器,价格是47元/年(也可选2元首月),这是全网同配置最便宜的云服务器了!UCloud全球大促活动促销机型有快杰型云服务器和通用型云服务器,促销机房国内海外都有,覆盖全球20个城市,具体有北京、上海、广州、香港、 台北、日本东京、越南胡志明市、...
gigsgigsCloud日本东京软银VPS的大带宽配置有100Mbps、150Mbps和200Mbps三种,三网都走软银直连,售价最低9.8美元/月、年付98美元。gigsgigscloud带宽较大延迟低,联通用户的好选择!Gigsgigscloud 日本软银(BBTEC, SoftBank)线路,在速度/延迟/价格方面,是目前联通用户海外VPS的最佳选择,与美国VPS想比,日本软银VPS延迟更...
分词工具为你推荐
京沪高铁上市首秀哪些企业建设京沪高铁?云计算什么是云计算?百度商城百度知道一般一天能挣多少钱?广东GDP破10万亿中国GDP10万亿,广东3万亿多。占了中国三分之一的经纪。如果,我是说如果。广东独立了。中国会有什地陷裂口地陷前期会有什么征兆吗?地陷裂口山崩地裂的意思同ip站点同ip站点很多有没有影响?www.522av.com现在怎样在手机上看AVhaokandianyingwang谁有好看电影网站啊、要无毒播放速度快的、在线等郭泊雄郭佰雄最后一次出现是什么时候?
中文国际域名 godaddy优惠码 美国便宜货网站 外国空间 日志分析软件 2017年万圣节 193邮箱 服务器维护方案 asp免费空间申请 91vps drupal安装 无限流量 厦门电信 网页提速 国外代理服务器 阿里云邮箱怎么注册 标准机柜 comodo tko 监控主机 更多