特征分词工具

分词工具  时间:2021-03-24  阅读:()
14ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5【引文格式】叶辉,姬东鸿.
基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J].
中国中医药图书情报杂志,2016,40(5):14-17.
DOI:10.
3969/j.
issn.
2095-5707.
2016.
05.
004基于多特征条件随机场的《金匮要略》症状药物信息抽取研究叶辉1,姬东鸿21.
广州中医药大学,广东广州510016;2.
武汉大学,湖北武汉430007摘要:目的结合自然语言处理方法,研究可以有效抽取中医古籍中所含症状和药物文本实体信息的方法.
方法以《金匮要略》为例,采用条件随机场(CRF)算法,先将文本进行分词处理,然后以词性、基于键值对的中医诊断标记集作为辅助特征,通过症状-药物BIO标签为训练特征来训练出模型,然后利用该模型对测试集文本进行自动标签标注.
结果基于多特征CRF自动标注的结果准确率达到84.
5%,召回率达到70.
9%,F测度值达到77.
1%.
结论运用CRF方法加入词性、中医诊断标记集特征集进行训练得出的多特征模型,能有效提高CRF算法对中医古籍的实体抽取能力,生成的模型可用来自动化抽取中医古籍文本的症状药物实体信息.
关键词:条件随机场;《金匮要略》;症状药物信息抽取;中医古籍中图分类号:R222.
3文献标识码:A文章编号:2095-5707(2016)05-0014-04ResearchonSymptomandMedicineInformationAbstractionofTCMBookJinGuiYaoLueBasedonConditionalRandomFieldYEHui1,JIDong-hong2(1.
GuangzhouChineseMedicineUniversity,GuangzhouGuangdong510006,China;2.
WuhanUniversity,WuhanHubei430007,China)Abstract:ObjectiveTofindanefficientwaytoabstractsymptomsandmedicineinformationfromTCMbookJinGuiYaoLuethroughcombinationofnaturallanguageprocessingmethod.
MethodsTakingJinGuiYaoLueasanexampleandbyusingconditionalrandomfields(CRF),textswereprocessedaccordingtowords,andthenpartofspeechandkeyassignmentsbasedonTCMdiagnosismarkergroupweresetasauxiliaryfeatures.
Symptom-medicineBIOlabelsweresetasthetrainingfeaturestotrainthemodel.
Thenthismodelwasusedtoconductautomaticlabelingtotestedtexts.
ResultsTheaccuracyrateofautomaticlabelingbasedonmulti-featureCRFwas84.
5%,recallrate70.
9%,Fmeasurevalue77.
1%.
ConclusionThemulti-featuremodeltrainedthroughCRFcombinedwithpartofspeechandTCMdiagnosismarkergroupcansuccessfullyimproveabstractionentityinformationabilityfromancientTCMbooks.
ThemodelcanbeusedtoautomaticallyabstractsymptomandmedicineentityinformationfromancientTCMbooks.
Keywords:conditionalrandomfields(CRF);JinGuiYaoLue;symptomandmedicineinformationabstraction;ancientTCMbooks基金项目:2014广东省中医药局建设中医药强省科研课题(20141073);广东财政专项(2013170)第一作者:叶辉,讲师,研究方向为医学信息学.
E-mail:yehui@gzucm.
edu.
cn中国医学存在大量的医药病案和古籍,如《伤寒论》《金匮要略》等中医药经典.
后人通过阅读理解这些经典,能够学习名医的经典药方和治疗思路,甚至可以挖掘在古籍中的药物信息,通过现代技术的药物提纯提炼,找出治疗某种疾病的特效药2016年10月第40卷第5期中国中医药图书情报杂志15物.
但由于中医药术语一直缺乏标准,古籍中的古文又偏涩难懂,科研人员想要获取古籍中的症状和药物信息比较费时,因此研究利用计算机自然语言处理中的算法高效地自动识别古籍里的中医药治疗信息具有实际的应用价值.
目前,医学实体识别的方法主要有基于字典、基于规则和基于机器学习的方法[1],而基于机器学习的方法是主流.
例如基于隐马尔可夫模型、决策树、支持向量机、最大熵、随机条件场等方法等,这些方法把词性、词形等特征融入到机器学习模型中,利用训练得到的学习模型从生物医学文本集合中识别出指定类型的名称.
2001年,条件随机场(conditionalrandomfields,CRF)由美国Lafferty等人提出[2],结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,该模型的特性表明它非常适用于医学领域的命名实体识别研究.
有鉴于此,本文采用CRF算法对中医古籍《金匮要略》的医学症状和药物实体识别进行研究.
1研究方法在自然语言处理领域中,CRF模型可以使用字、词、词性等上下文特征,也可以引用词典等外部特征,即可以将任意相关知识源融入文本特征中,解决了序列标注和文本切分的问题,且在英文序列标记名词短语识别等方面取得了较好效果.
CRF最常用的结构为线性链,可以有效克服隐马尔可夫模型假设条件的限制及最大熵模型标记偏执的问题.
一般采用CRF做医学术语抽取包括特征选取、参数估计和结果标注3个步骤,首先选择相关特征,然后利用所选特征对数据进行训练,得出特征函数权重参数,最后通过输入测试数据,使用训练好的模型对文本进行序列标记,完成医学命名实体识别.
1.
1数据准备与分词CRF的训练和测试选用了CRF++工具包来实现,CRF++工具包是一个可用于分词、连续数据标注的简单、可定制的开源的条件随机场工具.
首先要对《金匮要略》文本进行语料预处理和标注,然,后将其标注的语料分为2个部分,70%的部分作为训练语料,30%的部分作为测试语料.
利用CRF训练测试的步骤概括如图1.
图1基于多特征的条件随机场的中医症状-药物抽取步骤《金匮要略》全书共25篇,方剂262首,列举内外科病症60余种.
由于年代久远,古文意思较为难懂,又兼具通假字较多,所以首先要进行必要的数据清洗,如古文中的"之乎者也"不影响上下文医学表达的词都去掉.
分词处理使用中国科学院计算技术研究所开发的ICTCLAS2015分词工具,此版本比过往版本对中文分词处理更加完善.
但由于分词系统没有经过大量古文的自然语言方面的优化,所以分出来的词汇偏向以单字的形式出现比较多.
最后本文采用书中前1~22篇的文本清洗后的分词结果共15525词条作为实验数据集.
1.
2多特征选择术语识别中可以利用的特征有很多,根据不同的文本和识别任务可以引入不同的特征,如字符、拼音、词性、词边界、各类命名实体列表、引导信息和频次统计及语法依赖关系和句子倾向性等,不同的特征对术语识别有不同的影响[3].
同时,特征数的增加对抽取效果的改善有积极作用.
根据《金匮要略》的文本特征,本实验选用以下3个特征.
特征1:词性.
词性是中文文本处理中常用的一项特征,词性特征指当前字符的词性,本研究釆用ICTCLAS2015的二级标注对语料库的词条进行自动词性标注,如:"极寒伤经"被系统标注为《金匮要略》未加工语料数据清洗词性与标注语料特征生成模型训练生成命名实体识别结果评测分词与校正测试语料训练语料16ChineseJournalofLibraryandInformationScienceforTraditionalChineseMedicineOct.
2016Vol.
40No.
5"极/d寒/a伤/v经/n",其中d、a、v、n分别代表该词词性为副词、形容词、动词、名词.
特征2:采用键值对模型的中医诊断标记集进行诊断标注.
王国龙等[4]发现,使用基于键值对模型的中医诊断标记集标注的中医古文在基于词汇联系的隐马尔可夫模型测试中得到比较好的结果,因此本文参考键值对模型的中医诊断标记集作为辅助特征引入到实验中.
其中剔去时机、属性、附加描述这几个标记,简化后的键值对模型的中医诊断标记如表1.
表1键值对模型的中医诊断标记集的标注情况标记符号标记名称标记解释K键中医名词V值K的动词或描述ZN中医名词中医专业诊断名词U其他非症状信息特征3:症状-药物类别标签.
该特征作为术语识别过程中的状态值特征.
中医症状一般包括主症、舌象及脉象、部位、部位表征描述等信息,药物包括方剂和治法.
本文通过总结中医对症状和药物的处理方式,形成表2的标记集.
在识别类别的基础上采用"BIO"法标记[5],其中B(beginning)表示术语的首字符,I(intermediate)表示术语的非首字符和结束字符,O(outside)表示非术语字符.
由于中医诊断中对于脉象比较关注,因此在症状-脉象中特别标签了症状-脉类和症状-脉象,以提取其中的脉诊知识.
另外对症状也进行了标签处理.
表2CRF基于症状-药物的类别标签标记含义1级表示符号2级表示符号举例症状-脉类ZHML-BZHML-I寸口脉症状-脉象ZHMX-BZHMX-I浮症状-其他ZH-BZH-I小便难症(病)名ZM-BZM-I太阳病治法ZF-BZF-I发汗方剂FJ-BFJ-I黄芪防风汤药物YW-BYW-I细辛其他OO者1.
3语料训练与测试应用CRF++要求事先指定一种功能模板.
本文根据《金匮要略》文本特点设定一个特征模板,该模板用于描述训练文本和测试文本中的特征,进而提取训练集中的特征参数来实现测试文本标签的计算.
模板文件中的每一行表示一个子模版,表达方式为:%X[row,col],一个子模板表示输入数据的一个Token.
本文设计将相邻位置的特征进行联合,有助于识别错分词或长距离词.
本实验1和2选择模板窗口的大小为前后两行[-2,+2].
实验2设计例子见表3.
表3CRF实验2设计例子词词性中医诊断标记症状-药物标签太阳nZNZM-B病nZNZM-I,wUO无vZNZH-B汗nZNZH-I而cUO小便vKZH-B反vVZH-I利用CRF++train训练工具,按照表3的训练集格式进行训练得出模型文件model,然后再利用CRF++test工具将该模型应用到测试集中去,最后得出带有症状-药物自动标签的测试集.
1.
4实验设计本文设计了2组实验,通过对照组与实验组的对比,测试采用不同特征的基于CRF的《金匮要略》症状-药物识别的性能及不同特征对性能的影响情况.
实验1是单一特征对照实验,仅选用词本身、症状-药物标记(参见表2)进行实验作为基准.
实验2选用词、词性、简化的中医诊断标记集(参见表1),症状-方剂-药物标记(参见表2)的多特征进行实验,然后对以上2组实验的结果用conlleval工具进行测评,分析多特征对实验识别效能的影响.
1.
5评价标准基于CRF的中医专业术语识别性能的评估采用3个指标:准确率(precision,P)、召回率(recall,R)和F测度值(F-Measure).
P指抽取的信息中正确抽取的比例;R指正确抽取的信息占应抽取信息的比例;F测度值即为正确率和召回率的调和平均值.
其中F测度值能比较合理地反映该信息抽取的有效程度.
2结果与分析实验组1为实验的基准,采用单一特征的CRF方法,得到抽取词组准确率P为72.
0%,召回率R为55.
3%,F测度值为62.
5%;而实验组2引入多特征,再采用CRF处理后,得到抽取词组准确率P为2016年10月第40卷第5期中国中医药图书情报杂志1784.
5%,召回率R为70.
9%,F测度值为77.
1%.
见表4.
单一特征进行分词和症状药物BIO标签训练的F测度值比较低,而运用了分词、词性、中医诊断简化标记和症状药物BIO多特征标签后,F测度值结果升高到77.
1%,说明引入该组合特征模型的识别效能较优.
可见对于中医古籍的实体信息抽取,采用诊断标记和语言学规则(如词性、分词等)相结合的多特征模型,可令CRF抽取信息效果提高.
表4CRF2个实验组结果分析实验组引入特征P/%R/%F/%实验1分词、症状-药物BIO标签72.
055.
362.
5实验2分词、词性、中医诊断简化标记、症状-药物BIO标签84.
570.
977.
13小结本文主要通过CRF工具对《金匮要略》进行症状-药物信息提取,首先经过分词处理语料,然后加入词性、中医诊断标记等多个标注特征对中医症状-药物BIO标签进行训练和测试,得到F测度值77.
1%,比只运用单一特征的CRF抽取的结果效率更高,可见利用本文提出的多特征模型的CRF提取方法对中医古籍的信息抽取有良好的效果.
通过对《金匮要略》等中医古籍的信息抽取研究,为将来建立中医药搜索引擎及新药物发掘等方面提供了一种可行的方法.
参考文献[1]马瑞民,马民艳.
基于CRFs的多策略生物医学命名实体识别[J].
齐齐哈尔大学学报,2011,27(1):39-42.
[2]LAFFERTYJD,MCCALLUMA,PEREIRAFCN.
ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData[C]//The18thInternationalConferenceonMachineLearning.
SanFrancisco:MorganKaufmannPublishersInc.
,2001:282-289.
[3]孟洪宇.
基于条件随机场的《伤寒论》中医术语自动识别研究[D].
北京:北京中医药大学,2014:33-34[4]王国龙,杜建强,郝竹林,等.
中医诊断古文的词性标注与特征重组[J].
计算机工程与设计,2015,36(3):836-841.
[5]魏尊强,舒红平,王亚强.
基于序列标注的中医症状名识别技术研究[J].
山东工业技术,2015(8):237-238.
(收稿日期:2016-06-08)(修回日期:2016-08-08;编辑:魏民)

A400互联(49元/月)洛杉矶CN2 GIA+BGP、1Gbps带宽,全场独服永久5折优惠

a400互联是一家成立于2020年商家,主营美国机房的产品,包括BGP线路、CN2 GIA线路的云服务器、独立服务器、高防服务器,接入线路优质,延迟低,稳定性高,额外也还有香港云服务器业务。当前,全场服务器5折,香港VPS7折,洛杉矶VPS5折,限时促销!A400互联官网:https://a400.net/优惠活动全场独服永久5折优惠(续费同价):0722香港VPS七折优惠:0711洛杉矶VPS五...

RAKsmart 黑色星期五云服务器七折优惠 站群服务器首月半价

一年一度的黑色星期五和网络星期一活动陆续到来,看到各大服务商都有发布促销活动。同时RAKsmart商家我们也是比较熟悉的,这次是继双十一活动之后的促销活动。在活动产品中基本上沿袭双11的活动策略,比如有提供云服务器七折优惠,站群服务器首月半价、还有新人赠送红包等活动。如果我们有需要RAKsmart商家VPS、云服务器、独立服务器等产品的可以看看他们家的活动。这次活动截止到11月30日。第一、限时限...

飞讯云E5-2678V3 64GB,湖北十堰100G高防物理机330元/月

飞讯云官网“飞讯云”是湖北飞讯网络有限公司旗下的云计算服务品牌,专注为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。飞讯云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。 《中华...

分词工具为你推荐
站酷zcool有那位知道从哪个网站能下到广告素材老虎数码相机里的传感器CCD和CMO是什么意思?陈嘉垣大家觉得陈嘉桓漂亮还是钟嘉欣漂亮?百度关键词工具常见的关键词挖掘工具有哪些bbs2.99nets.com这个"风情东南亚"网站有78kg.cn做网址又用bbs.风情东南亚.cn那么多此一举啊!www.dm8.cc有没有最新的日本动漫网站?www.qqq147.comhttp://www.qqename.com做自己的网站、在哪里买域名啊?b.faloo.com那有能看完整小说的在线阅读手机网站(我看得都是有删节的,内容勉强连贯)云鹏清动如脱兔 静若处子 怎么解释
域名购买 猫咪永久域名收藏地址 哈尔滨域名注册 namecheap 搬瓦工官网 线路工具 qq数据库 免费ftp空间申请 域名转向 搜索引擎提交入口 双12 存储服务器 双11促销 石家庄服务器 锐速 windowssever2008 linux服务器系统 asp.net虚拟主机 西部主机 饭桶 更多