20201010计算机应用,JournalofComputerApplications2020,40(10):3088-3094ISSN10019081CODENJYIIDUhttp://www.
joca.
cn基于医疗文本数据聚类的帕金森病早期诊断预测张晓博1,2,3,杨燕1,2,3*,李天瑞1,2,3,陆凡1,2,3,彭莉兰1,2,3(1.
西南交通大学信息科学与技术学院,成都611756;2.
西南交通大学人工智能研究院,成都611756;3.
综合交通大数据应用技术国家工程实验室(西南交通大学),成都611756)(通信作者电子邮箱yyang@swjtu.
edu.
cn)摘要:针对多发于老龄人群的帕金森病(PD)的早期智能化诊断的问题,提出基于医疗检测文本信息数据的聚类技术来对PD进行分析预测.
首先,对原始数据集进行预处理以获取有效特征信息,并通过主成分分析(PCA)方法将原始特征分别降维到8个不同维度的维度空间;然后,应用5个传统的经典聚类模型和3种不同的聚类集成方法分别对8个维度空间的数据进行聚类;最后,采用4个聚类性能指标来预测数据集中的多巴胺异常PD患者、健康体和无多巴胺缺失(SWEDD)PD患者.
仿真结果显示,PCA特征维度值取30时,高斯混合模型(GMM)的聚类准确度达到89.
12%;PCA特征维度值取70时,谱聚类(SC)的聚类准确度达到61.
41%;PCA特征维度值取80时,元聚类算法(MCLA)的聚类准确度达到59.
62%.
对比实验结果表明,5种经典聚类方法中,PCA的特征维度值小于40时,高斯混合模型聚类效果最佳;3种聚类集成方法中,对于不同的特征维度,MCLA的聚类性能均表现优异,进而为PD的早期智能化辅助诊断提供了技术和理论支撑.
关键词:帕金森病;医疗文本数据;主成分分析;聚类;聚类集成中图分类号:TP391.
7文献标志码:AEarlydiagnosisandpredictionofParkinson'sdiseasebasedonclusteringmedicaltextdataZHANGXiaobo1,2,3,YANGYan1,2,3*,LITianrui1,2,3,LUFan1,2,3,PENGLilan1,2,3(1.
SchoolofInformationScienceandTechnology,SouthwestJiaotongUniversity,ChengduSichuan611756,China;2.
InstituteofArtificialIntelligence,SouthwestJiaotongUniversity,ChengduSichuan611756,China;3.
NationalEngineeringLaboratoryofIntegratedTransportationBigDataApplicationTechnology(SouthwestJiaotongUniversity),ChengduSichuan611756,China)Abstract:InviewoftheproblemoftheearlyintelligentdiagnosisforParkinson'sDisease(PD)whichoccursmorecommonintheelderly,theclusteringtechnologiesbasedonmedicaldetectiontextinformationdatawereproposedfortheanalysisandpredictionofPD.
Firstly,theoriginaldatasetwaspre-processedtoobtaineffectivefeatureinformation,andthesefeatureswererespectivelyreducedtoeightdimensionalspaceswithdifferentdimensionsbyPrincipalComponentAnalysis(PCA)method.
Then,fivetraditionalclassicalclusteringmodelsandthreedifferentclusteringensemblemethodswererespectivelyusedtoclusterthedataofeightdimensionalspaces.
Finally,fourclusteringperformanceindexeswereselectedtopredictPDsubjectwithdopaminedeficiencyaswellashealthycontrolandScansWithoutEvidenceofDopamineDeficiency(SWEDD)PDsubject.
ThesimulationresultsshowthattheclusteringaccuracyofGaussianMixtureModel(GMM)reaches89.
12%whenthevalueofPCAfeaturedimensionis30,theclusteringaccuracyofSpectralClustering(SC)is61.
41%whenthePCAfeaturedimensionvalueis70,andtheclusteringaccuracyofMeta-CLusteringAlgorithm(MCLA)achieves59.
62%whenthePCAfeaturedimensionvalueis80.
ThecomparativeexperimentsresultsshowthatGMMhasthebestclusteringeffectinthefiveclassicalclusteringmethodswhenthePCAfeaturedimensionvalueislessthan40andMCLAhastheexcellentclusteringperformanceamongthethreeclusteringensemblemethodsfordifferentfeaturedimensions,whichtherebyprovidesthetechnicalandtheoreticalsupportsfortheearlyintelligentauxiliarydiagnosisofPD.
Keywords:Parkinson'sDisease(PD);medicaltextdata;PrincipalComponentAnalysis(PCA);clustering;clusteringensemble文章编号:1001-9081(2020)10-3088-07DOI:10.
11772/j.
issn.
1001-9081.
2020030359收稿日期:20200326;修回日期:20200529;录用日期:20200601.
基金项目:国家自然科学基金资助项目(61976247);四川省重点研发计划项目(20ZDYF2837).
作者简介:张晓博(1985—),男,山西运城人,助理研究员,博士研究生,CCF会员,主要研究方向:医疗数据挖掘、机器学习;杨燕(1964—),女,安徽合肥人,教授,博士,CCF杰出会员,主要研究方向:大数据分析与挖掘、多视图学习、集成学习、半监督学习;李天瑞(1969—),男,福建莆田人,教授,博士,CCF杰出会员,主要研究方向:大数据、云计算、数据挖掘、机器学习、粒度计算、粗糙集;陆凡(1995—),女,四川凉山人,硕士研究生,主要研究方向:深度学习、聚类;彭莉兰(1993—),女,四川成都人,硕士研究生,主要研究方向:模式识别、聚类.
www.
joca.
cn第10期张晓博等:基于医疗文本数据聚类的帕金森病早期诊断预测0引言目前,帕金森病已成为除老年痴呆症以外最常见的神经退行性和致残性疾病,通常发生在老年人中,临床表现主要包括静止性震颤、运动迟缓、肌强直和姿势性步态障碍[1-5].
帕金森病不仅影响患者的生活质量,而且会给家庭和社会带来沉重的负担.
在我国,年龄65岁以上人群帕金森病的患病率约占1.
7%[6],年龄超过80岁的患病率约占2.
65%[7].
我国患病率与世界发达国家相近,目前全世界有大约1000万帕金森病人,而我国的患者超过200万人[8].
帕金森病最主要的病理改变是中脑黑质多巴胺能神经元的变性死亡,由此而引起纹状体黑质多巴胺能神经元含量显著性减少而致病.
导致这一病理改变的确切病因现阶段仍不清楚,遗传因素、环境因素、年龄老化、氧化应激等均可能参与帕金森病多巴胺能神经元的变性死亡过程[9].
目前尚无有效的预防措施阻止疾病的发生和进展.
当患者出现临床症状时黑质多巴胺能神经元死亡至少在50%以上,纹状体黑质多巴胺能神经元含量减少在80%以上.
因此,早期借助人工智能技术预测并发现帕金森病临床患者,有利于采取有效的措施阻止多巴胺能神经元的变性死亡,以阻止疾病的发生与进展.
本文基于一个国际上研究帕金森病进展指标的临床研究平台即PPMI(Parkinson'sProgressionMarkersInitiative)公开提供的临床医疗检查文本信息数据集[10],结合主成分分析(PrincipalComponentAnalysis,PCA)[11],5种传统的经典聚类K均值(K-Means)[12]、K中心点(K-Medoids)[13]、高斯混合模型(GaussianMixtureModel,GMM)[14]、亲和力传播(AffinityPropagation,AP)[15]、谱聚类(SpectralClustering,SC)[16],以及基于聚类的相似性划分算法(Cluster-basedSimilarityPartitioningAlgorithm,CSPA)、元聚类算法(Meta-CLusteringAlgorithm,MCLA)、超图分割算法(HypergraphPartitioningAlgorithm,HGPA)共3种聚类集成方法[17],来分析并预测数据集中的多巴胺异常帕金森病患者、健康体和无多巴胺缺失患者(ScansWithoutEvidenceofDopamineDeficiency,SWEDD).
该应用方法能够辅助早预防、早发现与早治疗,具有重要的临床研究意义与实际应用价值.
本文的主要贡献包括4个方面:1)通过PPMI平台提供的公开医疗文本信息数据集,采用聚类等机器学习技术预测并辅助诊断帕金森病.
2)主成分分析方法被应用到医疗文本信息数据集中来降维不同维度的维度空间,不仅解决了数据维度的复杂问题,同时也为聚类提供了多层次可比较的多维度数据集.
3)降维后的不同维度数据集被5个传统的经典聚类模型和3种不同的聚类集成方法聚类后,得出特征维度值取30时GMM聚类效果最佳的结论.
4)应用不同维度数据集的实验结果表明特征维度值小于40时,高斯混合模型GMM的聚类效果最佳;而当特征维度值大于40时,谱聚类(SC)表现突出;3种聚类集成方法中MCLA的聚类性能最好.
1相关工作帕金森病的预测和辅助诊断不论是基于单模态的医疗数据还是多模态的数据集,都被不少学者和研究人员尝试进行研究,应用于不同的数据集上的帕金森病辅助诊断也都有着重要的临床研究意义.
接下来,本文概述已有的帕金森病分类、预测工作以及在不同医疗数据集上的应用.
近年来,核磁共振成像(MagneticResonanceImaging,MRI)、功能磁共振成像(FunctionalMRI,FMRI)、经颅超声检查(TranscranialSonography,TCS)、单光子发射计算机断层成像(Single-PhotonEmissionComputedTomography,SPECT)、正电子发射断层成像(PositionEmissionTomography,PET)和定量磁化图(QuantitativeSusceptibilityMapping,QSM)等单模态医疗数据被用来对帕金森病的辅助诊断进行研究,并取得一些成果.
文献[18]开发了一种新颖的级联多列算法框架,通过对单模态神经影像学数据的分析来进行帕金森病辅助诊断.
文献[19]中提出了用于检测帕金森病中形态学生物标记的基于多层次感兴趣区域特征提取的机器学习方法,对帕金森病的形态计量生物标志物具有很好的识别能力.
文献[20]使用支持向量机技术和基于单光发射计算机断层扫描脑图像的体素特征方法制定了一种用于帕金森病辅助诊断的全自动计算解决方案.
文献[21]设计支持向量机方法结合胸带重采样技术进行非分层的多类分类,并依据帕金森病患者的氟脱氧葡萄糖正电子发射断层扫描数据,区分帕金森病和系统萎缩症.
文献[22]采用机器学习的方法分析FMRI数据,根据认知状态来区分帕金森病患者.
另外,不少针对医疗图像数据特征提取并选择的技术也被用来研究帕金森病的辅助诊断.
文献[23]定量比较了基于TCS数据的计算机辅助诊断和3种大小的感兴趣区域性能,对原始数据提取特征和降维特征的实验结果表明,覆盖整个中脑区域的感兴趣区域实现了总体最佳的帕金森病诊断性能.
文献[24]中提出了通过核磁共振和扩散张量成像数据进行帕金森病诊断的联合回归和分类框架,并设计了统一的多任务特征选择模型,以探索特征、样本和临床医学病理知识之间的多种关系.
文献[25]通过MRI数据辅助诊断帕金森病,实现了一种联合特征样本选择方法,用于选择样本和特征的最佳子集.
文献[26]研究了一种用于帕金森病辅助诊断的迭代典型相关分析特征选择方法,特点是以更全面的方式使用MRI数据,并将不同类型的特征融合到一个公共空间中进行分析和选择.
文献[27]使用定量磁化图从黑质中提取放射学特征,并采用传统机器学习算法对帕金森病患者与正常人进行分类.
此外,还有深度学习方法也被用来对帕金森病的辅助诊断进行研究.
文献[28]中提出了一种深度神经映射大幅度分布机器学习算法,该算法通过深度神经网络技术在大幅度分布中执行核映射而非隐式核函数进行帕金森病辅助诊断,可以克服核选择的困难,并进一步提高分类性能.
文献[29]通过卷积神经网络来自动识别帕金森病患者,该深度学习采用的数据是通过由一系列可以提取信息的传感器组成的智能笔,从个人实验测试期间的手写动态中提取信号并学习特征.
文献[30]研究了一种用深度学习技术辅助诊断帕金森病严重程度的方法,并在帕金森病人的远程监控语音数据集上进行训练和测试.
文献[31]开发了基于深度学习的多巴胺转运蛋白成像解释系统,用来完善帕金森病的影像学诊断.
该系统3089www.
joca.
cn第40卷计算机应用由帕金森病患者和正常人的影像数据训练而成,能够显示出高分类精度,也可对帕金森病不确定的患者进行影像学诊断,并在进一步的临床研究中提供客观的患者组分类.
文献[32]中提出了一种深层神经网络分类器,其中包含堆叠的自动编码器和Softmax分类器,并在两个有帕金森病患者语音障碍相关语音数据库上进行了模拟实验,验证了深度神经网络分类器识别帕金森病患者的有效性.
随着对帕金森病发展的不断研究和临床医学数据的日益积累,研究者们也开始尝试使用多模态的医学数据对帕金森病进行智能诊断.
文献[33]中提出了一种深度学习方法,考虑到来自语音、手写和步态的多模态数据信息,对开始或停止运动的困难进行建模,并使用这些转换来训练卷积神经网络模型,实现对帕金森病患者和健康受试者进行分类.
文献[34]实现了一种基于多模态神经影像数据的新型特征选择方法,可用于帕金森病检测和临床诊断预测.
文献[35]通过25名帕金森病患者和25位健康对照受试者的核磁共振全脑T1加权、弥散张量成像数据和神经心理学评估数据(含语言记忆测试和视觉空间记忆测试),发现了无痴呆的帕金森病患者的声明性记忆障碍可以通过弥散张量成像分析检测到的海马结构的微结构改变率来预测.
文献[36]研究了一种统计方法,用于分析多种模态的神经影像数据,以确定可将帕金森病患者与健康受试者区分开的特征,该方法基于弹性网,执行正则化和变量选择,同时引入以简约性和可再现性为中心的附加条件,通过交叉验证进行评估显示出极高的准确性,成功分离出与帕金森病相关的大脑区域.
文献[37]展示了一种基于通用规范相关分析的多视图表示学习的方法,用于学习从笔迹和步态等多模态数据中提取特征的表示形式,可以用作基于语音特征的补充,有效解决了帕金森病患者与健康对照的分类等问题.
文献[38]使用具有多种录音类型的帕金森病相关语音数据集,并采用Softmax、神经网络、对数回归和决策树4种技术对实验数据集进行分类,得出神经网络方法识别帕金森病准确率最高的结论.
文献[39]设计了一种多类型的机器学习模型框架,用于捕捉并补充帕金森病患者的语音样本类型,并使用均值投票和多数投票的评估标准进行了评估,表明了元音样本具备帕金森病特征的补充信息.
文献[40]研究了如何通过个体持续的发声和语音信号检测帕金森氏病,依据持续性发声和依赖文本的语音方式对帕金森病进行筛查的信号数据,使用随机森林技术作为机器学习算法,用于单个特征集和决策级融合,最后将基于随机森林的邻近矩阵非线性投影到2D空间中,丰富了医疗决策支持.
本文提出的基于医疗文本信息数据的帕金森病早期诊断预测研究,对单模态的医疗文本信息数据进行聚类分析.
不仅有效利用了医疗检查过程中产生的各项人体指标信息数据,也在很大程度上挖掘了数据的特征信息.
该应用方法可以根据医疗文本数据所具有的文字信息来判断被检查人是否患有帕金森病,也可以预测患病原因是否与其体内黑质多巴胺能神经元含量多少有关.
2本文方法本章主要介绍PCA、相关聚类算法和聚类集成等技术,并重点阐述了PCA降维不同维度空间后结合聚类、聚类集成等方法处理数据的具体算法过程.
2.
1主成分分析PCA针对医学文本数据特征维度数量多且复杂的情况,需对其数据维度进行降维处理.
数据降维方法主要有两种:无监督降维和有监督降维.
对于无监督的方法,数据的标签不能被标记,这意味着只能通过学习样本之间的相似特征来对数据样本进行分类或聚类;而对于有监督的方法,类标签学习被认为可以获得更稳健分类或聚类结果.
考虑到临床实际和研究目标,本文选择无监督降维处理.
无监督降维技术有很多,如PCA、独立成分分析和非负矩阵分解等.
PCA主要采用数学降维的方法,以综合变量来代替原来众多的变量,使得综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关.
这种把很多个变量转化为少数几个互相无关的综合变量的统计分析方法叫作主成分分析或主分量分析.
对文本数据信息特征的降维处理,最佳的选择是主成分分析即PCA方法,因为PCA降维能够在保留数据集中大部分特征的同时降低数据的维数[11].
2.
2聚类方法1))K-Means算法是聚类问题的基本方法之一.
这是一种基于簇元素的重心表示簇的方法.
K-Means算法将用户输入系统的数据簇分为n个数据簇和K个用户再次输入的数据簇[12].
2))K-Medoids算法只需计算一次距离矩阵,就可以在每次迭代中找到新的中心点,并使得中心和集群其他部分之间的距离之和最小化[13].
3))GMM主要用来估计样本的概率密度分布,估计模型是几个高斯模型的加权和,每个高斯模型代表一个簇.
从样本数据在高斯模型上的投影中分别得到每个类的概率,并选择概率最大的类作为决策结果[14].
GMM被定义如下:p(x)=πkP(x|k)(1)其中:参数K是模型个数;πk是高斯权重;p(x|k)是高斯模型排序到k的概率密度.
4))AP方法将数据点对点之间的相似度作为输入度量,在数据点之间交换实值消息,直到一组高质量的示例和相应的集群逐渐出现[15].
置信度被定义如下:r(i,k)=s(i,k)-maxk′≠k(a(i,k)+s(i,k′))(2)其中:以点i和点k之间的相似度r(i,k)作为聚类中心的输入,减去点i和其他所有候选聚类中心的最大相似度.
归属度a(i,k)被定义如下:a(i,k)=ìímin{}0,r(k,k)+∑i′(i,k)max(0,r(r′,k)),i≠k∑i′≠kmax(0,r(r′,k)),i=k(3)其中归属度a(i,k)设置为自吸引度r(k,k)与从其他点接收的候选聚类中心k点的正吸引度之和.
5)谱聚类(SC)是从图论中演化出来的算法,后来在聚类中得到了广泛的应用.
它的主要思想是把所有的数据看作空间中的点,这些点之间可以用边连接起来.
距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同3090www.
joca.
cn第10期张晓博等:基于医疗文本数据聚类的帕金森病早期诊断预测的子图间边权重和尽可能地低,而子图内的边权重和尽可能地高,从而达到聚类的目的.
由于本身使用了降维,因此相较于传统聚类算法,该方法降低了处理高维数据聚类的复杂度[16].
2.
3聚类集成方法1))CSPA将每个数据点表示成一个顶点,两个点被分在同一个图中的次数占聚类集体中成员个数的比例为相应两顶点间边的权重,这样根据一个聚类集体生成一个图后,再利用图形划分算法来得到最终聚类结果,其时间复杂性是二次的[17].
2))MCLA则是将每个簇当成顶点,簇之间拥有的相同数据点数占所有数据的比例作为这两个顶点间边的权重,然后在此基础上再利用图形划分算法将簇划分成不同的组,最后每个点根据它在不同组中出现的次数来选择它所在的组从而构成最终的聚类集成结果,其时间复杂性是一次的[17].
3))HGPA把聚类集体中的每个簇表示成一条超边,它连接所有在此簇中的数据点,每条超边权重一样,然后利用超图划分算法得到最终聚类结果,其时间复杂性是一次的[17].
2.
4聚类评估指标1)聚类精确率(ACCuracy,ACC):ACC是聚类结果的近似值,可以用来评价聚类的准确性.
ACC定义如下:ACC=∑k=1KNkN;0≤ACC≤1(4)其中Nk是正确分类到每个类的数据项数.
ACC越大,聚类性能越好[41].
2)标准互信息(NormalizedMutualInformation,NMI):互信息(MutualInformation,MI)是用来衡量两个数据分布的吻合程度,并计算正确率.
MI的定义如下:MI(X,Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)(5)NMI是MI的标准化,用熵作为分母将互信息调整到[0,1]内,可用于聚类评价,定义[41]如下:NMI(X,Y)=2I(X,Y)H(X)+H(Y)(6)3)F1值是精确率和召回率的调和平均值,可以准确地评价聚类算法的性能.
F1值的定义如下:F1=2P*RP+R(7)其中:P、R分别表示聚类算法的精确率和召回率[41].
4)调整兰德系数(AdjustedRandIndex,ARI):兰德指数(RandIndex,RI)需要给出实际的类别信息C,假设K是聚类结果,a表示C和K中同一类别元素的对数,b表示C和K中不同类别元素的对数,RI指数公式如下:RI=a+bC2nsamples(8)其中:C2nsamples表示数据集中可以组成的对数.
RI的取值范围是[0,1].
对于随机结果,兰德指数不能保证得分接近于零.
当聚类结果随机生成时,为了使兰德指数更接近于零,提出了具有较高判别度的评价标准即调整兰德系数.
ARI评价公式如下所示:ARI=RI-E(RI)max(RI)-E(RI)(9)ARI的取值范围是[-1,1],值越大,聚类结果越符合实际情况.
广义上讲,ARI是衡量两个数据分布的匹配程度[41].
2.
5数据处理算法过程本文医疗文本数据被处理的整个算法过程如下:算法1数据处理算法.
输入DataforMdimensions{X(1),X(2),…,X(v)}andX(v)∈Rdv*n.
kasreduceddimensionsforeachdataset.
输出ReduceddimensiondataofdatasetforMdimensions{W(1),W(2),…,W(v)}.
Theclusteringresultforeachdatasetbydifferentdimensions.
步骤ForeachX(v)in{X(1),X(2),…,X(v)}DimensionreductionofX(v)usingPCAmodel,AddresultstoW(v).
ClusteringwithdataW(v).
3实验与结果分析3.
1实验数据本文所用的实验数据来源于PPMI平台提供的公开文本数据集,共1783条数据记录,135个特征.
由于49个特征存在数据缺失,最终选取了86个有效特征,其中有代表性的10个特征说明如表1[10]所示.
另外,针对表1中特征gds与p-tau之间的关系,样本数据分布如图1所示,同样,gds与rem特征联系反映的样本分布如图2所示.
表1特征变量说明Tab.
1Descriptionoffeaturevariables特征变量ab_asynabetagdshemoLEDDmocaptauquipremscopa英文描述RatioofCSFA-beta1-42toCSFAlpha-synucleinCSFA-beta1-42GeriatricDepressionScaleScoreCSFHemoglobinTotalLevodopaEquivalentDailyDoseMontrealCognitiveAssessmentScore(adjustedforeducation)CSFp-tauQuipScoreRemSleepBehaviorDisorderQuestionnaireScoreScalesforOutcomesinParkinson'sdisease–AutonomicTotalScore中文含义脑脊液α-β1-42与α-突触核蛋白比值脑脊液A-β1-42老年抑郁症量表评分脑脊液血红蛋白左旋多巴总等效日剂量蒙特利尔认知评估量分数(受教育程度)脑脊液p-tau含量调侃得分快速眼动睡眠行为障碍问卷评分帕金森病自主神经功能评定总得分3091www.
joca.
cn第40卷计算机应用3.
2实验设置所有实验均在一台工作站(IntelCorei7-3337UCPU@1.
80GHz,内存8GB)上操作运行.
首先,本文使用ActivePython-2.
7.
13.
2716软件和Python代码来处理原始数据集,得到1783个数据样本,并选择了86个有效特征;然后,应用PCA方法将86个特征分别降维到80、70、60、50、40、30、20和10共计8个不同维度的维度空间;其次,选择K-Means、K-Medoids、GMM、AP和SC共5种不同聚类方法对8个维度空间数据进行聚类,并采用CSPA、MCLA和HGPA共3种聚类集成方法对前面5种聚类算法进行聚类集成,同时采用ACC、NMI、F1和ARI共4个指标在MatlabR2014a软件平台上评价聚类性能;最后,本研究比较了5个聚类方法和3个聚类集成的实验结果.
整体实验设计流程如图3所示.
3.
3实验结果本节描述了不同维度的聚类实验结果.
K-Means、K-Medoids、GMM、AP、SC共5种不同聚类方法及CSPA、MCLA和HGPA共3种聚类集成在8个不同维度即80、70、60、50、40、30、20和10的维度空间上的聚类结果如表2所示.
从表2可看出,5个聚类和3个聚类集成方法在不同维度上的ACC、NMI、F1和ARI最佳性能值已被重点标注.
不同维度上的评价指标最高值大小不同,不同维度范围下对应评价性能最好的聚类算法也有所差异.
当特征维度大于40时,SC的ACC和F1值效果最好;当特征维度取70时,ACC值达到0.
6141;当特征维度选择小于40时,GMM的4项评价指标都表现优异;而当特征维度取30时,GMM的4项指标性能最佳,其中ACC值达到0.
8912;在3个聚类集成方法中,不论维度取多少,MCLA的两项指标ACC和F1值均表现最好,当特征维度取80时,ACC值达到0.
5962.
8个维度空间上GMM与SC聚类算法识别样本数据准确度效果,比较结果如图4所示;3个聚类集成方法在每个维度上的最高值表现如图5所示.
从图4中分析得知,GMM在维度取30时,聚类准确度在所有维度上的5个聚类算法中取值最大,明显高于SC在维度为70时的准确度;从图5可看出,MCLA聚类集成方法在3个聚类集成中每个维度上的准确度值都是最大的.
4结语本文进行了基于医疗文本数据聚类的帕金森病早期诊断预测研究.
首先对PPMI平台提供的公开医疗文本数据集进行预处理后,选择有效的86个数据特征;为降低数据复杂度,结合PCA方法分别对原始数据进行80、70、60、50、40、30、20和10不同维度的降维;最后引用K-Means、K-Medoids、GMM、图5聚类集成方法在8个特征维度上的聚类性能比较Fig.
5Clusteringperformancecomparisonofclusteringensemblemethodson8featuredimensions图4GMM和SC在8个特征维度上的聚类性能比较Fig.
4ClusteringperformancecomparisonbetweenGMMandSCon8featuredimensions图1基于脑脊液p-tau值与抑郁症评分值的样本分布Fig.
1Sampledistributionbasedonptauandgds图2基于脑脊液p-tau值与睡眠行为障碍评分值的样本分布Fig.
2Sampledistributionbasedonptauandrem图3实验设计流程Fig.
3Flowchartofexperimentaldesign.
3092www.
joca.
cn第10期张晓博等:基于医疗文本数据聚类的帕金森病早期诊断预测AP和SC聚类方法对8个维度空间数据进行聚类,并使用了CSPA、MCLA和HGPA聚类集成方法.
在ACC、NMI、F1和ARI聚类评估指标上的实验结果显示,得出医疗文本数据特征维度降维到30时,GMM聚类效果最佳的结论,准确度达到89.
1%,能够有效识别多巴胺异常帕金森病患者、健康体和无多巴胺缺失帕金森病患者.
参考文献(References)[1]TSAICW,TSAIRT,LIUSP,etal.
NeuroprotectiveeffectsofbetulininpharmacologicalandtransgenicCaenorhabditiselegansmodelsofParkinson'sdisease[J].
CellTransplantation,2017,26(12):1903-1918.
[2]BURKERE,O'MALLEYK.
AxondegenerationinParkinson'sdisease[J].
ExperimentalNeurology,2013,246:72-83[3]WEINGARTENCP,SUNDMANMH,HICKEYP,etal.
NeuroimagingofParkinson'sdisease:expandingviews[J].
NeuroscienceandBiobehavioralReviews,2015,59:16-52.
[4]KIMY,CHEONSM,YOUMC,etal.
DepressionandpostureinpatientswithParkinson'sdisease[J].
GaitandPosture,2018,61:81-85.
[5]MARTNEZ-FERNNDEZR,RODRGUEZ-ROJASR,DELLAMOM,etal.
FocusedultrasoundsubthalamotomyinpatientswithasymmetricParkinson'sdisease:apilotstudy[J].
LancetNeurology,2018,17(1):54-63.
[6]张丽娟,邵海涛,王跃秀,等.
帕金森病研究进展[J].
生命科学,2014,26(6):560-570.
(ZHANGLJ,SHAOHT,WANGYX,etal.
ProgressinParkinson'sdisease[J].
ChineseBulletinofLifeSciences,2014,26(6):560-570.
)[7]ZOUY,TANJ,LIN,etal.
TheprevalenceofParkinson'sdiseasecontinuestoriseafter80yearsofage:across-sectionalstudyofChineseveterans[J].
EuropeanReviewforMedicalandPharmacologicalSciences,2014,18(24):3908-3915.
[8]ZHANGZ,ROMANGC,HONGZ,etal.
Parkinson'sdiseaseinChina:prevalenceinBeijing,Xi'an,andShanghai[J].
TheLancet,2005,365(9459):595-597.
[9]HIRSCHEC,JENNERP,PRZEDBORSKIS.
PathogenesisofParkinson'sdisease[J].
MovementDisorders:OfficialJournalof表2不同聚类方法在不同维度的实验结果Tab.
2Experimentalresultsofdifferentclusteringalgorithmsondifferentfeaturedimensions算法K-MeansK-MedoidsGMMAPSCCSPAMCLAHGPA算法K-MeansK-MedoidsGMMAPSCCSPAMCLAHGPA算法K-MeansK-MedoidsGMMAPSCCSPAMCLAHGPA算法K-MeansK-MedoidsGMMAPSCCSPAMCLAHGPA80维ACC0.
46380.
42060.
42230.
44310.
60290.
38530.
59620.
433060维ACC0.
46380.
44310.
48460.
44310.
54910.
41780.
50750.
425140维ACC0.
46380.
46610.
61920.
44310.
51430.
41620.
48630.
430720维ACC0.
46380.
46490.
88280.
44310.
57090.
46210.
54510.
4296NMI0.
01030.
01490.
06810.
01830.
00240.
01420.
06240.
0059NMI0.
01030.
02090.
12620.
01830.
00140.
02970.
01390.
0033NMI0.
01030.
01730.
26460.
01830.
00140.
02670.
00920.
0022NMI0.
01030.
01740.
65240.
01830.
00160.
06190.
00720.
0014F10.
46120.
41260.
46640.
42100.
61930.
40740.
52850.
4302F10.
46120.
42050.
45160.
42100.
56750.
41840.
52370.
4321F10.
46120.
44190.
53180.
42100.
52040.
41610.
52480.
4311F10.
46120.
44160.
86620.
42100.
59020.
43540.
53880.
4311ARI0.
02910.
0129-0.
03700.
02150.
01160.
01220.
06860.
0009ARI0.
02910.
02070.
03120.
02150.
00560.
0304-0.
02480.
0059ARI0.
02910.
03630.
10800.
0215-0.
00330.
0267-0.
02010.
0026ARI0.
02910.
03620.
74470.
02150.
00420.
0588-0.
00240.
002570维ACC0.
46380.
48850.
43300.
44310.
61410.
39200.
54800.
421250维ACC0.
46780.
46610.
42680.
44310.
59510.
39990.
59390.
424030维ACC0.
46380.
44480.
89120.
44310.
58270.
43690.
58440.
419010维ACC0.
46380.
46490.
72130.
44360.
40830.
43910.
52830.
4375NMI0.
01030.
00250.
03390.
01830.
00190.
01650.
00010.
0020NMI0.
01140.
01730.
04430.
01830.
00290.
01570.
00820.
0002NMI0.
01030.
02110.
66460.
01830.
00170.
04060.
03030.
0002NMI0.
01030.
01750.
45300.
01840.
00070.
04550.
02880.
0089F10.
46120.
50670.
42810.
42100.
63480.
40970.
55030.
4317F10.
47110.
44190.
45940.
42100.
60440.
40940.
57870.
4310F10.
46120.
42120.
87670.
42100.
60220.
42320.
53910.
4287F10.
46120.
44130.
70980.
42120.
42420.
42630.
47300.
4335ARI0.
0291-0.
01560.
01500.
02150.
01650.
0160-0.
00370.
0035ARI0.
03010.
0363-0.
01930.
0215-0.
01020.
01550.
03950.
0023ARI0.
02910.
02180.
76250.
0215-0.
01690.
03850.
06080.
0018ARI0.
02910.
03600.
49270.
02170.
00340.
04360.
04940.
00823093www.
joca.
cn第40卷计算机应用theMovementDisorderSociety,2013,28(1):24-30.
[10]MAREKK,JENNINGSD,LASCHS,etal.
TheParkinsonProgressionMarkerInitiative(PPMI)[J].
ProgressinNeurobiology,2011,95(4):629-635.
[11]THARWATA.
Principalcomponentanalysis—atutorial[J],InternationalJournalofAppliedPatternRecognition,2016,3(3):197-240.
[12]STEINLEYD.
K-meansclustering:ahalf-centurysynthesis[J].
BritishJournalofMathematicalandStatisticalPsychology,2006,59(1):1-34.
[13]PARKHS,JUNCH.
AsimpleandfastalgorithmforK-medoidsclustering[J].
ExpertSystemswithApplications,2009,36(2):3336-3341.
[14]VLASSISN,LIKASA.
AgreedyEMalgorithmforGaussianmixturelearning[J].
NeuralProcessingLetters,2002,15(1):77-87.
[15]FREYBJ,DUECKD.
Clusteringbypassingmessagesbetweendatapoints[J].
Science,2007,315(5814):972-976.
[16]VONLUXBURGU.
Atutorialonspectralclustering[J].
StatisticsandComputing,2007,17(4):395-416.
[17]VEGA-PONSS,RUIZ-SHULCLOPERJ.
Asurveyofclusteringensemblealgorithms[J].
InternationalJournalofPatternRecognitionandArtificialIntelligence,2011,25(3):337-372.
[18]SHIJ,XUEZ,DAIY,etal.
Cascadedmulti-columnRVFL+classifierforsingle-modalneuroimaging-baseddiagnosisofParkinson'sdisease[J].
IEEETransactionsonBiomedicalEngineering,2019,66(8):2362-2371.
[19]PENGB,WANGS,ZHOUZ,etal.
Amultilevel-ROI-features-basedmachinelearningmethodfordetectionofmorphometricbiomarkersinParkinson'sdisease[J].
NeuroscienceLetters,2017,651:88-94.
[20]OLIVEIRAFPM,CASTELO-BRANCOM.
Computer-aideddiagnosisofParkinson'sdiseasebasedon[123I]FP-CITSPECTbindingpotentialimages,usingthevoxels-as-featuresapproachandsupportvectormachines[J].
JournalofNeuralEngineering,2015,12(2):No.
026008.
[21]GARRAUXG,PHILLIPSC,SCHROUFFJ,etal.
MulticlassclassificationofFDGPETscansforthedistinctionbetweenParkinson'sdiseaseandatypicalparkinsoniansyndromes[J].
NeuroImage:Clinical,2013,2:883-893.
[22]ABSA,BAGGIOHC,SEGURAB,etal.
DiscriminatingcognitivestatusinParkinson'sdiseasethroughfunctionalconnectomicsandmachinelearning[J].
ScientificReports,2017,7:No.
45347.
[23]FEIX,DONGY,ANH,etal.
Impactofregionofinterestsizeontranscranialsonographybasedcomputer-aideddiagnosisforParkinson'sdisease[J].
MathematicalBiosciencesandEngineering,2019,16(5):5640-5651.
[24]LEIH,HUANGZ,ZHOUF,etal.
Parkinson'sdiseasediagnosisviajointlearningfrommultiplemodalitiesandrelations[J].
IEEEJournalofBiomedicalandHealthInformatics,2019,23(4):1437-1449.
[25]ADELIE,SHIF,ANL,etal.
Jointfeature-sampleselectionandrobustdiagnosisofParkinson'sdiseasefromMRIdata[J].
NeuroImage,2016,141:206-219.
[26]LIUL,WANGQ,ADELIE,etal.
ExploringdiagnosisandimagingbiomarkersofParkinson'sdiseaseviaiterativecanonicalcorrelationanalysisbasedfeatureselection[J].
ComputerizedMedicalImagingandGraphics,2018,67:21-29.
[27]XIAOB,HEN,WANGQ,etal.
QuantitativesusceptibilitymappingbasedhybridfeatureextractionfordiagnosisofParkinson'sdisease[J].
NeuroImage:Clinical,2019,24:No.
102070.
[28]GONGB,SHIJ,YINGS,etal.
Neuroimaging-baseddiagnosisofParkinson'sdiseasewithdeepneuralmappinglargemargindistributionmachine[J].
Neurocomputing,2018,320:141-149.
[29]PEREIRACR,WEBERSAT,HOOKC,etal.
Deeplearning-aidedParkinson'sdiseasediagnosisfromhandwrittendynamics[C]//Proceedingsofthe29thSIBGRAPIInternationalConferenceonGraphics,PatternsandImages.
Piscataway:IEEE,2016:340-346.
[30]GROVERS,BHARTIAS,AKSHAMA,etal.
PredictingseverityofParkinson'sdiseaseusingdeeplearning[J].
ProcediaComputerScience,2018,132:1788-1794.
[31]CHOIH,HAS,IMHJ,etal.
RefiningdiagnosisofParkinson'sdiseasewithdeeplearning-basedinterpretationofdopaminetransporterimaging[J].
NeuroImage:Clinical,2017,16:586-594.
[32]CALISKANA,BADEMH,BASTURKA,etal.
DiagnosisoftheParkinsondiseasebyusingdeepneuralnetworkclassifier[J].
IstanbulUniversity—JournalofElectricalandElectronicsEngineering,2017,17(2):3311-3318.
[33]VSQUEZ-CORREAJC,ARIAS-VERGARAT,OROZCO-ARROYAVEJR,etal.
MultimodalassessmentofParkinson'sdisease:adeeplearningapproach[J].
IEEEJournalofBiomedicalandHealthInformatics,2019,23(4):1618-1630.
[34]LEIH,HUANGZ,ZHANGJ,etal.
JointdetectionandclinicalscorepredictioninParkinson'sdiseaseviamulti-modalsparselearning[J].
ExpertSystemswithApplications,2017,80:284-296.
[35]CARLESIMOGA,PIRASF,ASSOGNAF,etal.
HippocampalabnormalitiesandmemorydeficitsinParkinsondisease:amultimodalimagingstudy[J].
Neurology,2012,78(24):1939-1945.
[36]BOWMANFD,DRAKED,HUDDLESTONDE.
MultimodalimagingsignaturesofParkinson'sdisease[J].
FrontiersinNeuroscience,2016,10:No.
131.
[37]VSQUEZ-CORREAJC,OROZCO-ARROYAVEJR,ARORAR,etal.
Multi-viewrepresentationlearningviaGCCAformultimodalanalysisofParkinson'sdisease[C]//Proceedingsofthe2017IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.
Piscataway:IEEE,2017:2966-2970.
[38]SHURIYAAB,RAJENDRANBA.
AnintegratedmultimodelclassificationapproachestowardsdiagnosisofParkinsondisease[J].
CaribbeanJournalofScience,2019,53(1):29-38.
[39]ALIL,KHANSU,ARSHADM,etal.
Amulti-modelframeworkforevaluatingtypeofspeechsampleshavingcomplementaryinformationaboutParkinson'sdisease[C]//Proceedingsofthe2019InternationalConferenceonElectrical,Communication,andComputerEngineering.
Piscataway:IEEE,2019:1-5.
[40]VAICIUKYNASE,VERIKASA,GELZINISA,etal.
DetectingParkinson'sdiseasefromsustainedphonationandspeechsignals[J].
PloSOne,2017,12(10):No.
e0185613.
[41]MAULIKU,BANDYOPADHYAYS.
Performanceevaluationofsomeclusteringalgorithmsandvalidityindices[J].
IEEETransactionsonPatternAnalysisandMachineIntelligence,2002,24(12):1650-1654.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61976247),theKeyResearchandDevelopmentPrograminSichuanProvince(20ZDYF2837).
ZHANGXiaobo,bornin1985,Ph.
D.
candidate,assistantresearchfellow.
Hisresearchinterestsincludemedicaldatamining,machinelearning.
YANGYan,bornin1964,Ph.
D.
,professor.
Herresearchinterestsincludebigdataanalysisandmining,multi-viewlearning,ensemblelearning,semi-supervisedlearning.
LITianrui,bornin1969,Ph.
D.
,professor.
Hisresearchinterestsincludebigdata,cloudcomputing,datamining,machinelearning,granularcomputing,roughsets.
LUFan,bornin1995,M.
S.
candidate.
Herresearchinterestsincludedeeplearning,clustering.
PENGLilan,bornin1993,M.
S.
candidate.
Herresearchinterestsincludepatternrecognition,clustering.
3094www.
joca.
cn
上次部落分享过VirMach提供的End of Life Plans系列的VPS主机,最近他们又发布了DEDICATED MIGRATION SPECIALS产品,并提供6.5-7.5折优惠码,优惠后最低每月27.3美元起。同样的这些机器现在订购,将在2021年9月30日至2022年4月30日之间迁移,目前这些等待迁移机器可以在洛杉矶、达拉斯、亚特兰大、纽约、芝加哥等5个地区机房开设,未来迁移的时...
瓜云互联一直主打超高性价比的海外vps产品,主要以美国cn2、香港cn2线路为主,100M以内高宽带,非常适合个人使用、企业等等!安全防护体系 弹性灵活,能为提供简单、 高效、智能、快速、低成本的云防护,帮助个人、企业从实现网络攻击防御,同时也承诺产品24H支持退换,不喜欢可以找客服退现,诚信自由交易!官方网站:点击访问瓜云互联官网活动方案:打折优惠策略:新老用户购买服务器统统9折优惠预存返款活动...
4324云是成立于2012年的老牌商家,主要经营国内服务器资源,是目前国内实力很强的商家,从价格上就可以看出来商家实力,这次商家给大家带来了全网最便宜的物理服务器。只能说用叹为观止形容。官网地址 点击进入由于是活动套餐 本款产品需要联系QQ客服 购买 QQ 800083597 QQ 2772347271CPU内存硬盘带宽IP防御价格e5 2630 12核16GBSSD 500GB30M1个IP...
弹性网为你推荐
安装程序配置服务器失败安装用友u8的数据库最后说:“安装程序配置服务器失败。参考服务器错误日志和 C:WINDOWSsqlstp.log 了解更多信息。”免费开通黄钻花钱开通黄钻和免费开通有什么区别?照片转手绘如何把真人图片用photoshop做成手绘图片安卓应用平台现在android平台的手机都有哪些?人人逛街人人都喜欢逛街吗ejb开发什么是EJB?机械键盘轴大家觉得机械键盘什么轴最舒服网页打开很慢为什么打开网页很慢云挂机云挂机每天2+元你提了吗?云挂机趣头条后台云挂机辅助后台云挂机辅助有谁用过?想了解实际情况。
海外域名注册 服务器租用托管 香港vps主机 火山主机 512au 万网优惠券 dropbox网盘 促正网秒杀 秒杀预告 域名转接 me空间社区 佛山高防服务器 qq对话框 广州服务器 美国在线代理服务器 中国电信测速网 免费网页申请 七夕快乐英语 免费邮件服务器 海外空间 更多