分类贪婪bt

贪婪bt  时间:2021-02-25  阅读:()
第43卷第9期计算机学报Vol.
43No.
92020年9月CHINESEJOURNALOFCOMPUTERSSep.
2020收稿日期:2019-09-16;在线发布日期:2020-02-07.
本课题得到国家社会科学基金(18BTJ020)资助.
王双成(通信作者),博士,教授,中国计算机学会(CCF)高级会员,主要研究领域为人工智能、机器学习、数据挖掘与应用.
E-mail:wangsc@lixin.
edu.
cn.
张立,博士,讲师,主要研究领域为机器学习与信息系统.
郑飞,博士,副教授,主要研究领域为信息安全和数据挖掘.
异步动态贝叶斯网络分类器研究王双成1),2)张立1)郑飞1)1)(上海立信会计金融学院信息管理学院上海201620)2)(上海立信会计金融学院数据科学交叉研究院上海201209)摘要时间序列数据普遍存在,对其进行分类预测有着广泛的需求.
虽然有一些时间序列数据分类方面的研究,但主要是面向时序同步分类(类与属性同步变化),还需要进行更有实际意义的异步分类(类与属性不同步变化)方面的探索.
本文结合时间序列的离散化、变量的时序转换、变量的错位变换、依据变量顺序和打分搜索的分类器结构学习和类变量的丢失数据修复等,建立异步动态贝叶斯网络分类器,这种分类器能够有效利用多变量时间序列数据中所蕴含的时滞、非时滞和混合分类信息,以及属性为类提供的传递依赖信息、直接导出依赖信息和间接导出依赖信息进行分类计算,来提高分类器的可靠性.
分别使用UCI、金融和宏观经济时间序列数据进行实验,结果显示所建立的异步动态贝叶斯网络分类器具有良好的分类准确性.
关键词时间序列;动态贝叶斯网络;分类器;同步分类;异步分类中图法分类号TP181DOI号10.
11897/SP.
J.
1016.
2020.
01737AsynchronousdynamicBayesiannetworkclassifiersWANGShuang-Cheng1),2)ZHANGLi1)ZHENGFei1)1)(Schoolofinformationmanagement,ShanghaiLixinUniversityofAccountingandFinance,Shanghai201620)2)(Instituteofdatascienceandinterdisciplinarystudies,ShanghaiLixinUniversityofAccountingandFinance,Shanghai201209)AbstractTimeseriesisoneofthemainformsofdataintherealworld.
Itwidelyexistsinvariouslargedatabases,suchasmacroeconomic,finance,industry,management,internetandsoon.
Alargenumberoftimeseriesrecordallkindsofimportantinformationofthesystematdifferenttimepoints(ortimeslices).
Thereisabundantandvaluableknowledgeaboutcausality,classificationrulesandregressionfunctionsintheseinformation.
Theyareoftentheimportantbasisfordiagnosingtheoperationofthesystemandformulatingcorrespondingstrategies.
Classificationisacomputersimulationofhumanconceptlearning(alsoknownasconceptlearning).
Itisoneofthecoretechnologiesinmachinelearninganddatamining.
Manyfamousclassifiershavebeendeveloped,suchasdecisiontree,neuralnetwork,supportvectormachine,nearestneighborclassifierandsoon.
Theyhavetheirowncharacteristicsandarewidelyusedinmanyfields,buttheseclassifiersaremainlyfornontimeseriesdata.
Bayesiannetworkisaprobabilisticgraphicalmodeltodescribethedependenceandrestrictionrelationshipbetweenrandomvariables.
Ithasthecharacteristicsofmulti-function,effectivenessandopenness,andisapowerfultooltodealwithuncertainty.
ClassicalBayesiannetworksaremainlyusedforcausalknowledgerepresentationanduncertaintyreasoning.
TheBayesiannetworkforclassificationisgenerallycalledBayesiannetworkclassifier.
TherearemanyresearchesonBayesiannetworkclassifiers,buttheseclassifiersareallfornontimeseriesdataandcannotbedirectlyusedintheclassificationcalculationoftimeseriesdata.
DynamicBayesiannetworkisatimingextensionofBayesiannetwork.
Itismainlyusedtosolvetheuncertaintyof1738计算机学报2020年timeseries.
ThedynamicBayesiannetworkfortimeseriesdataclassificationisgenerallycalleddynamicBayesiannetworkclassifier.
TheresearchondynamicBayesiannetworkclassifierisrelativelyless,anditismainlysynchronousclassification(synchronouschangeofclassandattributes).
It'salsoneededtoexploremorepracticalasynchronousclassification(asynchronouschangeofclassandattributes).
Inthispaper,wecombinethediscretizationoftimeseries,thetimingconversionofvariables,thedislocationtransformationofvariables,classifierstructurelearningbasedonvariableorderandsearch&scoringmethod,andmissingdatarestorationforclassvariabletobuildanasynchronousdynamicBayesiannetworkclassifier.
Thisclassifiercaneffectivelyutilizethetimedelay,notimedelayandmixedclassificationinformationcontainedinmultivariatetimeseriesdata,aswellasthetransitivedependency,directinductiondependencyandindirectinductiondependencyinformationtodoclassificationcalculationtoimprovethereliability.
WeuseUCI,financial(stock,exchangerate,futuresandfund)andmacroeconomictimeseriesdatarespectively,andcarryoutexperimentsandanalysisfromfouraspects:thecomparisonofclassificationaccuracy,theimpactofclassificationorderonclassificationaccuracy,theimpactoftimedelayinformationonclassificationaccuracyandtheimpactofdiscretizationmethodsonclassificationaccuracy.
TheexperimentalresultsrevealtheconstraintsofvariousfactorsontheclassificationaccuracyoftheasynchronousdynamicBayesiannetworkclassifier,andverifyitseffectiveness,practicabilityandreliabilityfortheclassificationcalculationofmultivariabletimeseriesofdifferentorders.
Keywordstimeseries;dynamicBayesiannetwork;classifier;synchronousclassification;asynch-ronousclassification1引言时间序列是现实世界中数据的主要表现形式之一,它广泛存在于宏观经济、金融、工业、管理和互联网等各种大型的数据库中.
大量时间序列真实地记录了系统在不同时间点(或时间片)的各种重要信息,其中蕴含着因果关系、分类规则和回归函数等方面丰富而有价值的知识,这些知识往往是诊断系统运行状况,以及制定相应策略的重要依据.
分类是人类概念学习的计算机模拟(也称为概念学习),是机器学习和数据挖掘等领域的核心技术之一.
现已发展了许多著名的分类器,如决策树、神经网络、支持向量机和最近邻分类器等,它们各有特点,在许多领域都得到了广泛的应用,但这些分类器主要针对的是非时间序列数据.
近些年,循环神经网络(RecurrentNeuralNetwork)被广泛用于多变量时间序列数据的分类计算,它以时间序列数据为输入,在序列的演进方向进行递归,一个时间点(或时间片)的分类结果作为下一个时间点(或时间片)分类的影响因素,可使时滞信息得到有效的利用,后来又演化出长短期记忆网络(LongShort-TermMemorynetworks,LSTM)和门循环单元网络(GatedRecurrentUnitnetworks,GRU,LSTM的变体)等,这些多变量时间序列分类器均收到了良好的效果,但在迭代分类计算过程中,历史(或时滞)信息可能产生叠加,对历史(或时滞)信息的使用没有选择性,而且无法进行异步分类计算.
贝叶斯网络(Bayesiannetwork)[1]是描述随机变量(简称为变量)之间依赖与制约关系的概率图模型,它具有多功能性、有效性和开放性等特征,是处理不确定性问题的有力工具.
经典的贝叶斯网络主要用于因果知识表示和不确定性推理,用于分类的贝叶斯网络一般称为贝叶斯网络分类器.
对贝叶斯网络分类器已有许多研究,如Flach(2004)[2]、Stephens(2017)[3]和Xu(2019)[4]等对朴素贝叶斯分类器的研究,Zheng(2012)[5]、Flores(2014)[6]和Cai(2018)[7]等对半朴素贝叶斯分类器的研究,Friedman(1997)[8]、Jing(2008)[9]和Namrata(2019)[10]等对树增强朴素贝叶斯分类器和变体的研究,王双成(2013,2016)[11,12]和Yang(2019)[13]等对贝叶斯网络分类器的研究.
这些分类器均是针对非时间序列数据,不能直接用于时间序列数据的分类计算.
1998年Friedman[14]在隐马尔科夫模型(HiddenMarkovmodel)和卡尔曼滤波模型(Kalmanfilteringmodel)的基础上给出受平稳性与马尔科夫性两个假9期王双成等:异步动态贝叶斯网络分类器研究1739设约束的动态贝叶斯网络(dynamicBayesiannet-work)定义和基于打分-搜索的学习方法,2002年Murphy[15]对动态贝叶斯网络进行了系统的理论分析和应用展望,从此揭开了动态贝叶斯网络研究进程.
早期的动态贝叶斯网络主要关注的是隐马尔科夫模型、卡尔曼滤波模型和两个模型的变体,以及它们在语音识别、视频分析和信息滤波等方面的应用研究.
近些年更关注于将动态贝叶斯网络用于动态识别、预警、诊断和评估等方面的研究(隐马尔科夫模型应用的扩展),如Yang(2010)[16]使用动态贝叶斯网络识别驾驶员的疲劳程度,Dabrowski(2016)[17]运用动态贝叶斯网络对系统性银行危机进行预警,Tanjin(2019)[18]依据动态贝叶斯网络进行故障诊断与路径分析,Heng(2019)[19]基于动态贝叶斯网络做正交异性钢桥面疲劳可靠性的系统评估等.
建立这些动态贝叶斯网络主要依靠专家知识,它们更适合于动态分析和推理计算(其结构中的有向边更突出因果含义,而不是强调信息的传递渠道和方式),直接将其用于分类计算效果往往并不理想.
在动态贝叶斯网络分类器的研究方面,Palacios-Alonso(2010)[20]使用遗传算法来优化动态朴素贝叶斯分类器,并将其用于手势识别;Alk-hateeb(2011)[21]将具有复杂结构的动态贝叶斯网络分类器和隐马尔科夫模型用于手写阿拉伯语的单词识别;王双成(2011)[22]建立基于高斯函数估计属性密度的动态贝叶斯网络分类器,并用于经济周期波动转折点预测;Kafai(2012)[23]基于专业知识构建动态贝叶斯网络分类器结构,并将其用于视频中的车辆分类;Premebida(2017)[24]采用动态贝叶斯混合模型(一种动态贝叶斯网络的变体)对移动机器人进行语义位置分类;王双成(2017)[25,26]分别基于高斯函数和高斯核函数估计属性密度建立动态朴素和动态完全贝叶斯网络分类器,并将它们用于宏观经济指标的增减性预测;Rishu(2019)[27]利用动态贝叶斯网络对基于智能手机的驾驶员行为进行上下文感知分类.
这些动态贝叶斯网络分类器均取得了较好的分类效果,但它们都是同步分类器,而且在确定分类器结构方面,主要依据专家知识、采用平凡结构(朴素或完全结构)和使用整体打分-搜索方法,因此,不利于实现训练与泛化之间的均衡,以及更有效的分类信息提取等,但这些分类器方面的成果为本文的异步动态贝叶斯网络分类器研究奠定了基础.
关于异步分类计算,王双成(2017)[28]给出了时间序列数据的异步回归计算模型,为异步动态贝叶斯网络分类器研究提供了可借鉴的方法.
也有一些其它的关于异步时间序列数据方面的研究,但主要集中在动态贝叶斯网络学习和推理,一般通过隐藏变量对不同步的时间序列数据(或变量)进行整合,并基于EM(Expectation-Maximization)算法或MCMC(MarkovChainMonteCarlo)方法进行迭代学习和推理计算,以两种特殊的动态贝叶斯网络(隐马尔科夫模型和卡尔曼滤波模型)以及它们的一些变体最具代表性,这些研究所侧重的是变量之间的近似推理计算,而不是属性对类的有效信息传递,因此并不适合于异步多变量时间序列分类预测,但其中一些思想提供了有价值的参考.
本文的主要贡献如下:(1)在变量时序转换(构建转换数据集[28])和变量错位变换(建立属性和类之间的错位对应关系)的基础上,对于给定的变量顺序(类排在首位),我们基于贪婪打分-搜索发现类的非时滞子结点(也实现了非时滞属性选择),再通过类和非时滞属性的时滞父结点学习(同样实现了类的时滞变量和非时滞属性的时滞变量选择),得到类的近似马尔科夫毯(Markovblanket),在理论上,马尔科夫毯中的属性子集是最优属性子集,在概率模式存在完全图时还是最小属性子集.
(2)我们将变量的时序转换和错位变换、类的马尔科夫毯学习、由错位变换而导致类丢失数据的修复和动态分类计算等相结合,给出了具有离散属性的异步动态贝叶斯网络分类器(AsynchronousDynamicBayesianNetworkClassifiers,ADBNC).
时序转换实现了时滞与非时滞信息的统一,错位变换为异步分类计算奠定了基础;ADBNC的马尔科夫毯结构,使三种分类信息(传递依赖信息、直接导出依赖信息和间接导出依赖信息)均得到充分的利用;类的缺失数据修复则可避免由错位变换而导致的分类信息丢失.
(3)分别使用UCI、金融(股票、汇率、期货和基金)和宏观经济时间序列数据,从分类准确性比较、分类阶数对分类准确性的影响、时滞信息对分类准确性的影响和离散化方法对分类准确性的影响四个方面进行实验与分析,以揭示各种因素对ADBNC分类准确性的制约,并验证ADBNC对多变量时间序列不同阶分类计算的有效性、实用性和可靠性.
文章分为四个部分,第一部分是对贝叶斯网络和动态贝叶斯网络(包括分类器)的发展进行回顾与分析;第二部分给出时间序列数据的预处理、具有离散属性的ADBNC学习与分类方法和算法;第1740计算机学报2020年三部分是使用UCI、金融和宏观经济时间序列数据进行的实验与分析;第四部分是结论和进一步的工作.
再有,文中将概率模式中的变量和对应的图形模式中的结点有时不加区分.
2ADBNC分别用12nXtXtXtCt表示时间序列属性变量(简称为属性)和类变量(简称为类),其中t取离散的时间点且1tT≤≤,12xtxt[],nxt[]ct是它们的具体取值,12DnTxtxt1}nxtcttT≤≤是具有T个记录的时间序列分类数据集,],[TnD中的记录之间不满足独立同分布的假设,而是具有时序依赖.
时间序列数据的一般分类预测可以描述为:首先基于给定的时间序列数据集],[TnD建立分类器,然后使用分类器对][TC进行分类预测,其中0≥.
我们将称为分类器的阶数,0为同步分类,0为异步分类.
下面从时间序列预处理、ADBNC的结构学习、由错位变换而形成的类丢失数据的修复、ADBNC的分类计算和ADBNC中的属性为类提供的信息分析五个方面研究ADBNC.
2.
1时间序列预处理时间序列预处理是建立ADBNC之前的数据准备,包括D[n,T]中时间序列的规范化、时间序列的离散化和数据集的错位变换三个部分,其中时间序列的规范化已有许多成熟的方法,可根据需要进行选择.
2.
1.
1时间序列的离散化在时间序列数据的分类问题中,如果作为类的时间序列是由连续值构成,则必须根据需求进行离散化.
属性时间序列可以离散化,也可以不离散化,本文研究将作为属性和类的时间序列均离散化的ADBNC.
属性和类可以采用一致或不一致的离散化方法,离散化方法可大致分成时序离散化(与时间有关)和非时序离散化(与时间无关)两种,具体情况如图1所示.
2.
1.
2时间序列数据集的错位变换对给定的分类器阶数(0),],[TnD的错位变换(或变量的错位变换)是时间序列12xtxt[]}nxt和{[]}ct错位重新建立对应关系,形成新的时间序列数据集的过程.
],[TnD经过错位变换后会形成一些丢失数据(没有观测到的数据),用],[)(TnDFull表示将],[TnD错位变换后具有类丢失数据的时间序列数据集12nxtxtxtct1}tT≤≤,],[)(TnDPart表示在],[)(TnDFull中删除丢失数据所在行后得到的时间序列数据集1{([],xt2[1}nxtxtcttT≤≤.
图1时间序列的离散化2.
2ADBNC的结构学习根据贝叶斯网络理论[1],][tC的马尔科夫毯是最优属性子集,也就是给定马尔科夫毯中的变量时][tC与其它变量条件独立,因此,通过建立][tC的马尔科夫毯,能够显著减少不相关和冗余的属性.
][tC的马尔科夫毯中包括三种结点,它们是][tC的父结点、子结点和子结点的父结点.
我们将ADBNC的结构学习划分为三个部分(或阶段),分别是][tC在][],.
.
.
,[],[21tXtXtXn中的子结点(称为非时滞子结点)学习、][tC在]1[],.
.
.
,2[],1[tCCC中的父结点(称为时滞父结点)学习和][tC的子结点的父结点(称为非时滞子结点的时滞父结点)学习.
我们结合变量顺序和贪婪打分-搜索方法进行ADBNC的结构学习(或类的马尔科夫毯学习).
主要的贝叶斯网络结构打分标准有MDL(MinimumDescriptionLen-gth)、BD(BayesianDirichlet)和K2,鉴于BD和K2会使学习得到的贝叶斯网络结构倾向于复杂化,不适合于分类器的结构学习,而MDL能够实现拟合数据与网络复杂程度之间的均衡,因此更适合于分类器的结构学习(实现训练与泛化之间的均衡).
我们结合MDL和贪婪搜索方法来学习ADBNC的结构.
2.
2.
1][tC的非时滞子结点学习发现][tC的非时滞子结点就是确定][tC是否为][tXi父结点的过程.
以1CtXt2[nXtXt为变量的顺序,采用贪婪打分-搜索方法,通过发现][tXi的父结点集来确定][tC在][],.
.
.
,[],[21tXtXtXn中的子结点集.
使用PNS表示][tXi的父结点集,CNS表示][tC的子结点集,CPNS表示][tXi的候选父结点集,()iPartMDLXtSETDnT表示基于数据集9期王双成等:异步动态贝叶斯网络分类器研究1741],[)(TnDPart,][tXi具有父结点集SET的MDL打分,初始化CNS=Φ,][tC的非时滞子结点学习如算法1所示.
算法1.
][tC的非时滞子结点学习输入:时间序列数据集()[,]PartDnT输出:[]Ct的非时滞子结点集CNSFORi=1TOnPNS=Φ,CPNS=11iCtXtXtFORh=1TOΔ//限定[]iXt父结点的数量为Δ发现具有最小MDL打分的结点0[]hXtIF0()ihPartMDLXtPNSXtDnT()iPartMDLXtPNSDnTTHEN0{[]}hPNSPNSXt0{[]}hCPNSCPNSXtELSEExitFORENDIFENDFORIFPNStC][THENCNS=CNS+[]iXtENDIFENDFOR在][tC的子结点学习算法中,主要的运算是MDL打分,需要进行不超过2()2nn次的MDL打分,是一个与n无关的量,因此,相对于MDL打分运算,][tC的非时滞子结点学习算法的时间复杂度是)(2nO.
使用12mwwwXtXtXt表示][tC在12nXtXtXt中的非时滞子结点集,其中1mn≤≤.
2.
2.
2[]kwXt和[]Ct的时滞父结点学习对给定的时滞阈值,发现][tXkw的时滞父结点就是确定][tXkw在{[1],[2]kkkwwwXtXtXt中父结点集的过程.
我们仍然使用PNS表示][tXkw的时滞父结点集,CPNS表示][tXkw的候选时滞父结点集,()kwPartMDLXtPNSDnT表示][tXkw具有时滞父结点集PNS的MDL打分,PNS表示集合PNS中元素的个数,PNS≤,初始化转换数据集[28]TSET=2],[1],kkkwwwxtxtxt[]}kwxt,其中1tT≤≤,PNS=[]Ct,CPNS=2],[1]}kkkwwwXtXtXt.
][tXkw的时滞父结点学习如算法2所示.
算法2.
[]kwXt的时滞父结点学习输入:时间序列数据集()kwPartxtDnT输出:[]kwXt的时滞父结点集采用文献[28]的方法建立转换数据集FORh=1TOΔ发现具有最小MDL打分的结点[]kkwwhXtvIF()kkkwwwParthMDLXtPNSXtvDnT]),[,|][()(TnDPNStXMDLPartwkTHEN{[]}kkwwhPNSPNSXtv{[]}kkwwhCPNSCPNSXtvELSEExitFORENDIFENDFOR在][tXi的时滞父结点学习算法中,主要的运算也是MDL打分,需要不超过(21)2次的MDL打分,其中是与无关的量,因此,相对于MDL打分运算,][tXkw的时滞父结点学习算法的时间复杂度是()O,所有变量(包括属性和类)的时滞父结点学习算法的时间复杂度是()On.
我们可以采用类似的方法发现][tC的时滞父结点集.
分别使用12kkkkkkwkwwwwwwqXtvXtvXtv和12ccccqCtvCtvCtv表示][tXkw和][tC的时滞父结点集,可得到ADBNC的局部结构,如图2所示.
图2ADBNC的时间点(或时间片)局部结构在图2中,][],.
.
.
,[],[21tXtXtXmwww为][tC提供非时滞分类信息,12ccCtvCtv[]}ccqCtv为][tC提供时滞分类信息,12kkkkkkwkwwwwwwqXtvXtvXtv为[]Ct提供混合分类信息,其中1km≤≤.
1742计算机学报2020年依据概率公式和图2中的条件独立性关系,可以得到:111111([]|[11],[1]1]([],[11],[1]1]([11],[1]1]([]nnnnnnpctcctxxtxxtpctcctxxtxxtpcctxxtxxtpct111,[11],[1]1]kknnmwwkcctxxtxxtpctctpxtxtct(1)其中])[(tc是][tC的时滞父结点集])[(tC的配置,])[(txkw是][tXkw的时滞父结点集])[(tXkw的配置.
ADBNC可以表示为111argmaxwwwwmmkkctctxtxtxtxtmwwkpctctpxtxtct(2)2.
3类的丢失数据修复在完整错位变换数据集中,[1],[2],.
.
.
,CTCT[1]CT的位置可以看作是丢失数据(这些变量的值未知).
当然我们可以使用()[,]PartDnT中的数据进行分类器学习,但数据集],[)(TnDPart与数据集],[)(TnDFull之间差异部分的数据中所蕴含的信息将得不到利用,从而造成信息丢失,越大,丢失的信息越多.
本文采用Gibbs抽样的方法来修复丢失的类数据,丢失数据的修复过程是一个迭代,按照[1],[2]1]CTCTCT的顺序依次修复每一个丢失数据,修复完所有的丢失数据实现一次迭代,当满足终止条件(可以采用相邻两次迭代一致性判断或给定迭代次数作为终止条件)时结束迭代.
假设C[t]的值域是12Hccc,用][itc表示][itc的修正值,随机初始化[1],[2],.
.
.
,cTcT[1]cT,然后进行迭代,][iTc(11i≤≤)按照下面的方法进行修正.
对产生的随机数,变量][iTC的修正值为111111,0(1).
.
.
,()[].
.
.
,()hhhjjHHjccjjcticj≤≤(3)其中()h是满条件分布.
我们仍然使用],[)(TnDFull表示类丢失数据修复后的时间序列数据集.
2.
4ADBNC的分类计算假设基于],[)(TnDPart已经建立了ADBNC的结构,由错位变换而形成的丢失数据也得到修复,ADBNC的分类计算如算法3所示.
算法3.
ADBNC的分类计算输入:时间序列数据集],[)(TnDFull输出:][Tc估计概率]),[]),[(|][()(TnDTcTcpFullFORk=1TOm估计概率()kkwwFullpxTxTcTDnTENDFOR合成计算得到][Tc在ADBNC的分类计算中,运算的主要部分是概率估计,共需要1m次的概率估计,其中mn≤因此,关于概率估计,算法的时间复杂度是)(mO.
2.
5属性为类提供的信息分析根据贝叶斯网络分类器中属性为类提供的信息构成理论[11,12],在贝叶斯网络分类器中,属性可为类提供三种信息,分别是传递依赖信息(最主要的信息)、直接导出依赖信息(重要信息)和间接导出依赖信息(辅助和补充信息),对于动态贝叶斯网络分类器也是如此,在ADBNC中属性为类提供信息的情况如图3所示.
图3属性为类提供的信息构成在图3中,属性可为类提供所有的三种信息,其中[](1)ckcCtkq≤≤为][tC提供传递依赖信息(时滞信息),[](1)hwXthm≤≤为][tC提供传递依赖信息和直接导出依赖信息(非时滞信息),而[](1,1)hhhwwwkXthmkq≤≤≤≤能够为][tC提供直接导出依赖信息和间接导出依赖信息(混合信息),因此更有助于提高分类器的分类准确性.
根据属性为类提供的信息分析,我们也可以9期王双成等:异步动态贝叶斯网络分类器研究1743将为][tC提供分类信息的变量分成两种,一种是类的时滞变量和非时滞属性,这种变量为类提供传递依赖信息,对分类至关重要,另一种是非时滞属性的时滞变量,它们为类提供导出依赖信息,起到次要和补充的作用.
3实验与分析在UCI和Wind数据库中选择用于实验的时间序列数据(16个UCI,18个金融和6个宏观经济多变量时间序列数据集),采用滑动平均的方法修复缺失的数据,对较大的数据集进行截取,通过差分的方法对单调时间序列进行平稳化处理,依据文献[26]中的时序递进分类准确性标准计算分类器的分类准确率(或分类错误率).
在UCI时间序列数据集中,选择一个时间序列变量作为类,其它的时间序列变量作为属性;在金融时间序列(股票、期货、汇率和基金)数据集中,同样也是选择一个时间序列变量(一只股票、一种期货、一个基金和一种汇率)作为类,其它的时间序列变量作为属性;在一个含有12个指标的宏观经济数据集中,分别选择其中的6个指标依次作为类,当一个指标作为类时,其它的指标作为属性.
在ADBNC的结构学习和分类过程中,对作为属性和类的指标均采用随时间的增减性变化来进行离散化(也可以根据需要采用其它的时序离散化方法),分别从分类准确性比较、分类器阶数对分类准确性的影响、时滞信息对分类准确性的影响和离散化方法对分类准确性的影响四个方面进行实验与分析,其中20,4,10M(、和M是根据实验测试的经验值).
用于分类实验的时间序列数据集的情况如表1所示,其中T、0T和n分别表示时间序列数据集中的记录数量,测试阈值和非时滞属性数量.
表1用于实验的多变量时间序列数据集情况序号数据集0()TTn序号数据集0()TTn1Adult528(113)621股票_飞机制造_开盘价417(113)132AllUsers629(113)822股票_玻璃行业_开盘价405(113)153Ann496(113)523股票_公路桥梁_最低价399(113)164Arabic_Digit399(113)1224股票_传媒娱乐_最低价382(113)145Cmc385(113)925股票_电力行业_收盘价366(113)466EEG_Eye_State399(113)1326股票_服装鞋类_收盘价324(113)237Eighthr1432(113)2227股票_纺织行业_最高价348(113)258Eighthr2455(113)1928期货_上海_收盘价243(113)129Eighthr3369(113)1829期货_上海_涨跌243(113)1010Hill_Valley399(113)2030期货_上海_成交量243(113)911Reaction_Network_Undirected371(113)1531汇率_英镑_瑞士_加元561(113)2912Relation_Network_Directed418(113)1332汇率_香港561(113)913Synthetic_Control1507(113)1933基金_债券_累积净值423(113)1914Synthetic_Control2493(113)1934基金_债券_日增长率423(113)1915Synthetic_Control3374(113)1935全国居民消费价格总指数278(107)1116White_wine_quality533(113)1036各项贷款合计同比增长率278(107)1117股票_sw银行_开盘价374(113)1337出口商品总额同比增长率278(107)1118股票_sw银行_收盘价374(113)1338M2同比增长率278(107)1119股票_sw银行_最低价374(113)1339全国商品零售价格总指数278(107)1120股票_sw银行_最高价374(113)1340固定资产投资额同比增长率278(107)113.
1分类准确性比较选择十个分类器与ADBNC进行分类准确性比较,其中分类器SVM和XGboost还需要建立转换数据集[28](增加时滞信息),分类器的具体情况如下:DNBC:离散属性动态朴素贝叶斯分类器[20].
GDNB:采用高斯函数估计属性密度的动态朴素贝叶斯分类器[22].
GDFB:基于高斯函数估计属性密度的动态完全贝叶斯分类器[22].
KDNB:使用高斯核函数估计属性密度的动态朴素贝叶斯分类器[25].
KDFB:基于高斯核函数估计属性密度的动态完全贝叶斯分类器[26].
1744计算机学报2020年DBN:依据Friedman的整体打分-搜索方法建立动态贝叶斯网络而得到的分类器[24].
RNN:循环神经网络(RecurrentNeuralNet-work).
LSTM:长短期记忆网络(LongShort-TermMe-mory).
SVM:支持向量机(SupportVectorMachine).
XGboost:结合决策树的结构特点,使用函数空间的梯度下降法,实现优化损失函数的集成模型.
ADBNC:异步动态贝叶斯网络分类器.
RNN的参数配置:1个隐藏层,units=32,激活函数为tanh(默认),损失函数loss='mean_squared_error',优化算法采用optimizer=rmsprop,metrics=['accuracy'],epochs=100,batch_size=32;LSTM的参数配置:1个隐藏层,units=32,激活函数为'relu',损失函数loss='mean_squared_error',优化算法采用optimizer='adam',metrics=['accuracy'],epochs=100,batch_size=z15;SVM的参数配置:Cost=200,Gamma=0.
01;XGboost的参数配置:subsample=0.
6,max_depth=2,eta=0.
2,reg_lambda=0.
001.
我们使用WilcoxonSigned-RanksTest和FriedmanTestwithpost-hocBonferronitest[29]进行两个分类器分类错误率(分类错误率=1-分类准确率)之间差异的置信打分,其中表示ADBNC和用于比较的分类器相对于给定的检验方法差别显著,十个分类器与ADBNC的分类错误率实验结果如表2所示.
表211个分类器在40个时间序列数据集上的分类错误率实验结果(1)数据集DNBCGDNBGDFBKDNBKDFBDBNRNNLSTMSVMXGboostADBNCAdult0.
38050.
36280.
38940.
43360.
39820.
41590.
35400.
41590.
37170.
25230.
3451AllUsers0.
33630.
35400.
38060.
43360.
30090.
38060.
24780.
30090.
29200.
24300.
3009Ann0.
18580.
17700.
16810.
23010.
38050.
17700.
17700.
18580.
11500.
18690.
1327Arabic_Digit0.
32710.
38050.
35400.
39820.
35400.
39820.
34510.
37170.
32740.
29910.
2832Cmc0.
39820.
38940.
36280.
41590.
29200.
39820.
31860.
37170.
33630.
34580.
3540EEG_Eye_State0.
22120.
48670.
27430.
42480.
24780.
36280.
28320.
25660.
36280.
28970.
1947Eighthr10.
16810.
28320.
14160.
38050.
30970.
14950.
08850.
07080.
13270.
14950.
1062Eighthr20.
27430.
28320.
25660.
30970.
30970.
18690.
22120.
20350.
26550.
20560.
2212Eighthr30.
15930.
49560.
45130.
42480.
21240.
19470.
22120.
19470.
25660.
18690.
1593Hill_Valley0.
23010.
23010.
15930.
12390.
10620.
14160.
21240.
00880.
14160.
04670.
0000Reaction_Network_Undirected0.
07080.
15930.
14160.
13270.
27550.
13270.
05310.
00880.
08850.
08410.
0088Relation_Network_Directed0.
23890.
30090.
23890.
28320.
20350.
15930.
11500.
09730.
12390.
09350.
1593Synthetic_Control10.
31860.
35400.
42480.
38940.
33630.
36450.
34510.
38050.
30970.
36450.
2920Synthetic_Control20.
22120.
48670.
37170.
46020.
30970.
22120.
24780.
30970.
27430.
31780.
2035Synthetic_Control30.
34510.
33630.
33630.
33630.
24780.
26550.
28320.
26550.
23890.
31780.
1770White_wine_quality0.
29200.
29200.
23010.
26550.
29200.
21500.
22120.
15930.
22120.
21500.
1593股票_sw银行_开盘价0.
27430.
49560.
38940.
17700.
19470.
38940.
29200.
29200.
25650.
33640.
2301股票_sw银行_收盘价0.
25650.
45130.
32740.
38940.
31860.
35510.
24780.
23890.
41590.
35510.
2124股票_sw银行_最低价0.
29200.
48670.
38050.
49560.
40710.
48670.
26550.
29200.
37170.
24300.
2389股票_sw银行_最高价0.
29200.
48670.
37170.
47790.
31860.
37170.
38050.
28320.
44250.
29910.
2566股票_飞机制造_开盘价0.
23010.
47790.
37170.
39820.
22120.
23010.
34510.
19470.
32740.
34580.
1504股票_玻璃行业_开盘价0.
26550.
34510.
44250.
45130.
36280.
34510.
37170.
35400.
43360.
45790.
2743股票_公路桥梁_最低价0.
31860.
47790.
43360.
42480.
38050.
32740.
41590.
32740.
39820.
44860.
2832股票_传媒娱乐_最低价0.
23010.
40710.
39820.
40710.
24780.
23010.
25660.
23010.
32740.
29910.
1858股票_电力行业_收盘价0.
36280.
46020.
45130.
48670.
39820.
36280.
42480.
36280.
44250.
42060.
3274股票_服装鞋类_收盘价0.
28320.
47790.
46020.
44250.
35400.
28320.
33630.
36280.
45130.
39250.
2566股票_纺织行业_最高价0.
37170.
49560.
44250.
46020.
41590.
38940.
43360.
38940.
47790.
38320.
3363期货_上海_收盘价0.
34510.
33630.
34510.
31860.
26550.
21240.
28320.
21240.
32740.
29910.
2035期货_上海_涨跌0.
27430.
24780.
20350.
38050.
30090.
31860.
27430.
31860.
27430.
27100.
2389期货_上海_成交量0.
32740.
47790.
45120.
46020.
45120.
29200.
40710.
26550.
44250.
49530.
2920汇率_英镑_瑞士_加元0.
27430.
49560.
36280.
43360.
26550.
34510.
17700.
18580.
34510.
41120.
22129期王双成等:异步动态贝叶斯网络分类器研究1745(续表)数据集DNBCGDNBGDFBKDNBKDFBDBNRNNLSTMSVMXGboostADBNC汇率_香港0.
32740.
39820.
44250.
49560.
34510.
39820.
42480.
35400.
33630.
38320.
2832基金_债券_累积净值0.
15040.
30090.
24780.
43100.
27430.
43100.
45130.
22120.
48670.
44250.
1150基金_债券_日增长率0.
23010.
35400.
38050.
38940.
22120.
23010.
28320.
35400.
35400.
28970.
1681全国居民消费价格总指数0.
16820.
18690.
22430.
18690.
22430.
13080.
11210.
22430.
20560.
13080.
1215各项贷款合计同比增长率0.
18690.
23360.
21500.
21500.
23360.
18690.
20560.
23360.
23360.
17760.
1589出口商品总额同比增长率0.
27100.
25230.
30840.
24300.
28040.
27100.
18690.
30840.
18690.
23360.
2056M2同比增长率0.
23360.
18690.
17760.
24300.
30840.
23560.
16820.
23360.
15890.
17760.
1963全国商品零售价格总指数0.
18690.
22430.
22430.
20560.
29910.
13080.
19630.
11210.
11210.
12150.
1308固定资产投资额同比增长率0.
31780.
26170.
28970.
26170.
26170.
31780.
33640.
35510.
25230.
19630.
2804平均0.
26590.
35980.
32560.
35790.
29820.
28590.
27530.
25770.
2980.
28020.
2116WilcoxonSRtest5.
485.
435.
385.
445.
233.
544.
664.
454.
794.
18ADBNCFriedman/Bonferronitest3.
076.
525.
616.
884.
344.
133.
063.
013.
733.
35ADBNC在表2中,使用WilcoxonSigned-RanksTest和FriedmanTestwithpost-hocBonferronitest的检验结果显示,ADBNC与十个分类器在分类错误率方面差异显著.
再考察总体平均值,ADBNC优于其它十个分类器的程度依次是7.
40%、23.
15%、16.
90%、22.
78%、12.
34%、10.
40%、8.
79%、6.
21%、12.
31%和9.
53%,可见ADBNC具有优势的程度也非常明显.
ADBNC与其它分类器,在40个数据集的分类错误率散点图如图4所示.
图中每一个点的坐标是用于比较的两个分类器的分类错误率,在45度线上方和下方的点分别表示ADBNC的分类错误率小于和大于用于比较的分类器.
图4分类错误率散点图1746计算机学报2020年从图4中的十个散点图来看,每一个散点图中的绝大部分点都在45度线的上方,因此,ADBNC的分类错误率明显优于其它分类器.
综合分类器之间的分类准确性差异的显著性检验、分类准确性平均值比较和分类错误率散点图三方面的结果,显示了ADBNC相对于其它十个分类器在分类准确性方面具有明显的优势.
ADBNC与动态朴素贝叶斯分类器和动态完全贝叶斯分类器:动态朴素贝叶斯分类器(DNBC、GDNB和KDNB)虽然具有高效率,但条件独立性假设可能导致分类器与数据的欠拟合,而动态完全贝叶斯分类器(GDFB和KDFB)不考虑变量之间的条件独立性,易于导致分类器与数据的过拟合,ADBNC的结构是类的属性马尔科夫毯,可以避免两种分类器所存在的问题.
ADBNC与循环神经网络(RNN和LSTM):在RNN和LSTM的迭代中,时滞信息可能产生叠加,对时滞与非时滞信息的使用也没有选择性,而且只能采用分类结果来填充由错位变换而导致的丢失数据,这样易于产生丢失数据填充值的极端化,ADBNC以理论上最优的马尔科夫毯来选择时滞与非时滞信息,并结合马尔科夫毯和Gibbs来迭代修复丢失的数据,因此在分类器的泛化能力方面具有优势.
ADBNC与非时间序列数据分类器(SVM和XGboost):非时间序列数据分类器无法直接利用时滞信息,需要先建立时间序列数据集的转换数据集,转换数据集中的时滞信息量很难界定,而时滞信息的量又对分类准确性有较大的影响.
ADBNC与DBN的比较:采用Friedman的整体打分-搜索方法建立的DBN,所突出的是变量之间的因果联系和推理计算,而不是更有效的分类信息传递和提取,因此,不利于实现训练与泛化之间的均衡.
同样使用表1中的数据集,通过发现类的非时滞子结点来选择属性,然后进行RNN的分类计算,分类错误率发生了一些变化(有增有减),总体平均值为0.
2635(有所下降),WilcoxonSigned-RanksTest和FriedmanTestwithpost-hocBonferronitest的结果为4.
02和3.
07,与ADBNC之间的差异仍然显著.
RNN与ADBNC基于完全不同的机制提取分类信息进行分类计算,RNN采用BP(BackPropa-gation)神经网络的基本计算模式,并通过将前一个时间点的分类输出作为下一个时间点的分类输入(增加一个输入单元)来进行迭代分类计算,能够有效利用属性和类的时滞信息,但所采用的时间点拟合(不需要平稳性假设)方式,也存在过度拟合的风险.
ADBNC使用时间段拟合(需要局部平稳性假设)的方式,因此,往往具有更好的泛化性能.
3.
2分类阶数对分类准确性的影响选择表1中的Ann、EEG_Eye_State、Eighthr2、Relation_Network_Directed、Synthetic_Control2、股票_sw银行_开盘价、股票_飞机制造_开盘价、期货_上海_收盘价、汇率_香港、基金_债券_日增长率、各项贷款合计同比增长率、出口商品总额同比增长率、M2同比增长率、全国商品零售价格总指数和固定资产投资额同比增长率15个时间序列数据集,依次将它们编号为15,.
.
.
,2,1,分别取50,.
.
.
,2,1,0计算分类准确率,从无时滞信息和有时滞信息两种情况进行实验与分析,实验结果如表3和表4所示,其中表的横向表示数据集,纵向表示分类阶数,后三行分别是50,.
.
.
,2,1的分类准确率平均值、最大值和最小值,括号中的数字是最大值和最小值出现的次数,表中的加粗数字表示最大和最小的分类准确率.
表3无时滞信息的不同阶分类实验结果阶数12345678910111213141500.
84070.
79650.
80530.
88500.
79650.
75220.
84070.
81420.
71680.
65490.
83180.
73830.
80370.
91590.
682210.
69030.
55750.
66370.
61060.
65490.
53980.
61060.
57520.
61060.
88500.
68220.
68220.
62620.
63550.
635520.
53100.
66370.
50440.
53980.
56640.
53100.
63720.
62830.
59290.
66370.
54210.
53270.
57940.
59810.
579430.
57520.
53980.
63720.
56640.
61060.
53980.
52210.
59290.
56640.
85840.
54210.
56070.
58880.
51400.
551440.
48670.
61060.
57520.
56640.
63720.
57520.
59290.
61950.
61060.
62830.
54210.
53270.
53270.
61680.
570150.
59290.
60180.
63720.
59290.
61950.
57520.
56640.
60180.
54870.
59290.
62620.
57010.
61680.
62620.
616860.
58410.
59290.
63720.
55750.
56640.
60180.
53980.
60180.
57520.
51330.
60680.
61680.
60680.
53270.
532770.
57520.
55750.
61950.
55750.
59290.
61060.
68140.
61060.
59290.
57520.
54210.
54210.
52340.
61680.
486080.
51330.
59290.
59290.
58410.
58410.
58410.
57520.
57520.
53980.
60180.
54210.
54210.
56070.
61680.
532790.
58410.
53100.
61950.
56640.
62830.
61950.
55750.
60180.
49560.
53100.
60750.
50470.
60750.
62620.
5701100.
58410.
63720.
69910.
53980.
69030.
58410.
59290.
55750.
52210.
56640.
51400.
50470.
52340.
54210.
5888110.
57520.
52210.
61060.
57520.
61950.
56640.
63720.
53980.
61060.
58410.
57940.
53270.
55140.
61680.
6168120.
53100.
54870.
57520.
56640.
62830.
60180.
54870.
60180.
61950.
55750.
55140.
62620.
55140.
55140.
54219期王双成等:异步动态贝叶斯网络分类器研究1747(续表)阶数123456789101112131415130.
50440.
53100.
59290.
52210.
58410.
53100.
51330.
61060.
58410.
58410.
55140.
61680.
53270.
52340.
5701140.
54870.
63720.
60180.
53100.
61060.
57520.
53100.
67260.
54870.
61060.
57010.
57010.
60750.
59810.
5701150.
53980.
52210.
50440.
51330.
54870.
55750.
52210.
57520.
55750.
53100.
56070.
59810.
58880.
57940.
5981160.
48670.
58410.
58410.
56640.
52210.
62830.
60180.
54870.
50440.
53980.
63550.
65420.
58880.
59810.
6075170.
56640.
66370.
64600.
60180.
56640.
59290.
50440.
59290.
56640.
57520.
59810.
57940.
50470.
54210.
5607180.
61060.
58410.
57520.
59290.
53100.
58410.
57520.
67260.
56640.
55750.
64490.
61680.
61680.
53270.
5421190.
53100.
60180.
61950.
53100.
61950.
57520.
57520.
53980.
56640.
55750.
57010.
63550.
61680.
53270.
5514200.
57520.
55750.
62830.
49560.
60180.
58410.
57520.
55750.
54870.
55750.
53270.
55140.
55140.
53270.
5514210.
55750.
58410.
60180.
54870.
61060.
57520.
50440.
59290.
50440.
60180.
57010.
60750.
53270.
55140.
5327220.
58410.
55750.
59290.
53100.
61060.
60180.
52210.
61950.
54870.
58410.
63550.
53270.
54210.
57940.
5327230.
59290.
56640.
54870.
51330.
61950.
60180.
62830.
54870.
55750.
53100.
51400.
51400.
53270.
59810.
5701240.
60180.
64600.
59290.
54870.
60180.
54870.
52210.
65490.
54870.
56640.
58880.
60750.
57940.
60750.
5607250.
55750.
62830.
57520.
59290.
57520.
51330.
61060.
64600.
59290.
54870.
61680.
58880.
61680.
55140.
5327260.
53100.
56640.
59290.
57520.
52210.
60180.
55750.
61950.
53980.
54870.
53270.
57010.
51400.
54210.
5794270.
48670.
61060.
59290.
57520.
51330.
64600.
56640.
64600.
55750.
48670.
56070.
50470.
53270.
55140.
5047280.
52210.
50440.
53980.
58410.
58410.
65490.
54870.
53100.
57520.
53980.
56070.
61680.
60750.
56070.
5607290.
61060.
64600.
51330.
53980.
54870.
54870.
58410.
61060.
52210.
61950.
59810.
58880.
59810.
61680.
5607300.
53980.
56640.
57520.
54870.
52210.
53100.
51330.
56640.
54870.
54870.
61680.
53270.
53270.
59810.
6168310.
54870.
59290.
62830.
51330.
55750.
57520.
53980.
63720.
53100.
56640.
55140.
57940.
54210.
53270.
5794320.
59290.
58410.
58410.
61950.
53100.
58410.
56640.
59290.
58410.
62830.
61680.
54210.
58880.
54210.
5794330.
60180.
57520.
60180.
54870.
51330.
49560.
51330.
55750.
53980.
61060.
54210.
56070.
55140.
53270.
5327340.
59290.
56640.
62830.
51330.
64600.
63720.
65490.
59290.
52210.
55750.
52340.
58880.
59810.
61680.
5607350.
61950.
50440.
62830.
52210.
55750.
56640.
58410.
56640.
55750.
52210.
58880.
58880.
57940.
54210.
5421360.
62830.
53100.
62830.
56640.
58410.
53100.
53980.
62830.
56640.
57520.
53270.
54210.
58880.
54210.
6355370.
52210.
51330.
63720.
53980.
59290.
61060.
48670.
60180.
54870.
53980.
53270.
64490.
59810.
55140.
6168380.
52210.
54870.
63720.
63720.
59290.
51330.
60180.
52210.
56640.
57520.
57940.
51400.
57940.
55140.
6262390.
54870.
54870.
59290.
55750.
52210.
50440.
61950.
59290.
61060.
52210.
59810.
51400.
60750.
55140.
5981400.
56640.
53100.
58410.
60180.
58410.
59290.
59290.
67260.
53980.
63720.
59810.
56070.
56070.
53270.
5327410.
61950.
55750.
58410.
55750.
53980.
60180.
58410.
56640.
50440.
55750.
52340.
57940.
59810.
51400.
5888420.
63720.
50440.
61950.
61060.
61060.
52210.
54870.
58410.
56640.
58410.
54210.
56070.
57940.
59810.
5421430.
50440.
60180.
63720.
60180.
59290.
60180.
53980.
55750.
55750.
57520.
55140.
52340.
59810.
62620.
6168440.
61060.
51330.
61060.
51330.
55750.
61060.
61060.
56640.
54870.
53100.
55140.
54210.
53270.
56070.
5514450.
57520.
65490.
55750.
54870.
59290.
53980.
57520.
59290.
52210.
60180.
50470.
55140.
53270.
59810.
5981460.
53980.
52210.
63720.
56640.
61060.
60180.
56640.
58410.
59290.
61950.
60750.
61680.
55140.
57940.
5607470.
55750.
61060.
57520.
53100.
59290.
55750.
53980.
60180.
49560.
62830.
54210.
57940.
56070.
53270.
5234480.
56640.
56640.
56640.
59290.
57520.
58410.
61060.
58410.
55750.
58410.
51400.
58880.
53270.
62620.
5981490.
60180.
59290.
58410.
49560.
62830.
61060.
61950.
59290.
57520.
58410.
56070.
57940.
59810.
52340.
5888500.
61060.
58410.
61060.
56640.
60180.
59290.
62830.
52210.
60180.
55750.
55140.
54210.
51400.
53270.
6168平均0.
56670.
57430.
59960.
55880.
58550.
57630.
57080.
59260.
55820.
58410.
56900.
57070.
56910.
56950.
5703最大0.
6903(1)0.
6637(2)0.
6991(1)0.
6372(1)0.
6903(1)0.
6549(1)0.
6814(1)0.
6726(3)0.
6195(1)0.
8850(1)0.
6822(1)0.
6822(1)0.
6262(1)0.
6355(1)0.
6355(1)最小0.
4867(2)0.
5044(3)0.
5044(2)0.
4956(2)0.
5133(2)0.
4956(1)0.
4867(1)0.
5221(2)0.
4956(2)0.
4867(1)0.
5047(3)0.
5047(3)0.
5047(1)0.
5140(2)0.
4860(1)1748计算机学报2020年表4有时滞信息的不同阶分类实验结果阶数12345678910111213141500.
85840.
80530.
79650.
83190.
80530.
75220.
84960.
79650.
72570.
88500.
83180.
78500.
80370.
85050.
710310.
86730.
80530.
77880.
84070.
79650.
76990.
84960.
79650.
71680.
89380.
84110.
79440.
80370.
86920.
719620.
85840.
80530.
77880.
84960.
80530.
76990.
84070.
81420.
71680.
88500.
84110.
76640.
79440.
85050.
719630.
86730.
79650.
80530.
83190.
80530.
76110.
85840.
81420.
71680.
88500.
85050.
79440.
80370.
85050.
729040.
87610.
80530.
79650.
85840.
79650.
77880.
84960.
80530.
72570.
87610.
84110.
78500.
80370.
84110.
700950.
86730.
80530.
80530.
85840.
80530.
77880.
84960.
80530.
72570.
86730.
84110.
77570.
79440.
85050.
719660.
86730.
80530.
79650.
85840.
81420.
77880.
85840.
80530.
71680.
87610.
84110.
77570.
80370.
84110.
729070.
87610.
80530.
80530.
84960.
81420.
78760.
86730.
80530.
72570.
87610.
83180.
78500.
80370.
85050.
710380.
85840.
80530.
81420.
86730.
81420.
77880.
85840.
80530.
71680.
87610.
84110.
76640.
78500.
85050.
700990.
87610.
80530.
81420.
86730.
79650.
79650.
86730.
82300.
72570.
87610.
83180.
76640.
79440.
83180.
7103100.
89380.
82300.
80530.
85840.
81420.
78760.
86730.
81420.
73450.
88500.
85050.
79440.
79440.
84110.
7196110.
87610.
81420.
80530.
84960.
81420.
79650.
86730.
80530.
72570.
89380.
85980.
76640.
77570.
83180.
7103120.
88500.
80530.
80530.
85840.
79650.
81420.
86730.
79650.
70800.
87610.
85050.
77570.
80370.
83180.
7103130.
87610.
82300.
81420.
85840.
78760.
80530.
86730.
80530.
70800.
88500.
84110.
76640.
81310.
84110.
7290140.
88500.
82300.
81420.
85840.
78760.
82300.
85840.
81420.
71680.
88500.
82240.
74770.
80370.
84110.
7196150.
88500.
84070.
78760.
86730.
78760.
81420.
84960.
81420.
70800.
88500.
83180.
77570.
81310.
84110.
7196160.
87610.
82300.
80530.
86730.
77880.
82300.
84960.
81420.
71680.
88500.
84110.
75700.
79440.
84110.
7383170.
87610.
82300.
82300.
87610.
78760.
83190.
85840.
81420.
69910.
87610.
82240.
77570.
80370.
86920.
7103180.
87610.
84070.
80530.
86730.
76990.
82300.
85840.
80530.
70800.
88500.
83180.
74770.
79440.
84110.
7383190.
87610.
82300.
81420.
89380.
76990.
81420.
84070.
79650.
69030.
88500.
83180.
74770.
81310.
84110.
7196200.
87610.
81420.
82300.
87610.
76990.
83190.
85840.
78760.
71680.
88500.
83180.
76640.
82240.
84110.
7383210.
88500.
83190.
82300.
86730.
76990.
83190.
84960.
79650.
69030.
88500.
82240.
76640.
82240.
85050.
7664220.
87610.
84070.
80530.
87610.
76990.
84070.
84960.
76990.
69910.
88500.
81310.
73830.
80370.
85050.
7196230.
88500.
82300.
82300.
86730.
76110.
84070.
85840.
78760.
70800.
87610.
82240.
76640.
81310.
83180.
7196240.
87610.
82300.
82300.
86730.
76990.
83190.
85840.
77880.
69910.
88500.
81310.
74770.
82240.
81310.
7290250.
87610.
82300.
83190.
87610.
76990.
84960.
86730.
77880.
69910.
87610.
81310.
76640.
80370.
83180.
7290260.
87610.
82300.
81420.
89380.
77880.
84070.
85840.
77880.
72570.
88500.
81310.
75700.
80370.
83180.
7103270.
86730.
82300.
83190.
87610.
75220.
84960.
84960.
76990.
72570.
88500.
80370.
74770.
78500.
85050.
7477280.
84960.
81420.
84070.
88500.
76110.
84960.
83190.
77880.
70800.
88500.
82240.
72900.
81310.
85050.
6916290.
86730.
82300.
82300.
87610.
76110.
84070.
84070.
78760.
69910.
87610.
83180.
74770.
79440.
85050.
7196300.
84960.
82300.
81420.
88500.
75220.
84070.
84960.
80530.
68140.
87610.
83180.
74770.
80370.
85980.
7009310.
85840.
82300.
82300.
87610.
75220.
84070.
84960.
77880.
69030.
88500.
82240.
75700.
80370.
83180.
7196320.
86730.
83190.
82300.
86730.
76990.
84070.
84070.
78760.
71680.
88500.
82240.
75700.
76640.
85050.
6916330.
84960.
84070.
81420.
87610.
76110.
84070.
84960.
80530.
69910.
88500.
83180.
73830.
76640.
86920.
7196340.
85840.
85840.
80530.
87610.
75220.
85840.
85840.
78760.
68140.
87610.
84110.
75700.
79440.
85980.
7290350.
84960.
85840.
79650.
88500.
76110.
84070.
84070.
79650.
67260.
87610.
82240.
74770.
79440.
84110.
7290360.
83190.
85840.
78760.
86730.
75220.
83190.
84960.
79650.
68140.
87610.
83180.
73830.
77570.
84110.
7103370.
82300.
85840.
81420.
89380.
74340.
84070.
84960.
79650.
67260.
88500.
82240.
75700.
76640.
82240.
7103380.
84070.
85840.
81420.
88500.
74340.
83190.
84070.
80530.
67260.
88500.
85050.
76640.
77570.
82240.
7196390.
84070.
86730.
79650.
87610.
74340.
83190.
84960.
81420.
68140.
88500.
84110.
77570.
78500.
82240.
7196400.
84070.
84960.
79650.
88500.
73450.
83190.
84070.
79650.
69030.
88500.
84110.
74770.
78500.
82240.
7477410.
84070.
84070.
78760.
87610.
74340.
83190.
84070.
81420.
66370.
87610.
85050.
74770.
79440.
84110.
7383420.
84960.
84070.
77880.
87610.
74340.
83190.
84960.
82300.
67260.
87610.
86920.
76640.
79440.
83180.
7290430.
83190.
85840.
77880.
88500.
76110.
84070.
84960.
84070.
66370.
87610.
86920.
74770.
80370.
82240.
7103440.
84960.
85840.
82300.
88500.
72570.
83190.
83190.
78760.
69030.
87610.
85050.
73830.
79440.
82240.
7196450.
83190.
84960.
78760.
89380.
73450.
83190.
83190.
81420.
66370.
86730.
85980.
75700.
80370.
81310.
72909期王双成等:异步动态贝叶斯网络分类器研究1749(续表)阶数123456789101112131415460.
83190.
86730.
78760.
89380.
73450.
84960.
84960.
80530.
69030.
86730.
85980.
73830.
80370.
81310.
7196470.
84960.
85840.
80530.
89380.
72570.
83190.
84070.
83190.
67260.
86730.
85050.
74770.
77570.
79440.
7196480.
85840.
82300.
80530.
89380.
71680.
84070.
84070.
79650.
67260.
86730.
86920.
77570.
79440.
80370.
7196490.
85840.
84960.
80530.
88500.
71680.
83190.
84070.
79650.
67260.
86730.
86920.
73830.
79440.
81310.
7196500.
86730.
84960.
80530.
89380.
70800.
83190.
83190.
79650.
67260.
85840.
87850.
75700.
76640.
81310.
7196平均0.
86250.
82990.
80710.
87170.
76960.
82090.
85100.
80090.
70000.
88000.
83740.
76060.
79720.
83810.
7207最大0.
8938(1)0.
8673(2)0.
8407(1)0.
8938(8)0.
8142(5)0.
8584(1)0.
8673(7)0.
8407(1)0.
7345(1)0.
8938(2)0.
8785(1)0.
7944(3)0.
8224(3)0.
8692(3)0.
7664(1)最小0.
8230(1)0.
7965(1)0.
7788(4)0.
8319(1)0.
7080(1)0.
7522(1)0.
8319(1)0.
7699(2)0.
6637(3)0.
8584(1)0.
8037(5)0.
7290(1)0.
7664(4)0.
7944(1)0.
6916(2)从无时滞信息(表3)和有时滞信息(表4)两个方面,通过简单的统计运算,我们可以得到表5.
在表5中,无时滞信息或有时滞信息的前两列表示(0)阶异步分类(在表3或表4中编号为的行)在15个数据集中具有最大(在50阶中的最大)和最小(在50阶中的最小)分类准确率的数量(最好和最坏情况的数量分布),后三列表示阶异步分类的分类准确率大于、等于和小于同步分类器(0),在15个数据集中出现的频率(在表3或表4编号为的记录中,大于、等于和小于同步分类在15个数据集中所占的比例).
对于无时滞信息的情况,宏观经济数据最大分类准确率集中在一阶(1)分类器(宏观经济数据具有很强的马尔科夫性),最小分类准确率没有反表5不同阶分类器的分类结果分布阶数无时滞信息有时滞信息最大最小大于等于小于最大最小大于等于小于1700.
06670.
00000.
9333310.
53330.
26670.
20002110.
06670.
00000.
9333010.
33330.
33330.
33343010.
06670.
00000.
9333130.
53330.
33330.
13344010.
00000.
00001.
0000000.
33330.
40000.
26675000.
00000.
00001.
0000000.
46670.
33330.
20006000.
00000.
00001.
0000100.
53330.
20000.
26677110.
00000.
00001.
0000200.
46670.
46670.
06668000.
00000.
00001.
0000100.
46670.
20000.
33339020.
00000.
00001.
0000100.
40000.
26670.
333310210.
00000.
00001.
0000500.
80000.
06670.
133311000.
00000.
00001.
0000300.
66670.
13330.
200012100.
00000.
00001.
0000100.
40000.
26670.
333313000.
00000.
00001.
0000100.
66670.
06670.
266614100.
00000.
00001.
0000000.
53330.
13330.
333415010.
00000.
00001.
0000000.
46670.
20000.
333316000.
00000.
00001.
0000000.
53330.
13330.
333417110.
00000.
00001.
0000100.
53330.
13330.
333418100.
00000.
00001.
0000000.
53330.
13330.
333419000.
00000.
00001.
0000100.
46670.
20000.
333320010.
00000.
00001.
0000100.
53330.
13330.
333421000.
00000.
00001.
0000200.
46670.
26670.
266622000.
00000.
00001.
0000010.
40000.
26670.
333323000.
00000.
00001.
0000000.
60000.
00000.
400024000.
00000.
00001.
0000100.
53330.
06670.
40001750计算机学报2020年(续表)阶数无时滞信息有时滞信息最大最小大于等于小于最大最小大于等于小于25000.
00000.
00001.
0000100.
46670.
06670.
466626000.
00000.
00001.
0000100.
40000.
20000.
400027040.
00000.
00001.
0000020.
40000.
26670.
333328110.
00000.
00001.
0000120.
33330.
13330.
533429000.
00000.
00001.
0000000.
40000.
13330.
466730000.
00000.
00001.
0000000.
40000.
20000.
400031000.
00000.
00001.
0000000.
33330.
26670.
400032000.
00000.
00001.
0000020.
33330.
13330.
533433020.
00000.
00001.
0000110.
46670.
20000.
333334000.
00000.
00001.
0000100.
53330.
06670.
400035010.
00000.
00001.
0000000.
33330.
13330.
533436000.
00000.
00001.
0000000.
20000.
33330.
466737010.
00000.
00001.
0000120.
26670.
26670.
466638110.
00000.
00001.
0000000.
46670.
06670.
466639000.
00000.
00001.
0000100.
40000.
20000.
400040100.
00000.
00001.
0000000.
33330.
20000.
466741000.
00000.
00001.
0000010.
40000.
00000.
600042010.
00000.
00001.
0000010.
40000.
06670.
533343000.
00000.
00001.
0000120.
33330.
20000.
466744000.
00000.
00001.
0000000.
40000.
00000.
600045010.
00000.
00001.
0000110.
40000.
06670.
533346000.
00000.
00001.
0000200.
40000.
13330.
466747010.
06670.
00000.
9333110.
46670.
00000.
533348000.
00000.
00001.
0000100.
40000.
13330.
466749010.
00000.
00001.
0000000.
40000.
13330.
466750010.
00000.
00001.
0000240.
46670.
06670.
4666平均0.
36000.
50000.
00530.
00000.
99470.
80000.
50000.
44670.
17330.
3800应出明显的规律,其它数据集也没有明显的倾向性.
1和0的比较,只存在一个数据集"基金_债券_日增长率",有6%异步分类的分类准确率大于同步分类,其它的数据集,异步分类的分类准确率均明显低于同步分类;异步分类与同步分类的平均值、最大值和最小值之间差值的平均值依次是0.
2170、0.
1116和0.
2903,取到最大值与最小值的数量分别是18和28,大于、等于和小于情况的分布也非常极端;在15个数据集中,一次异步分类不小于同步分类的可能性大约是0.
0053.
也就是当不考虑时滞信息时,总体来看,异步分类的效果远不如同步分类(阶数对分类准确率有较大的影响),因此不适宜进行异步分类计算.
对于有时滞信息的情况,具有最大和最小分类准确率的情况没有明显的倾向性,取到最大值与最小值的数量分别是40(与无时滞信息情况相比,增加了122%)和29(与无时滞信息情况相当);异步分类与同步分类的平均值、最大值和最小值之间差值的平均值依次是0.
0104、0.
0419和0.
0267,我们能够发现,有时滞信息取到最大值的可能性比较大,这更适合于对分类器进行优化;对于异步分类器,大约以0.
62的可能性在一次分类中的分类准确性不小于同步分类,因此,在增加时滞信息的情况下,可以进行异步分类计算.
3.
3时滞信息对分类准确性的影响分别对表3和表4中的数据按数据集与分类阶数进行平均,得到无时滞信息和有时滞信息的分类准确率平均值,如图5所示,其中图5(a)的横轴表示分类阶数,图5(b)的横轴表示数据集,纵轴都表示平均分类准确率.
9期王双成等:异步动态贝叶斯网络分类器研究1751图5时滞信息对分类准确性的影响从图5中我们能够看出,增加时滞信息能够显著提高分类器的分类准确性.
对于按数据集的平均,有时滞信息与无时滞信息的分类准确率差异的最大值、最小值和平均值分别是0.
2587、0.
1620和0.
2316;关于按分类阶数的平均,有时滞信息与无时滞信息的分类准确率差异的最大值、最小值和平均值分别是0.
3036、0.
1450和0.
2316.
对表3和表4中15个数据集的同步分类准确率和异步平均分类准确率,再按数据集平均,结果分别是0.
7916和0.
5744(无时滞信息),以及0.
8058和0.
8098(有时滞信息).
我们发现无时滞信息的同步分类准确率远大于异步平均分类准确率,而有时滞信息的同步分类准确率却小于异步平均分类准确率,具有时滞信息的同步和异步平均分类准确率也均大于无时滞信息的情况,这验证了时滞信息也是一种重要的分类信息.
但时滞信息(或时滞变量)不是越多越好,过多的时滞信息(或时滞变量)会产生大量的冗余,反而会导致分类准确性的下降,也会降低效率.
机器学习研究的一个核心问题是实现训练与泛化之间的均衡,基于数据建立分类器是一种归纳学习,大量的冗余信息会对分类器学习产生误导,也会导致分类器与数据的过度拟合,从而会降低分类器的可靠性.
时间序列分类数据集(数据集的记录之间不满足独立同分布的假设,而是具有时序依赖)与非时间序列分类数据集(数据集的记录之间满足独立同分布的假设)的最大不同就是含有时滞信息,我们已经通过大量的实验验证了时滞信息也是分类的重要信息.
时滞信息对各种分类器的分类结果均有影响,但影响程度会有差异.
3.
4离散化方法对分类准确性的影响在表3的15个数据集中选择5个数据集,它们是EEG_Eye_State、股票_sw银行_开盘价、股票_飞机制造_开盘价、期货_上海_收盘价和M2同比增长率,类统一按增减性进行离散化,属性则分别使用非时序离散化(等频、等距和分位数)和时序离散化(增减、转折、增增和减减)方法进行离散化,对5个数据集的分类准确率进行平均,7种离散化方法对50阶具有时滞信息的平均分类准确率情况如图6所示,其中横轴表示分类阶数,纵轴表示平均分类准确率.
1752计算机学报2020年图6离散化方法对分类准确性的影响在图6中我们能够发现,七种离散化方法的效果明显地形成三种情况.
第一种是非时序离散化(包括等频、等距和分位数),这种情况的分类效果最差,因为丢失了时滞信息;第二种是非一致时序离散化(包括转折、增增和减减),部分时滞信息会得到有效的利用,因此具有较好的分类效果;第三种是一致时序离散化(属性和类采用同样的离散化方法),时滞信息会得到充分的利用,分类效果最好,对其它的时间序列数据集和离散化方法也得到了类似的结果.
我们可以得出结论:如果需要将时间序列数据离散化后进行分类计算,那么采用一致离散化方法离散化属性和类是一种比较好的选择.
4结论和进一步的工作我们结合时间序列的离散化,变量的时序转换,变量的错位变换,类的子结点、父结点和子结点的父结点学习等,给出了可用于多变量时间序列分类预测的ADBNC,使用UCI、金融和宏观经济时间序列数据进行实验的结果显示,ADBNC具有良好的分类准确性.
在ADBNC的学习与分类过程中,变量的时序转换使属性与类的时滞信息(或历史信息)得到有效的利用,从而有利于提高分类器的分类准确性;通过变量的错位变换(或数据的错位变换)构建新的多变量时间序列数据集,可实现异步分类预测;结合类的非时滞子结点、时滞父结点和非时滞子结点的时滞父结点学习,我们能够得到类的近似马尔科夫毯,而在理论上,马尔科夫毯分类器是最优分类器;通过对由属性和类的错位变换而形成丢失数据的修复,可避免时间序列数据集中的信息丢失,使ADBNC的分类计算更加可靠.
进一步的工作是通过对高阶分类问题的深入研究,揭示多变量时间序列所蕴含的关联与制约机制,并将其向异步动态贝叶斯网络回归模型推广.
参考文献[1]PearlJ.
Probabilisticreasoninginintelligentsystems:networksofplausibleinference.
SanMateo,USA:MorganKaufmann,1988,383-408[2]FlachPA,LachicheN.
NaiveBayesianclassificationofstructureddata.
MachineLearning,2004,57(3):233-269[3]StephensCR,HuertaHF,LinaresAR.
WhenisthenaiveBayesapproximationnotsonaiveMachineLearning,2017,92(1):1-45[4]XuWQ,JiangLX,YuLJ.
Anattributevaluefrequency-basedinstanceweightingfilterfornaiveBayes.
JournalofExperimental&TheoreticalArtificialIntelligence,2019,31(2):225-236[5]ZhengF,WebbGI,PramudithaS.
Subsumptionresolution:anefficientandeffectivetechniqueforsemi-naveBayesianlearning.
MachineLearning,2012,87(1):93-125[6]FloresMJ,GámezJA,MartínezAM.
Domainsofcompetenceofthesemi-naiveBayesiannetworkclassifiers.
InformationSciences,2014,260(1):120-148[7]CaiQ,LiuH,ZhouS.
Anadaptive-scaleactivecontourmodelforinhomogeneousimagesegmentationandbiasfieldestimation.
PatternRecognition,2018,82(10):79-93[8]FriedmanN,GeigerD,GoldszmidtM.
Bayesiannetworkclassifiers.
MachineLearning,1997,29(2-3):131-161[9]JingYS,PavloviV,RehgJM.
BoostedBayesiannetworkclassifiers.
MachineLearning,2008,73(2):155-184[10]NamrataS,PradeepS,SabuMTetal.
AnovelbaggednaiveBayes-decisiontreeapproachformulti-classclassificationproblems.
JournalofIntelligent&FuzzySystems,2019,36(3):2261-2271[11]WangSC,XuGL,DuRJ.
RestrictedBayesianclassificationnetworks.
ScienceChinaInformationSciences,2013,56(5):2122-2137[12]WangShuang-Cheng,GaoRui,DuRei-Jie.
RestrictedBayesiannetworkclassifierbasedonGaussianCopula.
ChineseJournalofComputers,2016,39(8):1612-1625(inChinese)(王双成,高瑞,杜瑞杰.
基于高斯Copula的约束贝叶斯网络分类器研究.
计算机学报,2016,39(8):1612-1625)[13]YangYL,DingMX.
DecisionfunctionwithprobabilityfeatureweightingbasedonBayesiannetworkformulti-labelclassification.
NeuralComputing&Applications,2019,31(9):9期王双成等:异步动态贝叶斯网络分类器研究17534819-4828[14]FriedmanN,MurphyK,RussellS.
Learningthestructureofdynamicprobabilisticnetworks//Proceedingsofthe14thInternationalConferenceonUncertaintyinArtificialIntelligence,Madison,USA,1998,139-147[15]MurphyK.
DynamicBayesiannetworks:Representation,inferenceandlearning[Ph.
D.
Thesis],UCBerkeley,ComputerScienceDivision,USA,2002[16]YangGS,LinYZ,BhattacharyaP.
AdriverfatiguerecognitionmodelbasedoninformationfusionanddynamicBayesiannetwork.
InformationSciences,2010,180(10):1942-1954[17]DabrowskiJJ,BeyersC,deVilliersJP.
SystemicbankingcrisisearlywarningsystemsusingdynamicBayesiannetworks.
Expertsystemswithapplications,2016,62(11):225-242[18]TanjinAM,FaisalK,SyedI.
FaultdetectionandpathwayanalysisusingadynamicBayesiannetwork.
ChemicalEngineeringScience,2019,195(2):777-790[19]HengJL,ZhengKF,KaewunruenSetal.
DynamicBayesiannetwork-basedsystem-levelevaluationonfatiguereliabilityoforthotropicsteeldecks.
EngineeringFailureAnalysis,2019,105(11):1212-1228[20]Palacios-AlonsoMA,BrizuelaCA,SucarLE.
EvolutionarylearningofdynamicnaiveBayesianclassifiers.
JournalofAutomatedReasoning,2010,45(1):21-37[21]AlkhateebJH,PauplinO,RenJetal.
PerformanceofhiddenMarkovmodelanddynamicBayesiannetworkclassifiersonhandwrittenArabicwordrecognition.
Knowledge-BasedSystems,2011,24(5):680-688[22]WangShuang-Cheng,PeiZhen,BiYu-Jiang.
DynamicBayesiannetworkclassifiermodelforpredictingthecyclicalturningpointsofeconomicfluctuation.
JournalofIndustrialEngineeringandEngineeringManagement,2011,25(2):173-177(inChinese)(王双成,裴瑱,毕玉江.
经济周期转折点预测的动态贝叶斯网络分类器模型.
管理工程学报,2011,25(2):173-177)[23]KafaiM,BhanuB.
DynamicBayesiannetworksforvehicleclassificationinvideo.
IEEETransactionsonIndustrialInformatics,2012,8(1):100-109[24]PremebidaC,FariaDR,NunesU.
DynamicBayesiannetworkforsemanticplaceclassificationinmobilerobotics.
AutonomousRobots,2017,41(5):1161-1172[25]WANGShuang-Cheng,GAORui,DURui-Jie.
LearningandoptimizationofdynamicnaiveBayesianclassifiersforsmalltimeseries.
ControlandDecision,2017,32(1):163-166(inChinese)(王双成,高瑞,杜瑞杰.
小时间序列动态朴素贝叶斯分类器学习与优化.
控制与决策,2017,32(1):163-166)[26]WANGShuang-Cheng,ZHENGFei,GAORui.
DynamicfullBayesianensembleclassifiersforsmalltimeseries.
ScienceChina:InformationScience,2017,47(11):1445-1463(inChinese)(王双成,郑飞,高瑞.
小时间序列动态完全Bayesian集成分类器研究.
中国科学:信息科学,2017,47(11):1445-1463)[27]RishuC,RamaKC,SeemaVetal.
Smartphonebasedcontext-awaredriverbehaviorclassificationusingdynamicBayesiannetwork.
JournalofIntelligent&FuzzySystems,2019,36(5):4399-4412[28]WangShuang-Cheng,GaoRui,DuRei-Jie.
WithsuperparentnodeBayesiannetworkensembleregressionmodelfortimeseries.
ChineseJournalofComputers,2017,40(12):2748-2761(inChinese)(王双成,高瑞,杜瑞杰.
具有超父结点时间序列贝叶斯网络集成回归模型.
计算机学报,2017,40(12):2748-2761)[29]DemsarJ.
Statisticalcomparisonsofclassifiersovermultipledatasets.
JournalofMachineLearningResearch,2006,7(1):1-30WANGShuang-Cheng,Ph.
D.
,professor.
Hismainresearchinterestsincludeartificialintelligence,machinelearning,dataminingandtheirapplication.
ZHANGLi,Ph.
D.
,lecturer.
Hismainresearchinterestsincludemachinelearningandinformationsystem.
ZHENGFei,Ph.
D.
,associateprofessor.
Hismainresearchinterestsincludeinformationsafetyanddatamining.
BackgroundWehavemadeathoroughstudyofBayesiannetworkclassifierfornon-timeseriesdata.
TheyincludeBayesiannetworkclassifierswithdiscreteattributes,Markovnetworkclassifiers,Markovblanketclassifiers,aswellasBayesiannetworkclassifiersforcontinuousattributesbasedonestimatingattributedensitybyGaussianfunction,GaussiankernelfunctionandGaussianCopula.
Theyallshowgoodclassificationaccuracyinsolvingthecorrespondingclassificationproblems,buttheseclassifierscannotbedirectlyusedintheclassificationoftimeseriesdata.
WehavealsostudieddynamicBayesiannetworkclassifierswithdiscreteandcontinuousattributes.
TheyincludedynamicnaiveBayesianclassifierswithdiscreteattributes,dynamicchainextendedBayesianclassifiersanddynamictreeextendedBayesianclassifiersaswellasthedynamicBayesiannetworkclassifierwithcontinuousattributesbasedonGaussianfunction,GaussiankernelfunctionandGaussiancopulatoestimateattributedensity.
ThesedynamicBayesiannetworkclassifiersaresynchronousclassifiers(synchronouschangesofclassandattributes).
Thesameistrueforrecurrentneuralnetworks,longshort-termmemorynetworksandgatedrecurrentunit1754计算机学报2020年networksthatcanbeusedfortimeseriesdataclassification.
Asynchronousclassificationisubiquitous,butthereisstillalackofin-depthexplorationforthiskindofclassificationproblems.
Inthispaper,wecombinetimeseriesprepro-cessing,thetimingconversionofvariables,thedislocationtransformationofvariables,classifierstructurelearningbasedonvariableorderandsearch&scoringmethod,missingdatarestorationforclassvariable,thecriteriafortimingprogressiveclassificationaccuracytobuildanasynchronousdynamicBayesiannetworkclassifier.
Thisclassifiercaneffectivelyutilizethetime-delay,non-time-delayandmixedclassificationinformationcontainedinmultivariatetimeseriesdata,aswellasthetransitivedependency,directinductiondependencyandindirectinductiondependencyinformationtodoclassificationcalculation.
Itcanimplementtheclassificationpredictionforshort-,medium-andlong-terminactualdemand.
OurresearchcontentisanimportantpartoftheNationalNaturalScienceFoundation(No.
61672065)andtheNationalSocialScienceFoundation(No.
18BTJ020).
Ourfurtherworkistorevealtherelationshipandrestrictionmechanismofmultivariatetimeseriesbyexploringtheproblemofhigh-orderclassification,andtoextendittotheasynchronousdynamicBayesiannetworkregressionmodel.

raksmart:香港机房服务器实测评数据分享,告诉你raksmart服务器怎么样

raksmart作为一家老牌美国机房总是被很多人问到raksmart香港服务器怎么样、raksmart好不好?其实,这也好理解。香港服务器离大陆最近、理论上是不需要备案的服务器里面速度最快的,被过多关注也就在情理之中了。本着为大家趟雷就是本站的光荣这一理念,拿了一台raksmart的香港独立服务器,简单做个测评,分享下实测的数据,仅供参考!官方网站:https://www.raksmart.com...

Letbox(35美元/年),美国洛杉矶VPS终身7折

Letbox 云服务商在前面的文章中其实也有多次介绍,这个服务商其实也算是比较老牌的海外服务商,几年前我也一直有使用过他们家的VPS主机,早年那时候低至年付15-35美元左右的VPS算式比较稀缺的。后来由于服务商确实比较多,而且也没有太多的网站需要用到,所以就没有续费,最近这个服务商好像有点活动就躁动的发布希望引起他人注意。这不有看到所谓的家中有喜事,应该是团队中有生宝宝了,所以也有借此来发布一些...

Hosteons - 限时洛杉矶/达拉斯/纽约 免费升级至10G带宽 低至年$21

Hosteons,一家海外主机商成立于2018年,在之前还没有介绍和接触这个主机商,今天是有在LEB上看到有官方发送的活动主要是针对LEB的用户提供的洛杉矶、达拉斯和纽约三个机房的方案,最低年付21美元,其特点主要在于可以从1G带宽升级至10G,而且是免费的,是不是很吸引人?本来这次活动是仅仅在LEB留言提交账单ID才可以,这个感觉有点麻烦。不过看到老龚同学有拿到识别优惠码,于是就一并来分享给有需...

贪婪bt为你推荐
百度k站百度是怎么样k站的呢?windows优化大师怎么用如何用Windows优化大师??深圳公交车路线深圳公交线路金山杀毒怎么样金山杀毒好吗arm开发板开发板是什么?如ARM开发板,DSP开发板等。。它和最终目标板有何区别?苹果5怎么越狱苹果5怎么越狱?网易公开课怎么下载如何将网易公开课下载到电脑上?开机滚动条电脑开机有滚动条的画面保护气球抖音里面看的,这是什么游戏网管工具做技术网管需要哪些工具?具体做些什么?
火山主机 suspended win8.1企业版升级win10 xen web服务器架设软件 新天域互联 香港新世界中心 789电视剧 银盘服务 512mb 789 云服务器比较 ledlamp web服务器 asp介绍 低价 泥瓦工 kosskeb4 上海服务器托管 更多