主题cnnchina

cnnchina  时间:2021-04-18  阅读:()
总第275期2016年第10期通讯作者:徐月梅,ORCID:0000-0002-0223-7146,E-mail:xuyuemei@bfsu.
edu.
cn.
*本文系国家社会科学基金重大委托项目"语言大数据挖掘与文化价值发现"(项目编号:14@ZH036)、北京市社会科学基金研究基地项目"北京对外文化传播过程中'两微一端'影响力比较研究"(项目编号:15JDZHC011)和中央高校基本科研业务费专项资金资助项目"对外传播过程中互联网用户行为特征和影响力研究"(项目编号:023600-500110002)的研究成果之一.
XIANDAITUSHUQINGBAOJISHU59基于流形学习的新闻主题关系构建和演化研究*徐月梅1李杨2,3梁野1蔡连侨11(北京外国语大学计算机系北京100089)2(中国科学院信息工程研究所北京100093)3(中国科学院大学北京100049)摘要:【目的】通过对以互联网为媒介的新闻报道的主题演化研究,分析新闻主题的产生、发展和演变过程,把握媒体舆论方向.
【方法】引入流形学习构建全局时间跨度的新闻主题关联关系,挖掘由LDA主题模型识别得到的各个时间窗口的高维主题向量间的关系,在低维平面上实现主题聚类和相互关联的可视化,提出利用社会网络理论指标分析主题的演化结果.
【结果】利用2015年美国有线电视新闻网对中国的新闻报道进行主题关系构建和演化,结果表明该方法能够发现主题在全局时间跨度的演化趋势.
【局限】时间窗口长度对主题演化的效果和可变时间窗口长度机制没有涉及.
【结论】新闻主题演化分析方法能够在低维可视平面上描绘主题在全局时间跨度的演化,避免主题由于相邻时间窗口关联失效而导致全局演化路径的断裂.
关键词:潜在狄利克雷分配模型流形学习主题关联主题演化分类号:TP393G3541引言随着信息技术的发展,互联网已成为信息传播的重要渠道,被公认为是继报纸、广播、电视之后的"第四媒体"[1].
研究以互联网为媒介的西方主流媒体对中国的新闻报道,有助于了解西方媒体中的中国形象,把握国外舆论的发展方向.
新闻报道的主题演化是指新闻报道的主题内容与强度在研究过程中变化的现象,一般经历从提出、发展、衰亡到最后结束的过程.
例如天津塘沽大爆炸事件,美国主流媒体有线电视新闻网(CableNewsNetwork,CNN)2015年8月13号第一次进行报导,随后在14-21号每天都有相关新闻追踪,而27号是最后一次报导,意味着该事件主题的结束.
可见,随着时间的变化,西方媒体对中国的新闻报道主题也随着变迁,如何描述新闻主题的演变过程是目前研究的难点[2].
潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型[3]是模拟文档生成过程的主题模型,其参数空间的规模与文档数量无关,适合处理大规模语料,因此近年来成为主题演化研究的重要途径之一.
常见的思路是利用LDA模型获取不同时间段的主题及其关键词,将相邻时间窗口的主题根据关键词的近似程度采取阈值法[4]或最大相似度法[5]进行关联,再从相邻时间窗口建立的主题关联关系观察多个时间窗口的主题演变.
然而,基于相邻时间窗口的主题演化分析方法不能直接应用于新闻报道的主题演化,原因有两点.
首先,基于相邻时间窗口的主题演变关系建立容易因为chinaXiv:201711.
02029v1ChinaXiv合作期刊60现代图书情报技术研究论文某个相邻窗口的主题关联出错而导致整个主题链的演变失效.
例如,某个主题的演变经过时间窗口[t1,t2,t3,t4],但由于在[t2,t3]相邻时间窗口内该主题的关联出错(可能由于阈值设置过大或者相似度计算有误)使得该主题的全局演变过程断裂.
其次,新闻报道的主题具有突发性和时间间隔性,使得新闻主题的演化规律并不一定遵循相邻时间窗口跨度.
例如2015年6月CNN网站针对中国南海问题进行相关报道,在间隔7月、8月之后,9月和10月又有中国南海问题的相关报道,可见新闻报道主题的演化时间跨度具有不确定性.
针对上述两个问题,本文提出将流形学习(ManifoldLearning)[6]引入到新闻主题的关系构建和演化研究,定义新闻主题的演化关系并不局限于传统的相邻时间间隔的主题演化,而是从全局时间跨度分析两个主题的关联关系.
通过从整体上对各个时间窗口内的主题进行关联分析,以期获得主题在全局时间上的演变关系.
经过LDA模型抽取得到的主题表现为高维度的特征词向量,采用现有的相似度计算方法进行全局时间上的主题关联因为"高维数灾难"[7]而变得十分困难.
例如有5个时间窗口,每个时间窗口有10个主题,每个主题的向量维度为1000维,利用相似度方法进行全局时间上的主题关联需要7410时间复杂度(33(5-1)101010).
而流形学习技术可以挖掘高维主题向量之间隐藏的关联关系,找到高维空间中的低维流形,并求出主题在相应的低维空间的嵌入映射,实现维数约简和可视化,使得进一步利用社会网络分析相关指标分析主题演变规律变为可能.
本文的创新点与贡献总结如下:(1)借鉴图像处理和机器学习领域中的非线性降维思想,引入流形学习方法挖掘由LDA模型抽取得到的各个时间窗口的高维主题向量,一方面在低维平面上可视化高维主题向量间的关系,另一方面将非线性降维的结果与余弦相似度结合,重新定义低维平面上主题之间的距离,实现全局时间窗口的主题关联.
(2)高维主题向量经非线性降维后表现为一个小型的社会网络:主题表征为低维平面上的节点,节点的远近反映主题之间的距离,节点的边为主题的关联边.
因此利用社会网络理论的4种度量指标来分析主题的演化,识别主题演化过程中影响力大的主题、活跃的主题以及主题演化网络的整体属性等.
(3)以美国CNN网站对中国的相关新闻报道为例验证了所提方法的有效性和准确性.
2相关研究工作早期对主题演化的研究主要是将文档的时间信息引入到LDA模型或其变形模型中,并利用连续的时间信息指导文档集中主题的分布,如连续时间模型TOT[8]、动态主题模型DTM[9].
但该方法无法对新文档进行扩展,新文档加入后必须重新建模.
近年来对主题演化研究主要有两种思路:一种是先对整个文档集合运用LDA获取主题,再从时间上将主题划分为各个子集,分析主题在各个子集上的分布从而得到主题的演化规律[10].
另一种是先对整个文档集合按照时间信息离散到各个时间窗口,再利用LDA获取各个时间窗口内的主题,最后将相邻时间窗口的主题关联,得到主题演化过程[2,4-5,11].
这两种方法各有其局限性.
前一种方法依赖于时间粒度的选取,时间粒度的取值直接影响演化的准确性.
后一种方法中,相邻时间窗口的主题关联是分析主题演化的重要步骤,不同的关联方法将得到不同的演化结果.
例如,楚克明等[2]通过计算相邻时间段中任意两个主题的特征向量相似度实现主题关联度分析,该方法对阈值大小比较敏感并且阈值的确定需要较强的专业知识.
崔凯等[11]使用KullbackLeibler相对熵来计算主题的相似性从而建立关联,但得到的主题演化都是一对一的,与科学研究中主题的融合、交叉等现象不完全吻合.
此外,为了提高阈值法或相似度法的主题关联准确性,相关文献提出了特征词过滤[12]和主题关联过滤的方法[13].
由阈值法或相似度法建立主题关联后,定义过滤规则去除无效的关联来提高主题关联的准确性,但其效果的提高过度依赖于过滤规则的定义,过滤规则对于不同领域的主题不具有普适性.
总体而言,不管是先获取主题再从时间上划分子集分析主题演化,还是先划分时间窗口再获取主题从而得到主题演化,现有研究都是从相邻时间窗口构建主题的演化关系.
一方面容易因为相邻窗口内的主题关联出错使得全局演化过程断裂;另一方面新闻报道主题演化的时间跨度具有随机性,不一定遵循相邻时间窗口的跨度.
为了解决上述两个问题,本文从一个全新的角度,chinaXiv:201711.
02029v1ChinaXiv合作期刊总第275期2016年第10期XIANDAITUSHUQINGBAOJISHU61首次引入流形学习方法从全局时间跨度、而非相邻时间窗口跨度构建新闻的主题关系,并利用社会网络相关分析指标衡量主题演化的结果.
流形学习近年来被广泛应用在数据挖掘、机器学习、模式识别等领域,其作为解决非线性降维问题的方法,在挖掘高维数据集的固有特征分布和结构特点方面具有优势[6].
经过LDA抽取的主题表征为非线性、高维度的特征词向量,若采用现有的相似度计算方法将由于"高维数灾难"难以进行全局时间跨度的主题关联,而流形学习能够挖掘高维度主题向量之间蕴含的关联关系,将其映射到低维空间,使得全局时间跨度的新闻主题关系构建和主题演化分析变为可能.
3基于流形学习的新闻主题关系构建和演化分析3.
1基本思路本文提出的基于流形学习的新闻主题演化关系构建和演化方法的基本流程如图1所示:图1基于流形学习的新闻主题演化方法流程图(1)将时间序列划分为若干个长度固定的时间窗口,根据时间将文本划入到相应的时间窗口,利用LDA模型抽取每个时间窗口的主题,并将主题表示为高维特征词向量的形式.
(2)将得到的多个高维主题向量利用流形学习算法进行非线性降维,获得每个主题向量的低维度嵌入变量以及主题关联边.
(3)为主题关联边赋予权重,确定主题间的关联关系.
(4)利用社会网络指标分析主题关联关系,分析主题的演化特征.
(5)得到新闻主题演化结果.
3.
2新闻主题的定义和识别新闻报道的主题表现为媒体对某一特定事件及其chinaXiv:201711.
02029v1ChinaXiv合作期刊62现代图书情报技术研究论文所有相关事件的集合(简称主题).
给定D个新闻报道文本,用集合12DC{d,d,,d}表示.
V为所有文本不相同单词构成的词汇集合.
将主题定义为一组语义上相关的词及词语主题相关的权重的向量表示[13]:1122kk|V||V|T{(v,p),(v,p),,(v,p),,(v,p)}(1)其中,kvV是与主题T相关的词,kp是主题T在该词上的分布概率.
将时间序列划分为n个长度为L的时间窗口,依据时间将集合C中新闻报道划分到相应的时间窗口,tC表示时间窗口t的新闻报道集合.
采用LDA模型对tC,t[1,n]抽取主题.
LDA模型是一个三层贝叶斯文本主题生成模型,可以发现任何离散数据中潜在的主题结构.
其基本思想是:假设文档由若干个潜在主题的混合组成,而每个主题由若干个词的分布刻画.
LDA设立参数作为文本集合的主题先验超参数,为主题集合的词汇先验超参数,使得每篇文本服从参数为的Dirichlet分布,每个主题服从参数为的Dirichlet分布.
给定文本集合,根据Gibbs采样[14]计算出文本–主题概率分布θ和主题–词分布φ如下:(i)mmi|S|(j)mj1nm[1,D],i[1,|S|]n|S|(2)(k)iik|V|(j)ij1ni[1,|S|],k[1,|V|]n|V|(3)其中,mi为文本md属于主题iT的概率,(i)mn表示文本md中赋予主题iT的词的总数.
ik为主题iT出现单词kv的概率,(k)in表示词kv被赋予主题iT的总次数.
S为LDA抽取的主题集合.
结合公式(1)的定义和LDA模型,笔者将时间窗口t内文档集合tC的主题表示为:ti1ti12ti2ktik|V|ti|V|T{(v,),(v,),,(v,),,(v,)}(4)其中,t1iS≤≤,tS为时间窗口t内的主题数目,tiT的向量维度为|V|维.
kvV,tik由LDA模型计算得到,为主题tiT出现单词kv的概率.
每个时间窗口内的新闻报道数不同,相应的主题数也随之动态变化.
tS的最佳值采用统计语言模型中常用的评价标准——困惑度(Perplexity)[15]进行选取,计算如下:tt|C|mm1t|C|mm1lnP(d)Perplexity(C)exp{}N(5)其中,mN表示第m篇新闻报道的长度,mP(d)表示模型产生第m篇新闻报道的概率.
困惑度的值越小,性能越好.
在其他参数确定的情况下,通过对tS取不同值进行困惑度的计算和分析,选取得到最优主题数目的tS值.
对n个时间窗口分别抽取主题,笔者将总的主题集合TopicSet以及总主题数S定义为:1112t1,t2n1n2TopicSet(T,T;;TT;T,T)(6)ntt1SS(7)3.
3基于流形学习的主题演化关系构建主题演化反映了主题变化的过程,主题的演化在时间上存在延续性.
对n个时间窗口的文本经LDA识别,得到的主题表现为S个|V|维的特征词向量,当|V|较大时使得挖掘主题间的演化关系变得困难.
本文利用流形学习对高维度的主题向量进行降维,并构建主题演化关系.
流形学习是一种非线性降维方法,可用于处理高维数据,通过对高维空间的特征数据学习以获得低维的隐变量模型,即找到高维空间中的低维流形,以实现维数约简和可视化.
图2展示了高维流形与低维映射的关系,在三维空间中的"瑞士蛋卷"数据分布模型,经过降维后在二维平面上显示各个数据点的关系[16].
图2高维流形向低维空间的映射流形学习的典型实现方法包括等距特征映射(IsometricFeatureMapping,ISOMAP)[17]和局部线性嵌入(LocallyLinearEmbedding,LLE)[18]等.
本文采用chinaXiv:201711.
02029v1ChinaXiv合作期刊总第275期2016年第10期XIANDAITUSHUQINGBAOJISHU63ISOMAP算法,该算法主要思想是利用局部邻域的欧氏距离近似计算数据点之间的全局流形测地线距离,通过建立原数据之间的测地线距离与降维数据间的空间距离的对等关系从而实现降维.
ISOMAP在降维过程中通过计算点与点之间的测地距离,并采用多维标度法(Multi-DimensionalScaling,MDS)[17]来获取全局最优的几何结构,从而准确发现数据流形潜在的参数空间.
为了得到高维主题向量tiT的特征,需要在欧式空间dR找到一个低维度区域tiY反映|V|tiTR的特征,通常d|V|.
笔者将主题tiT在欧式空间dR的低维度嵌入变量tiY定义为:dtititititiY{y(1),y(2),,y(d)}|YR(8)其中,d是tiY的维度.
算法1将上述S个|V|维(|V|1)的主题向量集合TopicSet进行基于ISOMAP的高维主题向量降维.
取维度空间d为2,笔者将TopicSet在二维平面的嵌入变量定义为:1112t1t2n1n2(Y,Y;;Y,Y;Y,Y)(9)其中,tiY为tiT的低维嵌入变量,可在二维平面显示,有利于直接观察主题之间的演化关系.
算法1基于ISOMAP的高维主题降维算法输入:TopicSet;输出:每个主题向量Tti的低维度嵌入变量Yti和Yti的邻域图邻接矩阵E;执行:①建立每个主题Tti的邻域图.
根据主题向量之间的距离,确定主题集合中哪些主题为邻居主题.
计算所有主题之间的欧氏距离Td(i,j),确定每个主题的K个最近主题,K为可输入变量.
这些主题的邻居关系被描述在一个覆盖采样点的带权图G中,主题之间的关系以链路权重Td(i,j)表示.
②计算图G中主题之间的测地线距离.
根据步骤①确定的图G和两两主题之间的链路权重Td(i,j),计算所有主题之间的最短路径Gd(i,j),并以此来估算流形内所有主题之间的测地线距离.
③构建低维度的嵌入变量Yti和Yti的邻域图邻接矩阵E.
对于步骤②得到的所有主题之间的最短路径距离矩阵GGD{d(i,j)},应用多维标度法进行降维,创建位于d-维欧氏空间内的低维嵌入变量Yti和Yti的邻域图邻接矩阵E.
降维后得到每个主题的低维度嵌入变量tiY和低维度嵌入变量的邻接矩阵E.
其中,tititiY(x,y),tix和tiy为主题tiY在二维平面的横坐标和纵坐标值,E为0-1矩阵.
每个主题tiT表征为二维平面上的一个点,节点在二维平面上的分布由高维主题向量的测地线距离决定,反映了主题之间的相似程度.
节点越密集表示具有演化关系的相似主题越多,反之则越少.
为了建立全局时间跨度的主题关联,笔者基于余弦相似度[19],在二维平面上重新定义任意两个时间窗口内的主题距离为:ti(tk)jti(tk)jti(tk)jti(tk)j2222titi(tk)j(tk)jti(tk)jSim(Y,Y)xxyyE(I,I)1xyxy0E(I,I)0(10)其中,tiY和(tk)jY分别为时间窗口t和tk内的主题低维度嵌入变量,ttkiS,jS,t[1,n1],k1≥.
ti(tk)jE(I,I)1表示主题向量tiY和(tk)jY在低维嵌入平面上有关联边,反之则表示主题向量tiY和(tk)jY关联程度低,将其相似度赋值为0.
3.
4社会网络指标的主题演化分析一个社会网络由多个点和各点之间的连线组成,"点"是各个社会行动者,"边"是行动者之间的各种社会关系.
高维的主题特征向量经过ISOMAP降维表现为一个小型的社会网络:由主题节点之间的相互作用关系形成的二维平面图.
其中,二维平面上节点之间的距离表征主题之间的关系和相互作用程度.
因此,可借鉴社会网络理论的4种度量指标[20]来分析主题的演化,识别演化过程中影响力大的主题、活跃主题和主题演化网络的整体属性等:(1)度(Degree),以连接到节点的边的数目作为度量节点重要性的依据.
在有向图中,节点的度包括点入度和点出度.
在主题构成的有向图中,如果一个主题拥有更高的度数值,则该主题与很多其他主题存在演变关系.
其中,入度值越高,则在演变过程中有越多主题指向到该主题;出度值越高,则该主题有越多延续主题.
度数仅仅描述主题所产生的局部影响力,无法反映主题的全局演变情况.
(2)介数中心度(BetweenessCentrality),以网络中经过该节点的所有点与点的最短路径的数目作为度量依据.
介数中心度反映节点的信息交互能力,可用来衡量一个主题作为媒介者的能力,即占据在其他两个主题演变路径之间的交互能力.
在主题的演变分析中,chinaXiv:201711.
02029v1ChinaXiv合作期刊64现代图书情报技术研究论文通过介数中心度,可以确定比较活跃的主题.
(3)密度(Density),是一个网络图中实际存在的边数与可能存在的最多边数的比值,一般用来衡量网络图的全局凝聚力水平.
在主题构成的网络图中,密度越大则主题的演变关系越复杂,演化关系越多;密度越小则主题的演变关系越简单,演化关系越少.
(4)直径(Diameter),将网络中最长测地线的长度作为度量依据,测地线是给定两点之间最短的路径.
在主题演变图中,存在多条测地线,而直径表征主题演变关系上最长的演变距离跳数.
4实验为了验证基于流形学习的新闻主题关系构建和演化分析方法的有效性,实验基于GooSeeker数据爬取平台[21]从CNN网站抓取了2015年与中国相关的新闻报道作为文本集,共464篇新闻报道.
对文本集的每一篇文档进行数据预处理,包括分词、剔除停用词、词形还原、词干提取、提取关键词等.
将时间序列划分为12个长度为1个月的时间窗口,根据新闻的报导时间将其划入到相应的窗口.
表1列举了各时间窗口的新闻报道数以及利用公式(5)确定各个时间窗口的最优主题数.
表1数据集各时间窗口所含新闻报道数和最优主题数新闻报道集文档数最优主题数2015年1月2752015年2月1652015年3月2142015年4月2562015年5月4152015年6月3862015年7月7172015年8月7262015年9月6662015年10月2462015年11月3452015年12月295总计464664.
1主题识别结果利用LDA模型抽取每个时间窗口的主题,设置两个超参数为50/L,0.
01[3].
选取每个主题中分布概率Top20的单词作为主题内容的特征词.
表2列举了抽取的部分主题(并给出了人工总结后的主题内容)及其特征词(仅列举前10个).
表22015年CNN与中国相关的部分主题主题主题内容主题特征词(前10个)T53南海军事sea,south,island,military,navy,aircraft,flight,state,surveillance,warnT64南海袭击government,attack,state,sea,island,official,hack,federal,information,southT104南海领土island,sea,operation,reef,south,water,freedom,beijing,dispute,territorialT114习近平与马英九会面taiwan,ma,xi,meeting,beijing,president,relation,state,Singapore,mainlandT23希腊经济Greece,bank,currency,russia,internet,growth,financial,government,economist,moneyT31柴静空气污染state,video,chai,government,xi,president,air,pollution,authority,documentaryT42市场股票state,investor,government,market,stock,growth,global,charge,unite,economicT71股票崩盘market,stock,economy,share,shanghai,financial,investor,trade,government,crash从表2可看出:LDA模型能够识别每个时间窗口内的新闻报道主题,主题的类别包括军事(T53、T64、T104)、政治(T114)、经济(T23、T42、T71)和社会民生(T31)等方面.
各主题中分布概率较高的主题特征词能够涵盖该主题的内容.
以5月份的第3个主题为例(T53),该主题与中国南海军事主权有关,Top10的特征词为:sea(海洋),south(南方),island(岛屿),military(军事),navy(海军),aircraft(航空器),flight(飞行),state(声明),surveillance(监督),warn(警告).
4.
2基于ISOMAP流形学习的主题关联结果根据3.
3节中叙述的方法,进行基于ISOMAP流形学习的主题关联分析.
每个主题选取分布概率最高的Top20特征词,64个主题得到不重复的特征词表包括657个特征词.
因此,每个主题表示为657维的特征词向量.
基于算法1的流形学习步骤,将64个657维的主题向量映射在二维平面上.
图3为64个主题的chinaXiv:201711.
02029v1ChinaXiv合作期刊总第275期2016年第10期XIANDAITUSHUQINGBAOJISHU65ISOMAP嵌入变量输出,每一个点代表一个主题,每一条边为ISOMAP构建的主题邻域图中主题间的连接边.
图3高维主题向量的二维ISOMAP嵌入变量输出和关联通过分析发现主题在二维平面上的位置与该主题的特征词和内容相关.
主题在二维平面上被聚类为6大类,分别为:黄色(军事)、青色(政治)、橘色(经济)、红色(科技)、蓝色(家庭/孩子)和绿色(生活).
例如,黄色节点标识的军事类主题,主要与南海领土问题、新疆恐怖主义、藏独、抗日战争胜利70周年大阅兵新闻报道相关;青色节点标识的政治类主题,主要与习主席与彭丽媛夫人出访、李克强总理访问、习主席与奥巴马总统会面、习主席访美等相关;橘色节点标识的经济类主题,主要与市场投资、中国股市泡沫、希腊债务相关;红色标识的社会科技类主题,主要与谷歌和小米等互联网公司、工业污染、波音飞机相关;蓝色节点标识的家庭/孩子类主题,主要与中国计划生育政策、二孩放开、孩子教育、张国立儿子吸毒等事件相关;绿色节点标识的生活类主题,与空气污染、柴静《穹顶之下》视频、优衣库试衣间视频等2015年引起媒体广泛讨论的民生事件相关.
还有一些节点用灰色标注,这些节点较为分散,与上述6大节点簇距离较远.
可见,基于ISOMAP的非线性降维算法能够在低维嵌入平面正确表示主题之间的关联和相互作用关系;能够挖掘隐藏在高维向量间的规律、对相似的主题进行无监督学习聚类.
即:基于ISOMAP的非线性降维算法对主题的聚类个数决定于主题向量之间的测地线距离,不需要根据先验知识事先确定,优于现有的依赖于算法初始值(如聚类个数和节点位置等)的聚类算法(如K-means[22]).
4.
3主题演化结果分析基于3.
4节的方法,利用社会网络理论的度数(包括出度数和入度数)、介数中心度、密度和直径指标分析由ISOMAP算法得到的二维平面主题关联图.
首先根据公式(10)为图3的每条边赋予权重,借鉴文献[4]的方法过滤权重值小于阈值的边(取阈值为0.
9),并利用Pajek软件[23]描绘主题之间的演化关系如图4所示.
其中,每一个节点代表一个主题,有线弧代表主题的演化方向.
如经济类主题T23和T42之间有一条弧,表示从T23演变到T42.
图42015年CNN对中国新闻报道的主题演化关系图chinaXiv:201711.
02029v1ChinaXiv合作期刊66现代图书情报技术研究论文节点和有向弧构成了主题的演化路径,例如从图4的经济类主题中抽取一条路径为(T23,T42,T63,T71),其Top3主题特征词分别为T23(希腊、银行、债务)、T42(投资、市场、增长)、T63(市场、股票、投资)和T71(股票、经济危机、泡沫).
该路径的演变过程为:CNN在2015年2月份对经济类主题的报道与中国和俄罗斯是否干预希腊债务有关,3月份没有对经济类主题的报道,4月、6月和7月的经济类主题都与中国股票市场相关.
由此可见,新闻主题的演变并不一定遵循相邻时间窗口的跨度,如T23和T42之间、T42和T63之间.
注意到5月份有涉及经济类主题的报道(T52),但并不在(T23,T42,T63,T71)演化路径中,而是在另一个经济类主题的演化分支(T23,T52)上,这是因为T52除了涉及少量的中国股票市场泡沫的相关报道,主要涉及中俄经济、中国百万富翁增长等相关报道(参见表3列举的5月份CNN对中国经济所有相关报道的新闻标题).
若采用在相邻时间段中计算任意两个主题的特征向量相似度的方法,将会导致T42和T63之间关联出错,使得演化路径(T23,T42,T63,T71)断裂.
根据图4的主题演化图计算每个主题的度数.
表4为度数值最高和最低的4个主题.
可以看出,度数值最高的4个主题是T42、T64、T91、T123,主题的内容(见表4加黑标注的关键词)分别为股票增长/泡沫、南海军事安全、南海恐怖主义袭击、南海防御;这些主题在主题演化关系中局部影响力较高.
而T12、T95、T51和T62为度数值最低(等于0)的4个主题,此外还有T74、T13由于篇幅关系不一一列举.
这些主题表现为孤立主题,大多为主题含义不明确(如T12和T95)或某个事件的突发报道(如T51,神州飞船发射).
表32015年5月CNN与中国经济相关的所有新闻标题新闻内容时间新闻标题中俄经济5月4号RussiaandChinahavehadenoughofwesternbanking.
中俄经济5月11号Chinaisn'tRussia'sanswertocrisiswiththeWest.
中国央行5月19号China'scentralbankisjustgettingstarted.
中国首富5月21号China'srichestmanlost$15billioninonehour.
中国首富5月22号China'srichestmanbethiscompany'sshareswouldfall.
中国百万富翁5月27号Chinahasmorethan1millionmillionaires.
中国经济泡沫5月31号Thenextbigbubble:Bonds,startups,China表4度数值最高和最低的4个主题主题关键词(Top20)入度出度度数T42state,investor,government,market,stock,growth,power,global,charge,unite,economic,trade,company,washington,suspect,bubble,bank,money,president,department9110T64government,attack,state,sea,island,official,hack,federal,information,south,unite,security,office,freedom,law,target,cybersecurity,military,personnel,international639T91sea,official,obama,issue,island,cyber,visit,south,military,xi,state,dispute,espionage,beijing,step,attack,tension,security,unite,territorial336T123state,statement,unite,military,pu,island,defense,complain,sea,job,freedom,south,economic,dispute,death,rule,criticize,fly,flight,post066T12musical,price,market,sun,sell,child,san,bao,baby,family,father,boy,bin,son,broadway,xiaomi,industry,police,production,man000T95panda,police,clip,bomb,glass,suspect,sprout,bridge,stock,sell,giant,trend,man,wednesday,kill,xinhua,money,thai,attack,Thursday000T51space,mission,shenzhou,astronaut,yang,kung,fu,opportunity,crewed,star,fei,wang,station,launch,man,war,center,return,zhang,nie000T62ship,yangtze,eastern,river,sink,star,cruise,state,capsize,rescue,water,passenger,june,authority,body,storm,board,tornado,monday,survivor000(注:加黑标注的关键词能够清楚地反映主题的含义,因此重点标出.
)对于图4的主题演化图,计算每个主题的介数中心度.
表5按照从高到低的顺序列举了介数中心度不为0的主题及其人工总结的主题内容.
主题的介数中心度值越大,则在主题演化和关联关系中越活跃,媒介能力越强.
可以看出,最活跃的主题为南海军事主题,其次为经济主题.
而7月的优衣库主题(T72)、9月chinaXiv:201711.
02029v1ChinaXiv合作期刊总第275期2016年第10期XIANDAITUSHUQINGBAOJISHU67的纪念抗日战争胜利70周年的阅兵主题(T93)、9月习主席出访美国华盛顿白宫主题(T96)、中国放开二孩政策主题(T32、T86)和污染问题(T21)都是2015年度受到广泛关注、引起媒体热议的主题.
由此可见,通过介数中心度指标能够找到主题演化关系中的活跃主题.
表5介数中心度值不为0的主题主题介数中心度主题内容T640.
00461袭击南海安全T910.
00307南海争议T420.
00282投资市场增长T550.
00205印度交易穆迪T930.
00179北京阅兵战争习主席军事T960.
00166习近平美国奥巴马华盛顿白宫T720.
00154优衣库性视频T610.
00154运动伦敦英国足球间谍亚洲T820.
00090美国习主席奥巴马货币贬值T1020.
00034艺术建筑师比赛网球联赛T210.
00026工业污染T1050.
00026小米手机市场科技非洲T1130.
00026北京温度冷北韩烟雾零度以下T840.
00026弹道导弹军事检阅军官防御T320.
00021孩子政策人口数量T860.
00021孩子家庭父母政策T850.
00013市场股票台湾经济增长金融风暴T710.
00013市场股票经济危机对于图4的主题演化图,计算其网络拓扑图的密度为0.
02197266.
密度值较小,网络的演变关系较为简单,与实际情况相符.
图5描绘了图4的主题演化图中最长的主题演化路径,长度为5,为(T34/T45/T53,T64,T81,T91,T93,T114).
这条路径描绘了2015年CNN媒体对我国军事和政治主题报道的演化过程,从3月、4月份的徐才厚、周永康事件,到5月、6月份的南海事件,到8月份中美讨论网络安全事件,再到9月份的纪念抗日战争胜利70周年阅兵事件,最后到12月份习主席和马英九在新加坡会面事件.
综合上述分析可得,实验结果与实际情况较为相符,可见基于流形学习的主题关系构建和演化分析方法能够在全局时间跨度建立主题的关联关系,挖掘主题关联关系间隐藏的规律并表征主题演化关系.
该方法一方面克服高维主题特征向量之间的相似度计算带来的维数灾难问题,能够在低维平面输出主题的关联关系图,实现无监督的主题聚类和关联;另一方面避免了相邻时间窗口的主题关联失效而导致的全局主题演化链断裂,实验结果也表明新闻报道的演化并不遵循传统主题演化研究设定的相邻时间窗口跨度,而是具有不确定性和突发性;最后,基于社会网络相关指标能够较好地对新闻报道的主题演化结果进行分析和评价,找到主题演化过程中局部影响力较高的、较为活跃的主题.
图5最长距离的主题演化路径示意图5结语本文提出一种基于流形学习的新闻主题关系构建和演化研究方法,利用流形学习在全局时间窗口对新闻领域的主题演化进行探索,通过对高维主题向量进行非线性降维并在低维空间重新定义话题间的距离以实现话题的关联,并借鉴社会网络理论的度数、介数中心度、密度和直径指标分析主题的演化结果.
以2015年美国CNN网站对中国相关的新闻报道为例对该方法的有效性进行验证,得出以下结论:非线性降维处理能够在低维嵌入平面正确表示主题之间的关联,并且能够挖掘隐藏在高维向量间的规律、实现对高维主题向量的约简和可视化;通过社会网络的度数和介数中心度指标能够找到话题演化关系中局部chinaXiv:201711.
02029v1ChinaXiv合作期刊68现代图书情报技术研究论文影响力较大和较活跃的话题,通过密度和直径指标描绘整体的话题演化关系,并得到每一条主题演化路径.
下一步工作是研究不同时间窗口长度对主题演化结果的影响以及基于可变时间窗口的主题演化分析.
参考文献:[1]SamovarLA,PorterRE,McDanielER,etal.
CommunicationBetweenCultures[M].
Wadsworth,2015.
[2]楚克明,李芳.
基于LDA模型的新闻主题的演化[J].
计算机应用与软件,20l1,28(4):4-7,26.
(ChuKeming,LiFang.
LDAModel-basedNewsTopicEvolution[J].
ComputerApplicationsandSoftware,2011,28(4):4-7,26.
)[3]BleiDM,NgAY,JordanMI.
LatentDirichletAllocation[J].
TheJournalofMachineLearningResearch,2003,3:993-1022.
[4]楚克明.
基于LDA的新闻话题演化研究[D].
上海:上海交通大学,2010.
(ChuKeming.
TheReaearchonTopicEvolutionforNewsBasedonLDAModel[D].
Shanghai:ShanghaiJiaotongUniversity,2010.
)[5]胡艳丽,白亮,张维明.
一种话题演化建模与分析方法[J].
自动化学报,2012,38(10):1690-1697.
(HuYanli,BaiLiang,ZhangWeiming.
ModelingandAnalyzingTopicEvolution[J].
ActaAutomaticSinica,2012,38(10):l690-1697.
)[6]SeungHS,LeeDD.
Cognition-TheManifoldWaysofPerception[J].
Science,2000,290(5500):2268-2269.
[7]DonohoDL.
High-DimensionalDataAnalysis:TheCursesandBlessingsofDimensionality[C].
In:ProceedingsofInternationalConferenceofMathematicians,Paris,France.
2000:6-11.
[8]WangX,McCallumA.
TopicsoverTime:ANon-MarkovContinuous-TimeModelofTopicalTrends[C].
In:Proceedingsofthe12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.
2006:424-433.
[9]BleiDM,LaffertyJD.
DynamicTopicModels[C].
In:Proceedingsofthe23rdInternationalConferenceonMachineLearning.
2006:113-120.
[10]HallD,JurafskyD,ManningCD.
StudyingtheHistoryofIdeasUsingTopicModels[C].
In:ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.
2008:363-371.
[11]崔凯,周斌,贾焰,等.
一种基于LDA的在线主题演化挖掘模型[J].
计算机科学,2010,37(11):156-159,193.
(CuiKai,ZhouBin,JiaYan,etal.
LDA-basedModelforOnlineTopicEvolutionMining[J].
ComputerScience,2010,37(11):156-159,193.
)[12]李保利,杨星.
基于LDA模型和话题过滤的研究主题演化分析[J].
小型微型计算机系统,2012,33(12):2738-2743.
(LiBaoli,YangXing.
AnalyzingResearchTopicEvolutionwithLDAandTopicFiltering[J].
JournalofChineseComputerSystems,2012,33(12):2738-2743.
)[13]秦晓慧,乐小虬.
基于LDA主题关联过滤的领域主题演化研究[J].
现代图书情报技术,2015(3):18-25.
(QinXiaohui,LeXiaoqiu.
TopicEvolutionResearchonaCertainFieldBasedonLDATopicAssociationFilter[J].
NewTechnologyofLibraryandInformationService,2015(3):18-25.
)[14]GriffithsTL,SteyversM.
FindingScientificTopics[J].
ProceedingsoftheNationalAcademySciencesoftheUnitedStatesofAmerica,2004,101(1):5228-5235.
[15]CaoJ,XiaT,LiJ.
ADensity-basedMethodforAdaptiveLDAModelSelection[J].
Neurocomputing,2009,72(7-9):1775-1781.
[16]LawMHC,JainAK.
IncrementalNonlinearDimensionalityReductionbyManifoldLearning[J].
IEEETransactionsonPatternAnalysisandMachineIntelligence,2006,28(3):377-391.
[17]TenenbaumJB,DeSilvaV,LangfordJC.
AGlobalGeometricFrameworkforNonlinearDimensionalityReduction[J].
Science,2000,290(5500):2319-2323.
[18]RoweisST,SaulLK.
NonlinearDimensionalityReductionbyLocallyLinearEmbedding[J].
Science,2000,290(5500):2323-2326.
[19]ManingCD,SchützeH,RaghavanP.
信息检索导论[M].
王斌译.
北京:人民邮电出版社,2011.
(ManningCD,SchützeH,RaghavanP.
IntroductiontoInformationRetrieval[M].
TranslatedbyWangBin.
Beijing:Post&TelecomPress,2011.
)[20]CostaL,DaF,RodriguesFA,etal.
CharacterizationofComplexNetworks:ASurveyofMeasurements[J].
AdvancesinPhysics,2007,56(1):167-242.
[21]GooSeeker[EB/OL].
http://www.
gooseeker.
com.
[22]HartiganJA,WongMA.
AlgorithmAS:AK-meansClusteringAlgorithm[J].
JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),1979,28(1):100-108.
[23]Pajek:AnalysisandVisualizationofLargeNetworks[EB/OL].
http://mrvar.
fdv.
uni-lj.
si/pajek/.
作者贡献声明:徐月梅:提出研究思路,设计研究方案,撰写论文;李杨:设计研究方案,全文修改定稿;chinaXiv:201711.
02029v1ChinaXiv合作期刊总第275期2016年第10期XIANDAITUSHUQINGBAOJISHU69梁野:采集、清洗和分析数据;蔡连侨:提出部分修改意见.
利益冲突声明:所有作者声明不存在利益冲突关系.
支撑数据:支撑数据由作者自存储,E-mail:xuyuemei@bfsu.
edu.
cn.
[1]徐月梅,李杨,梁野,蔡连侨.
ISOMAP.
mat.
ISOMAP主题降维算法Matlab程序.
[2]徐月梅,李杨,梁野,蔡连侨.
Cnn_China_2015.
xlsx.
2015年美国有线电视新闻网与中国相关的新闻.
[3]徐月梅,李杨,梁野,蔡连侨.
data.
txt.
预处理后的数据集.
[4]徐月梅,李杨,梁野,蔡连侨.
LDA.
mat.
LDA主题抽取算法的Matlab程序.
[5]徐月梅,李杨,梁野,蔡连侨.
LDAresult.
xlsx.
LDA抽取得到的主题和主题关键词.
[6]徐月梅,李杨,梁野,蔡连侨.
modelresult.
xlsx.
主题降维后各主题在低维平面的坐标和关联边.
[7]徐月梅,李杨,梁野,蔡连侨.
Similar.
mat.
低维平面关联边的权重计算算法.
[8]徐月梅,李杨,梁野,蔡连侨.
Pajekinput.
net.
Pajek软件生成主题演化图的数据.
收稿日期:2016-05-13收修改稿日期:2016-08-23AnalyzingEvolutionofNewsTopicswithManifoldLearningXuYuemei1LiYang2,3LiangYe1CaiLianqiao11(DepartmentofComputerScience,BeijingForeignStudiesUniversity,Beijing100089,China)(InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093,China)3(UniversityofChineseAcademyofSciences,Beijing100049,China)Abstract:[Objective]Thisstudyaimstoexaminethecreationanddevelopmentofonlinenewstopics,andthentogaugethepublicopinion.
[Methods]First,weintroducedthemanifoldlearningtechnologytoanalyzethenewstopics.
Second,weexploredtherelationsamongthehighdimensionaltopicsfromeachtimewindow,whichwereidentifiedbytheLDAmodel.
Third,weclusteredthesetopicsandvisualizedtherelationsamongtheminthelow-dimensionalspace.
Finally,weanalyzedthetopicevolutionwiththehelpofsocialnetworktheorem.
[Results]TheproposedmethodcouldeffectivelyidentifythetopicevolutiontrendsofnewsreportsonChinafromCNNin2015.
[Limitations]Wedidnotfullyexploretheimpactsoftimewindows.
[Conclusions]Thisstudyprovidesanewmethodtovisualizetheevolutionofnewsreporttopicsoveraperiodoftime,whichavoidsinaccuratedescriptionduetothechangingofadjacenttimewindows.
Keywords:LatentDirichletAllocationManifoldlearningTopicrelevanceTopicevolutionchinaXiv:201711.
02029v1ChinaXiv合作期刊

VoLLcloud6折限量,香港CMI云服务器三网直连-200M带宽

vollcloud LLC首次推出6折促销,本次促销福利主要感恩与回馈广大用户对于我们的信任与支持,我们将继续稳步前行,为广大用户们提供更好的产品和服务,另外,本次促销码共限制使用30个,个人不限购,用完活动结束,同时所有vps产品支持3日内无条件退款和提供免费试用。需要了解更多产品可前往官网查看!vollcloud优惠码:VoLLcloud终生6折促销码:Y5C0V7R0YW商品名称CPU内存S...

iWebFusion:独立服务器月付57美元起/5个机房可选,10Gbps服务器月付149美元起

iWebFusion(iWFHosting)在部落分享过很多次了,这是成立于2001年的老牌国外主机商H4Y旗下站点,提供的产品包括虚拟主机、VPS和独立服务器租用等等,其中VPS主机基于KVM架构,数据中心可选美国洛杉矶、北卡、本德、蒙蒂塞洛等。商家独立服务器可选5个不同机房,最低每月57美元起,而大流量10Gbps带宽服务器也仅149美元起。首先我们分享几款常规服务器配置信息,以下机器可选择5...

Virmach($7.2/年)特价机器发放

在八月份的时候有分享到 Virmach 暑期的促销活动有低至年付12美元的便宜VPS主机,这不开学季商家又发布五款年付VPS主机方案,而且是有可以选择七个数据中心。如果我们有需要低价年付便宜VPS主机的可以选择,且最低年付7.2美元(这款目前已经缺货)。这里需要注意的,这次发布的几款便宜年付方案,会在2021年9月30日或者2022年4月39日,分两个时间段会将INTEL CPU迁移至AMD CP...

cnnchina为你推荐
企业邮局系统为什么企业需要企业邮箱系统 ?access数据库修复编程怎样实现access中对数据库的修复功能。本公司www泉州商标注册泉州注册一个商标具体要怎么弄?具体流程是什么?即时通EC营销即时通是什么?做什么的?网站方案设计求一篇校园网络设计的方案工具条有什么工具条比较好powerbydedecms如何去掉dedecms自带广告以及Power by dedecms联系我们代码如何查询统一社会信用代码headersalreadysentPHP中session_start的意思是什么
万网域名查询 江西服务器租用 大硬盘 香港加速器 流媒体服务器 外国域名 360抢票助手 patcha 免费个人博客 美国php空间 免费ddos防火墙 韩国网名大全 ibox官网 毫秒英文 域名评估 速度云 购买国外空间 华为云盘 跟踪路由命令 镇江高防 更多