收稿日期:2020-09-21摇摇摇摇摇摇修回日期:2020-11-08

美国新冠肺炎确诊超84万例时间:2021-04-28 阅读:()

基金项目:国家社会科学基金一般项目"大数据环境下面向图书馆资源的跨媒体知识服务研究冶(编号:19BTQ012).
作者简介:刘忠宝(ORCID:0000-0002-0038-2462),男,1981年生,博士,教授,博士生导师,研究方向:知识组织与知识服务;秦摇权(OR鄄CID:0000-0001-6335-8470),男,1998年生,硕士研究生,研究方向:智能信息处理;赵文娟(ORCID:0000-0002-8389-768X),女,1983年生,硕士,讲师,研究方向:信息资源管理.
微博环境下新冠肺炎疫情事件对网民情绪的影响分析*刘忠宝1,2,3摇秦摇权3摇赵文娟1,2(1.
云计算与物联网技术福建省高等学校重点实验室(泉州信息工程学院)摇泉州摇362000;2.
北京语言大学语言智能研究院摇北京摇100083;3.
中北大学软件学院摇太原摇030051)摘摇要:[目的/意义]微博作为一种重要的信息传播载体,在疫情信息发布与传播中发挥着重要作用.
深入分析疫情信息中蕴含的疫情事件及其对网民情绪的影响,有助于各级政府准确掌握网络舆论情况,科学高效地做好防控宣传和舆情引导工作.
[方法/过程]以新冠肺炎疫情相关的微博新闻及其评论作为研究对象,利用条件随机场(Con鄄ditionalRandomField,CRF)模型从微博新闻中抽取疫情事件并建立疫情事件画像;在情感词典的基础上,引入双向长短期记忆网络(BidirectionalLongShort-TermMemory,Bi-LSTM)模型建立网民情绪画像;利用基于自注意力机制的Bi-LSTM模型对疫情事件与网民情绪进行关联分析.
[结果/结论]真实语料集上的实验结果表明,围绕捐资、防控、临床和英雄等主题,CRF模型疫情事件抽取的F值均达到73%以上,Bi-LSTM模型网民情绪识别的F值均在70%以上,基于注意力机制的Bi-LSTM模型给出的网民情绪分布基本符合疫情发展态势.
关键词:微博;新冠肺炎;疫情事件;网民情绪;关联分析中图分类号:G353.
1摇摇摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1002-1965(2021)02-0138-08引用格式:刘忠宝,秦摇权,赵文娟.
微博环境下新冠肺炎疫情事件对网民情绪的影响分析[J].
情报杂志,2021,40(2):138-145.
DOI:10.
3969/j.
issn.
1002-1965.
2021.
02.
021ResearchontheInfluenceofCOVID-19EventontheNetizenEmotionundertheMicroblogEnvironmentLiuZhongbao1,2,3摇QinQuan3摇ZhaoWenjuan1,2(1.
KeyLaboratoryofCloudComputingandInternet-of-ThingsTechnology(QuanzhouUniversityofInformationEngineering),FujianProvinceUniversity,Quanzhou摇362000;2.
InstituteofLanguageIntelligence,BeijingLanguageandCultureUniversity,Beijing摇100083;3.
SchoolofSoftware,NorthUniversityofChina,Taiyuan摇030051)Abstract:[Purpose/Significance]SincetheoutbreakofCOVID-19,microblog,asanimportantcarrierofinformationtransmission,hasplayedanindispensableroleinthereleaseanddisseminationofepidemicinformation.
Thein-depthanalysisoftheepidemicinformationandtheimpactonthenetizenemotioncontainedinCOVID-19eventcanhelpgovernmentsgraspthepublicopinionsontheInternetaswellasdoagoodworkinepidemicpreventionandpublicopinionguidanceefficiently.
[Method/Process]TakingthemicroblognewsanditscommentsrelatedtotheCOVID-19astheresearchobject,thispaperthenusesConditionalRandomField(CRF)modeltoextracte鄄ventinformationandestablishaneventportraitfortheCOVID-19,introducestheBidirectionalLongShort-TermMemory(Bi-LSTM)modeltobuildnetizenemotionalportraitbasedonsentimentdictionary,andfinallyanalyzestherelationshipbetweenepidemiceventsand第40卷摇第2期2021年2月摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志JOURNALOFINTELLIGENCE摇摇摇摇摇摇摇摇摇摇摇摇摇Vol.
40摇No.
2Feb.
摇2021netizenemotionsbyusinganattention-basedBi-LSTMmodel.
[Result/Conclusion]Theexperimentalresultsontherealcorpuswiththetopicsofmaterial,preventionandcontrol,clinicalandheroshowthattheFvalueoftheCRFandBi-LSTMmodelhasreachedmorethan73%and70%respectively.
Thedistributionofnetizenemotionsisbasicallyinlinewiththeepidemicdevelopmentbasedontheattention-basedBi-LSTMmodel.
Keywords:microblog;COVID-19;epidemicevent;netizenemotion;correlationanalysis0摇引摇言自2019年12月底新冠肺炎疫情爆发以来,以微博为代表的社交媒体在传播疫情信息、宣传防控措施等方面发挥了重要作用,并成为央视新闻、人民日报等官方媒体发布疫情信息的重要媒介.
随着疫情的不断发展,相关微博新闻和评论的数量持续增长,众多网民对于疫情的情绪反应强烈,导致正常的生活受到明显影响.
因此,笔者以新冠肺炎疫情相关的微博新闻及其评论作为研究对象,在建立面向疫情的疫情事件画像以及面向网民的情绪画像的基础上,深入分析疫情期间出现的重点事件对网民情绪的影响,为各级政府准确掌握网络舆论情况,科学高效地做好防控宣传和舆情引导工作提供有力支撑.
1摇研究进展疫情事件画像和网民情绪画像是本文研究的重点,前者主要用到事件抽取方法,后者主要用到文本情感分析方法.
本节对上述方法的研究进展进行梳理.
摇1.
1摇事件抽取方法摇目前,事件抽取的主要研究方法包括模式匹配、机器学习以及深度学习的方法三类.
基于模式匹配的方法一般通过手工构建各种模式匹配算法用于事件抽取.
J.
T.
Kim等引入WordNet词典,利用短语结构和语义框架,构造了一个并行化的事件匹配模型PALKA[1],该模型一定程度上解决了语料规模较大时手动创建模式费时费力的问题.
李章超[2]、许君宁[3]等通过构建模式匹配原则对非结构化文本中的事件抽取问题进行了研究并取得了较好的效果.
基于模式匹配的方法在特定领域表现优异,但算法的可移植性差,需要大量的人工规则,且需要领域专家的指导.
机器学习无需领域知识且可以减少人工干预,已经成为事件抽取的主要研究方法.
刘振等通过事件触发词与事件特征之间的约束规则,引入WordNet对触发词进行聚类,并引入条件随机场识别事件组成元素[4].
赵妍妍[5]、黄念娥[6]等分别引入最大熵分类器和CRF模型抽取事件.
基于机器学习的方法在一定程度上减少了领域专家的依赖,但需要大规模的标准语料,否则在模型训练上容易出现数据稀疏问题,且现阶段的语料规模难以满足应用需求.
基于深度学习的方法将语料转化为特征向量,并通过不同的神经网络模型学习篇章级及跨篇章级的语义信息以提高事件抽取的性能.
T.
Nguyen等提出一种基于Skip-gram的卷积神经网络模型,该模型能够高效地提取非连续短语的特征,因而能够高效地完成事件抽取任务[7].
徐飞[8]、Liu[9]等分别引入基于条件随机场的双向长短期记忆网络和注意力机制来学习文本的隐藏特征,进而提高事件抽取效率.
在微博事件抽取研究中,仇培元利用条件随机场对交通事件的微博进行语义标注,引入支持变量机计算事件要素之间的关联强度,该方法在微博交通事件抽取中召回率达到了90%[10].
周鹏[11]、唐晓波[12]分别利用关键词抽取算法和狄利克雷过程事件混合模型对微博事件进行抽取并取得了较好的效果.
摇1.
2摇文本情感分析摇常用文本情感分析方法包括基于情感词典的方法、基于机器学习的方法以及基于深度学习的方法.
基于情感词典的方法主要是通过识别词典中的情感词对文本进行分类.
Liu等在融入依存句法特征的基础上,利用K-means聚类算法构建情感词典对在线产品评论进行情感分析[13].
Yang[14]、Turney[15]、赵常煜[16]基于传统情感词典,分别引入隐狄利克雷分配(LatentDirichletAllocation,LDA)模型、点互信息(PointwiseMutualInformation,PMI)算法对情感词典扩展、文本情感分析等进行研究.
基于情感词典的方法对特定领域情感分析表现优异,但该方法很少考虑文本的上下文信息,而且由于网络新词的不断出现,该方法无法及时更新情感词典.
基于机器学习的方法利用支持向量机(SupportVectorMachine,SVM)、朴素贝叶斯(Na觙veBayes,NB)、最大熵(MaximumEntropy,ME)等机器学习算法进行文本情感分析.
Pang等人工标记电影评论中出现的情感特征词,比较分析SVM、NB、ME等算法在电影评论中进行情感分析效果,实验结果表明SVM分类效果最佳[17].
Wikarsa[18]等利用NB算法对文本进行细粒度的情感分析.
基于机器学习的方法基于文本的上下文关系,需要大量的人工标注语料,该方式耗时耗力,且存在标注不一致等问题.
目前,利用卷积神经网络(ConvolutionalNeuralNetworks,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)以及长短记忆神网络(LongShort-TermMemory,LSTM)等深度学习模型已成为文本情·931·摇第2期摇摇摇摇摇摇摇摇摇刘忠宝,等:微博环境下新冠肺炎疫情事件对网民情绪的影响分析感分析领域的热门研究方向.
Poria等基于深度卷积神经网络提出一种从短文本中提取情感特征的方法,该方法利用文本、视觉和音频的组合特征来训练基于多核学习的分类器.
与现有方法相比,该方法的情感识别准确率提升了14%[19].
吴鹏[20]、涂曼姝[21]等将卷积神经网络应用于文本情感分析,其正确率均达到93%以上.
在微博情感分析研究中,张海涛等利用微博数据,以复杂网络理论为基础,基于评论词语之间的共现关系,构建子事件网络,以动态地跟踪网民意见以及情绪波动[22].
张柳[23]、曾子明[24]等分别引入多尺度卷积神经网络和Bi-LSTM模型对微博评论文本进行情感分析.
在疫情背景下微博情感分析研究中,安璐等基于微博用户转发关系构建疫情相关者的情感网络图谱,并根据舆情话题分析相关者的情感演化趋势[25].
周红磊等依据态势感知理论构建面向疫情的话题-情感演化模型,探寻疫情话题背后的网民情感变化情况[26].
2摇数据来源与研究方法摇2.
1摇数据来源摇爬取2019年12月01日到2020年4月30日之间与新冠肺炎疫情相关的微博新闻26478条以及对应评论30万条,利用哈工大语言技术平台(LanguageTechnologyPlatform,LTP)对语料进行分句、分词以及词性标注处理.
通过去除新闻文本中含有的URL链接、标点符号、特殊字符以及少于10个字符的新闻文本,得到新闻语料集;通过去除评论中的英文、数字以及英文符号,得到评论语料集.
本文借鉴国家金融与发展实验室将疫情演化分为爆发高峰期、全面蔓延期、控制恢复期等三个阶段[27],同时按照上述三个阶段分析疫情事件对网民情绪的影响,其中2019年12月01日至2020年1月27日为爆发高峰期、2020年1月27日至2020年3月1日为全面蔓延期、2020年3月1日至2020年4月30日为控制恢复期.
摇2.
2摇研究方法2.
2.
1摇研究框架摇图1给出了微博环境下疫情事件对网民情绪的研究框架.
该框架包括疫情事件画像、网民情绪画像以及疫情事件对网民情绪的影响分析三部分.
在疫情事件画像中,首先依据OpenKG发布的新冠肺炎热点事件图谱,将新闻语料集划分为捐资、防控、英雄和临床四类事件主题[28],并在此基础上人工筛选出包含四类事件主题的触发词,接着根据触发词对新闻语料集使用条件随机场(ConditionalRan鄄domFields,CRF)[29]模型进行疫情事件抽取,同时使用该模型识别疫情事件的组成元素.
在网民情绪画像中,首先,根据大连理工大学情感词汇本体库DU鄄TIR[30]对网民情绪进行分类;接着,根据疫情事件的触发词以及组成元素对评论语料集进行划分,得到疫情事件所对应的评论文本;然后,对评论文本进行情绪强度计算,并使用双向长短期记忆网络(BidirectionalLongShortTermMemory,Bi-LSTM)模型[31]对评论文本进行情绪分析;最后,得到不同疫情事件下网民的情绪画像.
在疫情事件对网络情绪的影响分析中,使用基于自注意力机制的双向长短期记忆网络Att-BiL鄄STM模型对疫情事件与网民情绪进行关联分析,得到疫情事件影响下网民的情绪分布.
图1摇研究框架2.
2.
2摇疫情事件画像摇依据OpenKG发布的新冠肺炎热点事件图谱,将新闻语料集划分为包含捐资、防控、英雄和临床四类主题.
捐资主题包括各地对疫区进行捐款捐物的新闻.
本文结合上述各类主题下的新冠肺炎新闻的语句结构,人工筛选各类主题下疫情事件的触发词,利用CRF模型抽取疫情事件及其组成元素.
以疫情事件为例,给出CRF模型的工作流程.
首先,用预先定义好的标记规则对新闻语料集进行人工标注;然后,将标注好的语料输入模型;最后,学习疫情事件标签之间的约束规则,进而得到疫情事件抽取结果.
2.
2.
3摇网民情绪画像摇根据大连理工大学情感词汇本体库DUTIR,本文将网民情绪分为"乐观、美好、愤怒、悲哀、畏惧、厌恶、惊吓冶七类,并引入情绪强度计算完成以上七类的网民评论情绪的标注.
在引入DUTIR和修饰词词典的基础上,对与疫情相关的评论语料进行情绪强度计算,DUTIR将情感分为7大类,20小类,其中包含27466个情感词,情感词的情绪强度值分为1、3、5、7、9五档,9表示情感强度最大,1表示情感强度最小,表1和表2分别列出了部分情感词和情感强度.
情绪强度计算需要考虑否定词和程度副词共同出现时的情绪影响.
情感词的情绪强度计算如·041·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第40卷式(1)所示.
Ei=-()1紫i琢i籽im(1)其中,Ei表示组合后的情绪强度,oi表示组合中否定词的个数,琢i表示程度副词的情绪强度,籽i表示情感词的情绪强度,m表示不同组合的权重值.
网民情绪画像的基本流程是:首先,输入与疫情相关的评论语料集;接着,对输入语料进行向量化表示;然后,利用BiLSTM模型从正、反两个方向提取输入语料的语义特征;最后,得到网民对疫情事件的情绪分布.
表1摇部分情感词编号情感大类情感小类情感词例1乐观快乐(PA)喜悦、欢喜、笑眯眯、欢天喜地3美好尊敬(PD)恭敬、敬爱、毕恭毕敬、肃然起敬4愤怒愤怒(NA)气愤、恼火、大发雷霆、七窍生烟5悲哀悲伤(NB)忧伤、悲苦、心如刀割、悲痛欲绝6畏惧慌(NI)慌张、心慌、不知所措、手忙脚乱7厌恶烦闷(NE)憋闷、烦躁、心烦意乱、自寻烦恼8惊吓惊奇(PC)奇怪、奇迹、大吃一惊、瞠目结舌表2摇部分情感词的情感强度编号词语情感分类情感强度1喜悦快乐(PA)52问心无愧安心(PE)37气愤愤怒(NA)38忧伤悲伤(NB)79绝望失望(NJ)9摇摇2.
2.
4摇影响分析摇本文采用基于自注意力机制的双向长短期记忆网络Att-BiLSTM[31]模型进行疫情事件对网络情绪的影响分析.
注意力机制通过对信息进行加权,得到信息的重要程度,以捕获更多的有用信息.
Att-BiLSTM模型在BiLSTM模型的基础上增加了注意力机制层,该层对BiLSTM的输出进行加权计算.
该过程首先将BiLSTM模型不同时刻的输出映射到(-1,1)区间;接着,与权重参数相乘,经softmax函数映射到(0,1)区间后得到注意力分布向量;最后,将该分布向量分别乘以BiLSTM模型不同时刻的输出即可得到分析结果.
该模型融合了注意力机制和BiL鄄STM模型的优势,突出了对分析结果有利的语义特征,提升了模型的分析能力.
图2给出了研究框架.
首先,将疫情事件经Word2Vec向量化表示后输入模型;接着,利用Bi-LSTM模型挖掘疫情事件中的语义特征;然后,引入自注意力机制对语义特征赋予不同权重,以突出部分重要的语义特征;最后,经Softmax激活函数处理后,得到疫情事件影响下的网民情绪分布y.
图2摇关联分析模型图3摇实验分析摇3.
1摇新闻语料集标注摇疫情事件抽取包括触发词识别和事件元素抽取.
根据新闻主题,给出如表3所示的疫情事件触发词表和表4所示的触发词标注集.
表3摇疫情事件触发词表主题触发词捐资援助、支援、捐款、捐血、捐献、捐助、医疗物资、医疗队、物资、捐赠资金临床确诊病例、疑似病例、死亡病例、重症病例、潜伏期防控严格执行、管控措施、疫情防控、封闭、封锁、落实、管控英雄英雄、英勇奋战、奋战、逝世、去世、哀悼表4摇触发词标注集主题标注符号捐资主题JZ防控主题FK临床主题LC英雄主题YX摇摇在抽取疫情事件元素时,根据主题语料集的特点,将疫情事件元素分为时间、地点、人物.
采用"BIESO冶标注方式对主题语料集中的疫情事件进行事件元素标注.
疫情事件元素标注集如表5所示.
表5摇疫情事件元素标注集含义标注符号疫情事件元素的开始B疫情事件元素的中部I疫情事件元素的结束E完整的疫情事件元素S疫情事件元素:时间NT疫情事件元素:人物NP疫情事件元素:地点NL摇3.
2摇评价指标摇利用准确率P(Precision)、召回率R(Recall)、F值(F-value)等评价指标对实验结果进行评价.
准确率指正确识别疫情事件数与已识别疫情·141·摇第2期摇摇摇摇摇摇摇摇摇刘忠宝,等:微博环境下新冠肺炎疫情事件对网民情绪的影响分析事件数的比值,或正确识别网民情绪数与已识别网民情绪数的比值,用于衡量所用方法的查准率.
召回率指正确识别疫情事件数与所有正确识别疫情事件数的比值,或正确识别网民情绪数与所有正确识别网民情绪数的比值,用于衡量所用方法的查全率.
F值综合了准确率和召回率两大评估指标,用于衡量所用方法的整体性能.
上述指标的计算公式如下:P=AA+B伊100%摇摇(2)R=AA+C伊100%(3)F=2伊P伊RP+R伊100%(4)其中,A、B、C在不同画像中的含义不同.
在疫情事件画像中,A、B、C分别表示正确识别、错误识别、无法识别的疫情事件数;在网民情绪画像中,A、B、C分别表示正确识别、错误识别、无法识别的网民情绪数;在影响分析中,A、B、C表示正确识别、错误识别、无法识别的疫情事件对网民情绪分布.
摇3.
3摇实验参数设置摇目前比较流行的CRF模型处理工具有CRF++、Flexcrf、GRMM等.
选用CRF++-0郾58作为建模工具用以进行疫情事件抽取.
Bi-LSTM模型用于网民情绪识别,随机选取30%的实验语料集作为参数设置语料集,将该语料集的70%用于模型训练,剩下的30%用于参数验证.
利用网格搜索法来确定该模型的参数.
batch_size在网格[4,8,16,32,64,128]中搜索选取,epoch在网格[10,20,30,40,50]中搜索选取,dropout在网格[0郾1,0郾3,0郾5,0郾7]中搜索选取,learning_rate在网格[0郾0001,0郾001,0郾01]中搜索选取,num_nodes在网格[32,64,128,256]中搜索选取,max_length在网格[10,50,100,150,200]中搜索选取,其中batch_size表示训练一次输入的评论数,epoch表示全部评论的训练次数,dropout表示解决神经网络过拟合问题的参数值,learning_rate表示学习率,num_nodes表示隐层神经单元个数,max_length表示时间步长.
Bi-LSTM模型的参数设置如表6所示.
表6摇Bi-LSTM参数设置参数Bi-LSTMbatch_size16epoch40dropout0郾5learning_rate0.
0001num_nodes128max_length100摇3.
4摇实验设计3.
4.
1摇疫情事件画像实验结果摇利用CRF模型抽取疫情事件及其组成元素,本文将标注后的新闻语料集按照8:2的比例分为训练集和测试集.
实验结果如表7和表8所示.
表7摇不同主题下疫情事件抽取实验结果疫情事件主题P(%)R(%)F(%)捐资85.
283.
684.
4防控84.
682.
983.
7英雄82.
180.
481.
2疫情85.
683.
184.
3表8摇疫情事件元素抽取实验结果疫情事件元素P(%)R(%)F(%)时间81.
679.
880.
8地点74.
775.
074.
9人物70.
272.
471.
3平均值75.
575.
875.
6摇摇由表7可以看出,CRF模型在疫情事件抽取的召回率较低,其主要原因是中文不同的字词在上下文中表达的含义不同,部分"假的冶事件触发词无法通过语义进行消除.
四类主题疫情事件下的准确率、召回率、F值均达到80%以上,其中英雄事件由于语料限制,模型学习到的约束规则较少,模型准确率相比于其他三类疫情事件较低.
由表8可以看出该模型在抽取时间、地点、人物等疫情事件元素时表现较为良好,准确率、召回率和F值都在70%以上,其中时间的F值较高,达到了80.
8%,其原因是在疫情事件元素中,时间元素的句法结构单一,且人工标注准确率较高,因此,该模型的时间元素识别效果较优.
由于疫情事件中含有的人物语料较少,模型识别效果较低.
实验结果表明,CRF模型能够较好地完成疫情事件画像任务.
3.
4.
2摇网民情绪画像实验结果摇将评论语料集按照8:2的比例分为训练语料集和测试语料集,经过训练后得到的实验结果如表9所示.
由表9可以看出,捐资、防控、临床以及英雄四种主题中的网民评论中对"美好冶的情绪识别中,F值均达到了90%以上,主要原因是在疫情防控过程中,政府及企业对疫情防控大力支持,网民评论整体多为积极.
而该模型的召回率较低,主要原因是网民表达情绪的方式多样化,评论语料集中含有大量噪声,增加了模型识别情感特征的难度.
BiLSTM模型在网民评论的情绪识别任务中,各主题下的情绪识别效果良好,这表明该模型能够充分挖掘评论语料集中网民的情绪分布,能够较好地完成网民情绪画像任务.
3.
4.
3摇影响分析实验结果摇为了验证本文所提Att-BiLSTM模型的有效性,本文设置了三组对比实验分别是:RNN、LSTM、BiLSTM.
以上方法在四种主题疫情事件的实验结果如表10所示.
·241·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第40卷表9摇评论语料集实验结果序号主题情感分类P(%)R(%)F(%)1捐资畏惧80.
578.
879.
6厌恶84.
381.
282.
7美好92.
590.
191.
2乐观87.
686.
587.
1悲哀78.
373.
372.
8惊吓81.
483.
385.
3愤怒88.
385.
386.
72防控畏惧85.
386.
986.
1厌恶78.
677.
378.
1美好91.
491.
391.
3乐观88.
690.
389.
4悲哀82.
084.
383.
1惊吓84.
386.
485.
3愤怒87.
389.
688.
5医3临床畏惧88.
486.
287.
3厌恶83.
285.
384.
2美好92.
490.
091.
2乐观91.
390.
290.
7悲哀81.
385.
483.
3惊吓79.
377.
678.
5愤怒84.
482.
183.
34英雄畏惧85.
283.
384.
3厌恶83.
381.
382.
3美好91.
489.
390.
3乐观74.
078.
075.
9悲哀86.
583.
284.
8惊吓86.
381.
283.
7愤怒71.
572.
472.
1表10摇影响分析实验结果序号方法事件主题P(%)R(%)F(%)1RNN防控72.
371.
271.
7捐资69.
169.
069.
0英雄70.
969.
670.
2临床70.
268.
569.
32LSTM防控72.
370.
971.
6捐资71.
671.
271.
4英雄74.
573.
674.
0临床72.
271.
571.
83BiLSTM防控76.
777.
276.
5捐资76.
374.
275.
2英雄78.
477.
678.
0临床77.
377.
177.
24Att-BiLSTM防控85.
585.
385.
4捐资84.
785.
084.
8英雄86.
586.
286.
3临床84.
383.
984.
4摇摇由表10可以看出,RNN、LSTM相较于BiLSTM,其F值最高仅达到了74%,主要原因是RNN与LSTM无法学习疫情事件之间的关联关系,因而在网民情绪的影响分析的实验中效果一般;BiLSTM可以联系疫情事件的上下文中对网民情绪影响的情感特征,因此实验效果较好,在"英雄冶主题的事件的F值达到了78%.
本文所提方法在疫情事件对网民情绪的影响分析中表现最好,其准确率、召回率、F值均达到了83%以上,其中对"英雄冶主题事件的F值达到了86%,这是因为在"英雄冶主题所包含的事件中,"去世冶、"牺牲冶等相较与其他词具有鲜明的情绪特征.
根据疫情的不同发展阶段,围绕防控、捐资、英雄、临床四种主题,分析疫情事件对网民情绪的影响.
实验结果如表11-表14所示.
表11摇英雄主题网民情绪分布表时间段2019.
12.
01~2020.
01.
272020.
01.
28~2020.
03.
012020.
03.
02~2020.
04.
30美好38.
8%40.
2%66.
6%乐观0.
1%0.
2%0.
1%悲哀15.
3%2.
4%18.
4%惊吓2.
5%6.
5%3.
4%愤怒0.
1%0.
1%0.
1%畏惧5.
6%5.
3%3.
4%厌恶37.
6%45.
3%8.
0%摇摇由表11可以看出,在抗击新冠肺炎疫情过程中,不断涌现出如钟南山、李兰娟等医疗工作者日夜奋战在救援一线、公务人员在工作岗位上为抗击疫情劳累致死等事件,因此,网民"美好冶的情绪占比较大.
表12摇防控主题网民情绪分布表时间段2019.
12.
01~2020.
01.
272020.
01.
28~2020.
03.
012020.
03.
02~2020.
04.
30美好49.
9%34.
0%42.
6%乐观0.
4%0.
3%0.
6%悲哀14.
1%8.
3%8.
8%惊吓5.
7%6.
9%11.
0%愤怒0.
1%0.
1%0.
2%畏惧10.
2%3.
2%2.
2%厌恶19.
6%47.
2%34.
6%摇摇由表12可以看出,疫情防控中的情绪变化较为复杂,其中"美好冶的情绪占比较大,随着时间的推移,呈现先减后增的趋势,这种变化的缘由是多方面的,如对小区实行封闭管理,经过长时间的居家封禁,网民的正向情绪有所减少,但随着疫情趋于平稳,网民情绪变缓,心中充满希望.
国家出台的一系列有效的防控措施,疫情大幅减缓,网民的恐惧也随之减少.
受疫情影响,学生推迟开学、各种大型考试延迟等,在一定程度上也使得网民感到失落.
表13摇临床主题网民情绪分布表时间段2019.
12.
01~2020.
01.
272020.
01.
28~2020.
03.
012020.
03.
02~2020.
04.
30美好70.
2%89.
1%74.
6%乐观0.
2%0.
1%0.
1%悲哀14.
6%6.
4%1.
6%惊吓8.
8%1.
2%17.
7%愤怒0.
1%0.
1%0.
1%畏惧1.
8%1.
1%0.
7%厌恶4.
3%2.
0%5.
2%摇摇由表13可以看出,在12月1日至1月27日时间·341·摇第2期摇摇摇摇摇摇摇摇摇刘忠宝,等:微博环境下新冠肺炎疫情事件对网民情绪的影响分析段,临床治疗还未见成效,使得网民感到恐惧、难过;随着临床研究取得进展,恐惧慢慢减少,同时,出于对医护人员自身安危的担忧,网民的"悲哀冶的情绪仍占一定比重.
随着临床的深入研究,治愈率升高,负向情绪尤其是"厌恶冶的情绪占比减少.
相比于其余两个时间段,在1月28日至3月1日,"惊吓冶的情绪在大规模爆发阶段的占比最大,表明网民对疫情增长速度之快的担忧.
但从总体上看,由于钟南山和李兰娟院士的研究团队在临床研究上取得显著的治疗效果,网民相信在政府部门领导帮助下能成功度过此次危机的情绪逐渐增加.
表14摇捐资主题网民情绪分布表时间段2019.
12.
01~2020.
01.
272020.
01.
28~2020.
03.
012020.
03.
02~2020.
04.
30美好56.
9%66.
2%86.
1%乐观0.
2%0.
1%0.
2%悲哀10.
3%4.
9%5.
5%惊吓5.
9%5.
3%1.
2%愤怒0.
1%0.
1%0.
1%畏惧4.
1%1.
0%1.
2%厌恶22.
5%22.
4%5.
7%摇摇由表14可以看出,自新冠肺炎疫情爆发以来,由于医疗物资供不应求,以及防控带来的资源调度不便,导致网民产生"悲哀冶"恐惧冶等负向情绪.
为了解决疫情重灾区武汉市物资严重短缺的问题,全国人民团结一心,社会各界捐资捐物,正能量广泛传递,网民表现出的"美好冶的情绪不断增加,"悲哀冶和"恐惧冶的情绪也随之减少.
随着政府部门对物资的督查监管力度不断加大,物资分配不合理等情况大幅改善,网民的"厌恶冶的情绪比例也随之降低.
由于捐赠物资日益增多,同时,医疗物资加快生产,网民的担忧、恐惧等情绪得到了一定缓和.
对上述实验结果进行归纳可知:围绕防控、捐资、英雄、临床四种主题,网民在疫情演化的三个阶段"美好冶情绪均占比最高,特别是在控制恢复期的英雄主题、爆发高峰期的防控主题、全面蔓延期的临床主题以及控制恢复期的捐资主题达到峰值,这表明我国在应对新冠疫情做法得力,得到广大网民的认可,与此同时,疫情信息的发布和监管也较为到位,避免虚假、不实信息对网民情绪的影响.
作为一种强烈的心理刺激源,新冠肺炎疫情的爆发容易引起网民负向情绪.
在疫情演化的三个阶段"厌恶冶情绪占比较高,并在全面蔓延期的英雄主题、爆发高峰期的防控主题、控制恢复期的临床主题以及爆发高峰期的捐资主题达到峰值,这与疫情演化期间发生的一系列负面事件相关.
在此情形下,网民心态要摆正,理性看待负面事件,就事论事,不发表太情绪化的言论,不转发未经证实的信息,通过合理合法的方式发泄负向情绪.
在不同的主题中,网民负向情绪分布差异较大.
英雄主题主要是"悲哀冶情绪,并在控制恢复期达到峰值18.
4%,这表明网民对抗疫英雄的崇敬与惋惜.
网民应化悲痛为动力,在平时的工作和学习中践行英雄们坚持不懈、埋头苦干的精神,早日从"悲哀冶情绪中走出来.
防控主题主要是"悲哀冶情绪,并在爆发高峰期达到峰值14郾1%,这表明部分网民认为防控工作有待于进一步完善.
网民应科学看待防疫工作的艰巨性和复杂性,给予防疫部门和广大医护工作者更多的理解和支持.
临床主题主要是"惊吓冶情绪,并在控制恢复期达到峰值17.
7%,这表明网民出乎意料疫情发展速度之快.
网民应不依赖自己的直觉,听从专业人士的建议,避免强迫性的自我清洁,尽量让生活正常化,不要让惊吓支配日常生活.
捐资主题主要是"悲哀冶情绪,并在爆发高峰期达到峰值10.
3%,这体现了部分网民对疫情物资准备不足的忧虑.
网民应充分认识到疫情的突发性给各级政府带来的挑战,也应树立战胜疫情的信心和决心.
4摇总摇结本文对微博环境下疫情事件对网民情绪的影响进行了分析,试图为各级政府准确掌握网络舆论情况,科学高效地做好防控宣传和舆情引导工作提供有力支撑.
首先从微博上爬取与新冠肺炎相关的新闻26478条及评论30万条,经数据预处理,得到新闻语料集和评论语料集,利用CRF模型围绕捐资、防控、临床、英雄等四类主题抽取疫情事件及其组成元素.
然后,在引入情感词典和修饰词词典的基础上,对情感强度进行计算,利用BiLSTM模型得到网民的情绪分布.
最后,基于自注意力机制的BiLSTM模型得到疫情事件对网民情绪的影响程度.
本研究亦存在一定不足,如本文用到的情感词典尚不完善,势必影响分析结果,在后续研究中着重探讨情感词典的完备性问题以及其他情感分析方法.
参考文献[1]摇KimJT,MoldovanDI.
Acquisitionoflinguisticpatternsforknowledge-basedinformationextraction[J].
IEEETransac鄄tionsonKnowledgeandDataEngineering,1995,7(5):713-724.
[2]摇李章超,李忠凯,何摇琳.
《左传》战争事件抽取技术研究[J].
图书情报工作,2020,64(7):20-29.
[3]摇许君宁,董摇萍,刘怀亮.
基于知网的中文事件抽取研究[J].
情报杂志,2009,28(12):150-151.
[4]摇刘摇振.
基于网络科技信息的事件抽取研究[J].
情报科学,2018,36(9):115-117.
·441·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇情摇报摇杂摇志摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第40卷[5]摇赵妍妍,秦摇兵,车万翔.
中文事件抽取技术研究[J].
中文信息学报,2008,22(1):3-8.
[6]摇黄念娥,黄摇河,王儒敬.
本体与条件随机场结合的涉农商品名称抽取与类别标注[J].
计算机应用,2017,37(1):233-238.
[7]摇NguyenT,GrishmanR.
Modelingskip-gramsforeventdetec鄄tionwithconvulutionalneuralnetworks[C].
Proceedingsofthe2016ConferenceonEmpiricalMethodsinNaturalLanguagePro鄄cessing.
Stroudsburg:AssociationforComputationalLinguis鄄tics,2016:886-891.
[8]摇徐摇飞,叶文豪,宋英华.
基于BiLSTM-CRF模型的食品安全事件词性自动标注研究[J].
情报学报,2018,37(12):1204-1211.
[9]摇Liu摇S,ChenY,LiuK,etal.
Exploitingargumentinformationtoimproveeventdetectionviasupervisedattentionmechanisms[C].
Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics,Vancouver,Canada,2017:1789-1798.
[10]仇培元,张恒才,余摇丽,等.
微博客蕴含交通事件信息抽取的自动标注方法[J].
中文信息学报,2017,31(2):107-116.
[11]周摇鹏,蔡淑琴,石双元,等.
基于关键词抽取的微博舆情事件内容聚合[J].
情报杂志,2014,33(1):91-96.
[12]唐晓波,王洪艳.
基于潜在狄利克雷分配模型的微博主题演化分析[J].
情报学报,2013,32(3):281-287.
[13]LiuF,WeiF,YuK,etal.
Sentimentclassificationofreviewsonautomobilewebsitebycombiningword2vecanddependencyparsing[C].
ProceedingsoftheInternationalConferenceonSmartComputingandCommunication.
Berlin,Germany,2017:206-221.
[14]YangM,ZhuDJ,ChoeKP.
Atopicmodelforbuildingfine-graineddomain-specificemotionlexicon[C].
Proceedingsof52ndAnnualMeetingoftheAssociationforComputationalLin鄄guistics,Baltimore,USA,2014:421-426.
[15]TurneyPD,LittmanML.
Measuringpraiseandcriticism:In鄄ferenceofsemanticorientationfromassociation[J].
ACMTransactionsonInformationSystems,2003,21(4):315-346.
[16]赵常煜,吴亚平,王继民.
"一带一路冶倡议下的Twitter文本主题挖掘和情感分析[J].
图书情报工作,2020,63(19):119-127[17]PangB,LeeL,VaithyanathanS.
Sentimentclassificationusingmachinelearningtechniques[C].
ProceedingsoftheConfer鄄enceonEmpiricalMethodsinNaturalLanguageProcessing,Philadelphia,USA,2002:79-86[18]WikrsalL,ThahirSN.
AtextminingapplicationofemotionclassificationsofTwitter'susersusingNa觙veBayesmethod[C].
Proceedingsofthe1stInternationalConferenceonWirelessandTelematics,Manado,Indonesia,2015:1-6[19]PoriIS,CambriaE,Gelbukh.
Deepconvolutionalneuralnet鄄worktextualfeaturesandmultiplekernellearningforutterancelevelmultimodalsentimentanalysis[C].
ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcess鄄ing,Lisbon,Portugal,2015:2539-2544.
[20]吴摇鹏,刘恒旺,沈摇思.
基于深度学习和OCC情感规则的网络舆情情感识别研究[J].
情报学报,2017,36(9):972-980.
[21]涂曼姝,张摇艳,颜永红.
基于CNN-SVM和转发树的微博事件情感分析[J].
情报工程,2017,3(3):77-85.
[22]张海涛,刘雅姝,张枭慧,等.
基于模块度的话题发现及网民情感波动研究———以新浪微博"中美间贸易摩擦冶话题为例[J].
图书情报工作,2019,63(4):6-14.
[23]张摇柳,王晰巍,黄摇博,等.
基于字词向量的多尺度卷积神经网络微博评论的情感分类模型及实验研究[J].
图书情报工作,2019,63(18):99-108.
[24]曾子明,万品玉.
基于双层注意力和Bi-LSTM的公共安全事件微博情感分析[J].
情报科学,2019,37(6):23-29.
[25]安摇璐,欧孟花.
突发公共卫生事件利益相关者的社会网络情感图谱研究[J].
图书情报工作,2017,61(20):120-130.
[26]周红磊,张海涛,张鑫蕊,等.
话题-情感图谱:突发公共卫生事件舆情引导的切入点[J].
情报科学,2020,38(7):15-21.
[27]国家金融与发展实验室.
国际疫情发展和全球经济风险点[EB/OL].
[2020-03-24].
http://www.
nifd.
cn/Research鄄Comment/Details/1738.
[28]邹摇磊.
新冠肺炎知识图谱[EB/OL].
[2020-03-24].
ht鄄tp://openkg.
cn/tool/openkg-sparql-api[29]GersFA,SchmidhuberJ.
Recurrentnetsthattimeandcount[C].
ProceedingsoftheInternationalJointConferenceonIEEE-INNS-ENNS.
Piscataway,USA,2000:189-194.
[30]徐琳宏,林鸿飞.
DUTIR情感词汇本体库[EB/OL].
[2020-03-24].
http://ir.
dlut.
edu.
cn/EmotionOntology.
[31]周摇瑛,刘摇越,蔡摇俊.
基于注意力机制的微博情感分析[J].
情报理论与实践,2018,41(3):89-94.
(责编/校对:刘影梅)·541·摇第2期摇摇摇摇摇摇摇摇摇刘忠宝,等:微博环境下新冠肺炎疫情事件对网民情绪的影响分析

展开全文