舆情基于文本情感的网络舆情分析系统研究

舆情系统  时间:2021-02-25  阅读:()

学校代号 10532 学 号 G10245032分类号 TP391 密 级 普 通

工程硕士学位论文

基于文本情感的网络舆情分析

系统研究

培 养 单 位 软件学院

导师姓名及职称 陈浩副教授 李兵兵高级工程师

学 科 专 业 软件工程

研 究 方 向 人工智能

论文交日期 2013年4月18日

学校代号 10532

学 号 G10245032

密 级普通

湖南大学工程硕士学位论文

基于文本情感的网络舆情分析系统研究

导师姓名及职称 陈浩副教授 李兵兵高级工程师培 养 单 位 软件学院专 业 名 称 软件工程论文提交日期 2013年4月18日论文答辩日期 2013年5月25号答辩委员会主席 蔡立军教授

Based on the the text sentiment network public opinion analysissystemby

B.E(Central South University)2003

A thesis submitted in partial satisfaction of the

Requirements for the degree of

Master of Sciencein

Software Engineeringin the

Graduate Schoolof

Hunan University

Supervisor

Associate Professor Chen Hao

Senior Engineer Li Bingbing

April,2013

湖 南 大 学

学位论文原创性声明

本人郑重声明所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。 除了文中特别加以标注引用的内容外本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名 日期 年 月 日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

本学位论文属于

1 保密□在 年解密后适用本授权书。

2不保密□。

(请在以上相应方框内打“√” )

作者签名 日期 年 月 日

导师签名 日期 年 月 日

I

基于文本情感的网络舆情分析系统研究

摘要

随着计算机和网络通信技术的迅速发展 Internet为公众舆情的表达和传播提供了新的途径越来越多的人们通过网络来表达自己对社会新闻热点的意见和看法。然而 由于网络信息以惊人的速度增长难以采用人工阅读的方式获得人们对某一话题的情感倾向如何基于文本情感分析网络舆情是一个具有良好应用和推广价值的研究课题。

论文采用点面相结合的方式展开应用研究。首先从点入手分析文本的情感倾向性然后结合舆情相关理论 由点层次上升到面的层次——话题。在整个面的层次上结合话题参与者的情绪进行综合分析。进而将情绪作为舆情分析的一个要素作用到舆情态势的分析中去。通过本课题研究力图发现情绪在舆情分析中的作用并提出可行的识别分析技术然后基于此研究并设计一个基于文本情感的舆情分析系统。

从总体上看论文研究内容及创新性工作主要包括

 1 对网络舆情分析、文本情感分析国内外研究现状进行了综述。

2对系统设计与实现相关技术如网络爬虫、设计工具、实验对象等展开分析最后确定采用Java语言及MySQL数据库进行设计和实现通过网络爬虫技术抓取论坛所需要的评论信息然后使用Lucene工具对数据库信息建立索引。

3详细介绍了根据用户输入的关键字检索在界面上以表格的方式显示关联此关键字的所有主题信息 用户点击某一主题会以浏览器的方式显示此主题链接。 点击情感分析会对此主题的评论信息进行情感分析算法然后以图表的形式展现出来。

4详细介绍了基于文本的情感知识获取是对论坛BBS、 即时通信软件

IM、博客Blog上的文本内容的理解达到利用社会计算环境下的文本交互信息挖掘蕴涵其中的情感知识的目的作为对生物生理信号分析的补充手段。这一研究内容以文本的分析作为基础包括对文本语法语义的分析、情感相关词语的提取、情感程度的表达以及情感语言的模糊处理等最终试图得到以文本为输入的情感自动分析机。

最后在完成系统设计后对各部分模块进行了详细实现通过实现原型系统验证了算法及设计的有效性实验结果表明该系统具有较好的情感分析效果具有一定的推广应用价值。

关键词 中文分词 Lucene数据库情感分析 HowNet情感词典

II

Abstract

With the rapid development of computer and network communication technology,the Internet as a public expression of public opinion, and dissemination of a new way,more and more people through the network to express their views and opinions of thesocial news hot.However, it is the network information at an alarming rate increase,make it difficult to be drawn through all the way to read the emotional tendency of atopic.

Therefore, the research of this thesis is to a point with a combination of subject.First, from the starting point, the accurate analysis of sentiment text; combined withthe theory of public opinion, from level to level -- the topic. In the surface level, theparticipants emotional comprehensive analysis. Then, the emotion as an element ofpublic opinion analysis, the role of public opinion in the analysis of situation.Through this research, trying to find the role of emotions in the public opinionanalysis, and put forward feasible identification technology for analysis, emotion isembedded into the public opinion analysis system provides reference method.

The main contents and innovations of the dissertation are as follows:

 1  For the analysis of network public opinion, sentiment analysis researchstatus at home and abroad were reviewed.

2Analysis of system design and implementation of relevant technologiessuch as web crawler, design tools, the experimental object, finally determined isdesigned and implemented with Java language and MySQL database, through the webcrawler technology to capture forum needed to review information, and then to indexdatabase information using the Lucene tool.

3Described in detail based on user input keyword search, display all theinformation related to this keyword to form at the interface, the user clicks on a theme,the theme will display links to the browser. Click on the emotional analysis topiccomment information sentiment analysis algorithm, and then to show up in the formof charts.

4Details of the knowledge acquisition based on text emotion is a forum(BBS), instant communication software (IM), blog (Blog) on the text contentunderstanding, reach the computing environment interactive text information miningcontained emotion knowledge by society, as a means of supplementing the analysis ofphysiological signals. This research is based on text analysis, including the text

III

基于文本情感的网络舆情分析系统研究

semantic analysis, emotional words extraction, emotion expression and the degree ofemotional language fuzzy processing, the final attempt to get to the text for the inputemotion automatic analysis machine.

Finally, at the completion of system design, each part of the modules of thedetailed implementation, through the implementation of the prototype system toverify the effectiveness of the algorithm and the design, experimental results showthat the effect of better emotion has the system, so it has certain application value.Key Words  Chinese word segmentation; Lucene; database; emotion analysis;

HowNet; sentiment dictionary

IV

目录

学位论文原创性声明和学位论文版权使用授权书. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .I

摘 要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .II

Abstract. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .III

插图索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .VII

附表索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .IX

第1章绪论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1.1研究背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1.2 国内外研究及应用现状. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1.2.1网络舆情分析的研究现状. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2

1.2.2文本情感分析的研究现状. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

1.3论文的主要工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5

1.4论文的组织结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

1.5小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

第2章系统设计的技术准备. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

2.1基本技术. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

2.1.1信息检索. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

2.1.2 HowNet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .9

2.1.3 中文分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

2.1.4 MySQL数据库. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

2.1.5 JFreeChart图表绘制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

2.2基本工具. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

2.2.1网络爬虫的总体概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

2.2.2网络爬虫的爬取策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

2.3系统设计语言的选择. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

2.4系统的开发环境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

2.5设计原则. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

2.6本章小结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16

第3章系统需求分析与文本分类技术. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

3.1系统简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

3.2系统功能. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

3.3系统整体结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

V

注册做什么96%可以干啥,常用的7个常用的国内国外域名注册服务商_云服务器可以干什么

日前,国内知名主机服务商阿里云与国外资深服务器面板Plesk强强联合,推出 阿里云域名注册与备案、服务器ECS购买与登录使用 前言云服务器(Elastic  只需要确定cpu内存与带宽基本上就可以了,对于新手用户来说,我们在购买阿里云服务申请服务器与域名许多云服务商的云服务器配置是弹性的 三周学会小程序第三讲:服务 不过这个国外服务器有点慢,可以考虑国内的ngrokcc。 ngrokcc...

GreenCloudVPS$20/年多国机房可选,1核@Ryzen 3950x/1GB内存/30GB NVMe/10Gbps端口月流量2TB

GreencloudVPS此次在四个机房都上线10Gbps大带宽VPS,并且全部采用AMD处理器,其中美国芝加哥机房采用Ryzen 3950x处理器,新加坡、荷兰阿姆斯特丹、美国杰克逊维尔机房采用Ryzen 3960x处理器,全部都是RAID-1 NVMe硬盘、DDR4 2666Mhz内存,GreenCloudVPS本次促销的便宜VPS最低仅需20美元/年,支持支付宝、银联和paypal。Gree...

1核1G仅38元/月起野草云服务器,香港/美国洛杉矶CN2+BGP云服务器,

野草云服务器怎么样?野草云是一家成立了9年的国人主机商家,隶属于香港 LucidaCloud Limited (HongKong Registration No. 2736053 / 香港網上查冊中心)。目前,野草云主要销售香港、美国的VPS、虚拟主机及独立服务器等产品,本站也给大家分享过多次他家的优惠了,目前商家开启了优惠活动,香港/美国洛杉矶CN2+BGP云服务器,1核1G仅38元/月起!点击...

舆情系统为你推荐
郭吉军一个新的品牌,要怎么做网络推广无线路由器限速设置无线路由器能设置限速吗?或者说那个牌子的能。伪静态静态与伪静态的区别?1433端口如何打开1433端口qq空间装扮qq空间的装扮空间在哪?直播加速请问哪种播放器的可以播放加速,并且可以保存qq怎么发邮件如何通过QQ发送邮件怎么点亮qq空间图标QQ空间图标怎么点亮?去鼠标加速度请问什么是去鼠标加速?263企业邮箱设置ipad mini2怎么设置263企业邮箱
什么是域名解析 罗马假日广场 edis 美国便宜货网站 国外空间服务商 发包服务器 魔兽世界台湾服务器 创梦 jsp空间 万网空间购买 外贸空间 中国电信网络测速 监控服务器 工信部网站备案查询 阿里云邮箱登陆地址 带宽测试 好看的空间 新网dns forwarder 删除域名 更多