分词中文分词技术在社会化媒体分析效果研究

分词技术  时间:2021-02-09  阅读:()

中文分词技术在社会化媒体分析效果研究目录

1社会化媒体

2中文分词技术

1

2

3中文分词技术在社会化媒体分析中的应用

1网址采集

2 内容采集

1最大正向匹配法处理实例

2最大逆向匹配法处理实例

4结论

正文

随着社会的发展社会化媒体Social Media已经在网络化环境中被广泛研究。社会化媒体包含交互式的应用和分享交换用户生成内容的平台创建。在过去的十年社会化媒体迅速发展。通过对它们的建模分析从这个超越社会沟通的、拥有大量数据的超集中可以很好地反映并提炼出交往互动者之间的思想动态、行为倾向甚至某一社交群体的集体策略。因而本文主要是对社会化媒体分析系统采集的数据应用中文分词技术进行处理分析最终得到有用的关键词为可以提前预测社会群体的交往意向和可能发生的行为结果比如判定投资或营销群体的兴趣方向、旅游公司和游客动态、特定人群的行为意向、学生群体的思维模式和动机等提供一定的依据为后续研究加以干预或进行行为控制为达到所希望达到的经济社会运行模式、群体和个人行为以及提高教育教学的可控性奠定一定的基础。

1社会化媒体

社会化媒体包括平台创建和交换用户生成内容通常社会化媒体也被称为消费者产生的媒体CGM 。社会化媒体和传统的媒体有所不同 比如报纸、书本、电视等任何一种媒体印刷成本较高而社会化媒体在印刷出版方面的成本却很低但社会化媒体并不是完全不同于传统媒体它与传统的媒体存在密切的联系。

社会化媒体的形式很多包括博客、社交网站、虚拟社区等。社会化媒体有七个方面是大家一直关注的身份、交谈、分享、存在、友

谊、名誉及成员。不同的社会化媒体有不同的关注点像维基百科等合作项目经常关注的是共享及信誉而在虚拟社区中身份、存在、信誉等备受关注。总之社会化媒体在人们的生活中发挥着举足轻重的重要。因此对社会化媒体的分析更具有研究价值。

社会化媒体的定义学者Andreas Kaplan和Michael Haenlein认为社会化媒体是一组建立在Web2.0技术基础上允许创建和交换用户自创内容的互联网应用[1] 它包含交互式的应用和平台创建分享和交换用户生成内容是允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。所谓社交媒体应该是广大网民自发分享、提取、创造新闻资讯然后传播的过程。社交媒体的产生依赖的是Web2.0的发展现阶段主要包括社交网站、微博、微信、博客、论坛、播客等。类似的 Toni Ahlqvist等人认为社会化媒体概念包含三个关键元素即 Web2.0技术、用户自创内容UserGenerated Content UGC以及所产生的人际关系网[2]

社会化媒体发展目前社会化媒体的发展越来越迅速。社会化媒体已经在整个互联网中占据主流地位根据Alexa网站名称统计数据 当前世界访问量排名前十大网站中有五个是社会化媒体网站像Facebook、 Twitter、 YouTube等社会化媒体网站更可谓风靡全球家喻户晓[3] 。截至2014年5月 Facebook有近13亿的活跃用户其中包括超过10亿移动活跃用户。 目前已经有专门关注娱乐、运动、金融和政治的社会化媒体。

2中文分词技术

中文分词的概念中文分词就是将一段或一句中文字序列分成相对独立的词序列的过程[4] 。通过分词可以使句子以单个词语的形式出现从而使整个句子的语义简单化。

常用的中文分词算法目前常用的中文分词算法有基于字符串匹配的分词算法、基于词的频度统计的分词算法、基于知识理解的分词算法其中基于字符串匹配的分词算法主要包括最大正向匹配法和最大逆向匹配法。在对社会化媒体进行分析时笔者所采用的主要是基于字符串匹配的分词算法所用本文主要对基本字符串匹配的分词算法进行详细的介绍。

基于字符串匹配的分词算法是按照一定的策略将待切分的汉字字符串与一个“充分大”的机器词典中的词进行匹配[5] 也就是按照一定的策略在词典中进行对比查找。 目前基于字符串的分词算法主要有正向最大匹配算法及逆向最大匹配算法。

1最大正向匹配法Forward Maixmum Matching Method 通常简称FMM其思想是假定分词词典中的最长词条有s个汉字字符则用待切分文档的当前字串中的前i个字作为匹配字段在词典中进行查找。整个算法的思路如图1所示。

2逆向最大匹配法Revee Maximum Matching Method 通常简称为RMM法其基本原理与FMM法相同不同的是分词切分的方向与FMM法相反一个是从左至右的切分另一个是从右至左的切分并且它们使用的分词辞典排序方式也有所不同。其算法如图2所示。

3中文分词技术在社会化媒体分析中的应用

本文主要是对社会化媒体分析系统采集的数据采用一定的分词算法进行处理提炼出关键词为后期预测社会群体的交往意向和可能发生的行为结果 以及学生群体的思维模式和行为动机等提供一定的依据。

数据采集本文所用的数据来自项目组成员设计出来的社会化媒体分析系统采集的是南京大学论坛数据。在该数据采集平台中数据采集分为网址采集和内容采集两部分。

1网址采集。先进行网址采集根据采集到的网址再采集相应的帖子内容。 网址采集最多可分为四级采集 以南京大学论坛为例南京大学论坛使用二级采集就可以采集到论坛帖子的网址所有采集都是按照正则表达式来采集。在论坛中有精华帖、分页贴精华帖需要单独处理分页贴主要是针对帖子有多页的问题如上一页、下一页。

2 内容采集。采集到论坛的网址后根据帖子的网址就可以采集帖子内容。采集到论坛的网址后根据帖子的网址就可以采集帖子论坛一般关注的数据主要有标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区等。该数据采集平台如图3所示采集的数据如图4所示。

分词处理通过最大正向匹配算法和最大逆向匹配算法对所采集的数据进行分词处理为提炼关键词奠定一定的基础。在分词处理的

过程中存在近义词和停用词是近义词的进行合并是停用词的把它过滤掉最后只留下关键词这些关键词通常是名词和动词。在整个数据整理过程中 因为很多论坛中的帖子语言很不规范语法结构很乱新词多所以分词也存在一定困难。

1最大正向匹配法处理实例。从采集的数据中抽取了部分数据进行分词实验例如待切分语句“我们急需提高英语口语及听力水平” 如果在词典中匹配只要匹配成功就切分出来那么这一句话切分的结果可能为“我们/急需/提高/英语口语/及/听力/水平” 。如果事先知道词典的最长词长那么将减少很多步骤从而提高分词速度。此处假设词典中最长词长为7整个匹配过程如表1所示。

2最大逆向匹配法处理实例。在对社会化媒体分析平台采用的数据进行分词处理的过程中除了采用最大正向匹配算法外还采用最大逆向匹配算法进行处理。例如待切分句子“求兼职新概念英语老师” 如果在词典中匹配只要匹配成功就切分出来那么这一句话切分的结果可能为“求/兼职/新/概念/英语/老师” 。在进行匹配时采用的是逆序词典假设词典中最常词长为7整个匹配过程如表2所示。

在分词的过程中本文主要采用最大正向匹配和最大逆向匹配相结合但是仍然存在一些问题如在对歧义词和未登录词进行处理时存在一定的瑕疵。在以后的研究中笔者会进一步着重处理歧义词和未登录词。

4结论

通过中文分词技术对社会化媒体分析系统采集的数据进行处理为后续关键词检索奠定一定的基础。今后笔者的努力方向是进行关键词检索对关键词进行统计分析 同时对分词之后的文本进行特征挖掘及分析为进一步预测社会群体的交往意向和可能发生的行为结果 以及学生群体的思维模式和行为动机等提供依据。

参考文献

[1]Kaplan A M Haenlein M. Use of the world unite Thechallenges and opportunities of Social Media[J] .BusinessHorizo 2010 3  59-68.

[2]World Wide Web[EB/OL] .httpcomputedatabase+management+%26+informat ion+retri eval/journal/

11280。

[3]王明会丁焰 白良.社会化媒体发展现状及其趋势分析[J] .信息通信技术 2011 5  10。

JustHost俄罗斯VPS有HDD、SSD、NVMe SSD,不限流量低至约9.6元/月

justhost怎么样?justhost服务器好不好?JustHost是一家成立于2006年的俄罗斯服务器提供商,支持支付宝付款,服务器价格便宜,200Mbps大带宽不限流量,支持免费更换5次IP,支持控制面板自由切换机房,目前JustHost有俄罗斯6个机房可以自由切换选择,最重要的还是价格真的特别便宜,最低只需要87卢布/月,约8.5元/月起!总体来说,性价比很高,性价比不错,有需要的朋友可以...

青云互联19元/月,美国洛杉矶CN2GIA/香港安畅CN2云服务器低至;日本云主机

青云互联怎么样?青云互联美国洛杉矶cn2GIA云服务器低至19元/月起;香港安畅cn2云服务器低至19元/月起;日本cn2云主机低至35元/月起!青云互联是一家成立于2020年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务。青云互联本站之前已经更新过很多相关文章介绍了,青云互联的机房有香港和洛杉矶,都有CN2 GIA线路、洛杉矶带高防,商家承诺试用7天,打死全额退款点击进入:青云互联...

AkkoCloud(60元/月 ),英国伦敦CN2 1核 768 MB 内存 10 GB SSD 硬盘 600GB 流量 英国伦敦CN2 1核  1.5G  300Mbps

官方网站:https://www.akkocloud.com/AkkoCloud新品英国伦敦CN2 GIA已上线三网回程CN2 GIA 国内速度优秀.电信去程CN2 GIALooking Glass:http://lonlg.akkocloud.com/Speedtest:http://lonlg.akkocloud.com/speedtest/新品上线刚好碰上国庆节 特此放上国庆专属九折循环优惠...

分词技术为你推荐
快递打印快递单上是怎么打印上去的,我每次都是手写的雅虎社区福建晋江社区是什么?中国电信互联星空怎么在中国电信网上营业厅自行开通互联星空消费权限伪静态什么是伪静态伪静态有何作用照片转手绘如何把真人图片用photoshop做成手绘图片镜像文件是什么什么是文件镜像?什么是镜像文件?bluestackbluestacks下载的东西在哪虚拟专用网intranet,extranet,虚拟专用网与internet有什么区别与联系电子商务网站模板我想开发一个电子商务网站,但是想加入自己设计的模板,可以吗?电子商务网站模板电子商务网站模板哪个好?电子商务网站模板免费建站怎么样?
网址域名注册 greengeeks 腾讯云盘 host1plus 外国域名 godaddy优惠券 godaddy 云图标 中国智能物流骨干网 河南移动m值兑换 umax120 hdd 卡巴斯基破解版 搜索引擎提交入口 优酷黄金会员账号共享 美国独立日 创建邮箱 中国电信测速器 789 英国伦敦 更多