数据蜘蛛搜索引擎

蜘蛛搜索引擎  时间:2021-03-21  阅读:()
ICS点击此处添加ICS号CCS点击此处添加中国标准文献分类号团体标准T/GDAQIXXXXX—XXXX科技热点数据分析应用标准规范征求意见稿XXXX-XX-XX发布XXXX-XX-XX实施广东省质量检验协会发布T/GDAQIXXXXX—XXXX目次前言II1范围12规范性引用文件13术语和定义14科技热点3T/GDAQIXXXXX—XXXX前言本文件按照GB/T1.
1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草.
请注意本文件的某些内容可能涉及专利.
本文件的发布机构不承担识别专利的责任.
本文件由广东省科技创新监测研究中心提出.
本文件由广东省质量检验协会归口.
本文件起草单位:广东省科技创新监测研究中心、广东金科信息网络中心有限责任公司.
本文件主要起草人:邱舟强、蔡桂兰、陈丽丽、胡意、郑宏松.
T/GDAQIXXXXX—XXXX科技热点数据分析应用标准规范1范围本规范规定了广东省科技政务大数据应用平台科技专家数据库的术语和定义、数据分类说明、数据元描述、数据元字典、数据库设计相关要求.
本规范适用于广东省广东省科技政务大数据应用平台科技专家数据库设计、数据交换计软件开发.
2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.
其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有修改单)适用于本文件.
GB18030信息技术中文编码字符集GB/T35295-2017信息技术大数据术语3术语和定义GB/T15191、GB/T18391.
3、GB/T18391.
4、GB/T22373界定的以及下列术语和定义适用于本文件.
3.
1概念concept通过对特征的独特组合而形成的知识单元.
[来源:GB/T18391.
4-2009,3.
2]3.
2属性attribute某个对象或实体的一种特性.
[来源:GB/T18391.
3-2001,3.
1]3.
3数据data事实、概念或指令的一种形式化的表示形式,以适合于人工或自动方式进行通信、解释或处理.
[来源:GB/T15191-2010,3.
7]3.
4T/GDAQIXXXXX—XXXX数据元dataelement用一组属性描述定义、标识、表示和允许值的一个数据单元,在一定语境下,通常用于构建一个语义正确,独立且无歧义的特定概念主义的信息单元.
[GB/T18391.
1-2002]注:数据元也是构建元数据和元数据实体的基本单元.
3.
5数据元标记dataelementtag数据元目录中数据元的唯一标识.
[来源:GB/T15191-2010,3.
9]3.
6数据元字典dataelementdictionary列出并定义了全部相关数据元的一种信息资源.
[来源:GB/T18391.
3-2001,3.
5]3.
7数据元值dataelementvalue数据元允许值集合中的一个值.
[来源:GB/T18391.
3-2001,3.
6]3.
8数据元值的长度dataelementvaluelength数据元值中字符的数目.
[来源:GB/T15191-2010,3.
11]3.
9名称name用语言表达的一个对象的指称.
[来源:GB/T18391.
4-2009,3.
11]3.
10元数据metadata定义和描述其他数据的数据.
[来源:GB/T22373-2008,3.
3]3.
11元数据实体metadataentityT/GDAQIXXXXX—XXXX一组说明数据相同特性的元数据元素.
注1:与UML术语中的"类"同义.
注2:可以包含一个或一个以上元数据实体.
[来源:GB/T22373-2008,3.
5]3.
12元数据子集metadatasection元数据的子集合,由相关的元数据实体和元素组成.
注:与UML术语中的"包"同义.
[来源:GB/T22373-2008,3.
6]3.
13项目库编码projectid针对广东省科技政务大数据应用平台数据仓库中的科技热点数据类型进行编码,以自然数表示,不可重复,原始爬虫数据为1,结果分析统计数据为2.
3.
14元数据元素metadataelement元数据的基本单元.
注:与UML术语中的属性同义.
[来源:GB/T22373-2008,3.
4]3.
15科技热点tech_hotspots指的是比较受广大群众关注,或者欢迎的科技新闻或者科技信息.
科技热点数据包括广东省热点、全国热点、全球热点.
3.
16科技热词tech_hotwords即热门词汇.
作为一种词汇现象,反映了一个国家、一个地区在一个时期人们普遍关注的科技问题和科技事物.
具有时代特征,反映一个时期的科技热点话题及民生问题.
3.
17网络爬虫webcrawlerT/GDAQIXXXXX—XXXX网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.
另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫.
3.
18ETLExtract-Transform-LoadETL是指数据的抽取(Extract),转换(Transform)和加载(Loading),它是一个数据转移、重组的过程,是数据仓库系统实施的一个非常重要的环节.
4科技热点数据获取科技热点数据的获取主要有两种方式:一是手工收集按模板入库,通过人工收集广东省各个地市科技数据,并进行数据整理、汇总、提交;二是通过Python网络爬虫抓取,通过先分析爬取数据的网站的性质,再根据不同的网站编写自动化抓取科技热点信息的代码脚本,从多个科技网站上爬取相关联的热点数据信息(如图1).
开发的Python爬虫引擎可以封装成任务包供ETL数据采集工具调用,爬虫可以自动采集所有其能够访问到的页面内容,为搜索引擎和大数据分析提供数据来源.
图1Python爬虫抓取4.
1.
1广东省热点广东省热点涵盖广东省最前沿科技热点与动态,热点数据来源于广东省科技项目申报指南建议,通过智能分词、统计词频技术对热点进行统计分析,形成热点的热度指数,对当前科技热点保持可持续、动态关注,为全省的科学研究和政府决策提供了重要的支持作用.
T/GDAQIXXXXX—XXXX表1广东省科技热点数据获取要求名称广东省科技热点数据来源广东省科技业务管理阳光政务平台等政府权威网站数据格式Excel数据内容指南建议热度爬取频率一年一次数据时间2017年-2019年4.
1.
2全国热点全国热点数据来源于中国知网,利用爬虫和自然语言处理技术进行关键词提取,挖掘国内最前沿的科技动态,选出最前沿的相关科技热词作为底层数据,获取国内top热点热度指数及发展趋势,实时掌握国内科技动态发展,对政府投入科学研究有重要导向作用.
表2全国科技热点数据获取要求名称全国科技热点数据来源中国知网数据格式Excel数据内中国知网发文量爬取频率三个月一次数据时间2017年-2019年4.
1.
3全球热点全球热点数据来源于国际权威期刊WebOfScience,通过爬虫和自然语言处理获取全球top热点热度指数及发展趋势,把握世界科技创新浪潮之颠,推动政府新一轮科技革命变革.
T/GDAQIXXXXX—XXXX表3全球科技热点数据获取要求名称全球科技热点数据来源WebOfScience数据格式Excel数据内容SCI发文量爬取频率三个月一次数据时间2017年-2019年5科技热点数据入库通过网络爬虫技术自动从相关权威网站上获取公开的科技业务相关的文献资料,对收集到的科技数据按科技热点规则进行整理、汇总入库.
图2数据收集模板示例T/GDAQIXXXXX—XXXX5.
1.
1科技热点数据元描述5.
1.
1.
1数据元的表示规范本规范中数据元目录的编制遵循GB/T19488.
1-2004中的规定.
本节列出了科技计划项目数据元的共有属性,包括数据元标记、中文名称、必备性、数据类型、定义、示例.
表4属性列表属性是否采用数据元标记是中文名称是必备性是数据类型是定义是示例是5.
1.
1.
2数据元标记数据元标记是数据元目录中的唯一标识,采用4位数字形式,如图3所示:图35.
1.
2科技热点数据元字典T/GDAQIXXXXX—XXXX表5项目库编号列表项目库编号信息集名称数据收集方式数据共享方式1原始数据表数据录入/导入接口共享2结果分析表数据录入/导入接口共享5.
1.
2.
1原始数据表5.
1.
2.
1.
1科技热点基础信息表6科技热点基础信息表数据元标记中文名称必备性数据类型长度限制定义示例1101Id必备字符型32系统id编码2251102热点年份必备字符型4年份20171103热点名称必备字符型256名称《国家高新技术产业开发区"十三五"发展规划》解读大数据1104热点描述非必备长文本字符串1000详细描述1105搜索指数必备字符型641106热点类型必备字符型64广东省热点1107子系统类型必备字符型641108热点区域必备字符型641109热点时间_备份必备字符型64格式"2015-01-1223:22:11"1110热点月份_备份必备日期型格式"201501"T/GDAQIXXXXX—XXXX表6科技热点基础信息表(续)数据元标记中文名称必备性数据类型长度限制定义示例1111数据来源必备字符型641112录入时间必备日期型格式"2015-01-12"5.
1.
2.
1.
2科技热词基础信息表7科技热词基础信息表数据元标记中文名称必备性数据类型长度限制定义示例1201Id必备字符型32系统id编码2251202热词年份必备字符型4年份20171203热词名称必备字符型256关键词云计算与大数据1204热词描述非必备长文本字符串1000详细描述1205热词热度必备数值20出现频率2551206热词区域必备字符型321207热词时间必备字符型64格式"2015-01-1223:22:11"1208热词月份必备日期型格式"201501"1209热词类型必备字符型641210热点名称必备字符型641211子系统必备字符型641212数据来源必备字符型641213录入时间必备日期型格式"2015-01-12"T/GDAQIXXXXX—XXXX5.
1.
2.
2结果分析表5.
1.
2.
2.
1广东省热点信息表8广东省热点信息数据元标记中文名称必备性数据类型长度限制定义示例2101Id必备字符型32系统id编码2252102年份必备字符型4年份20172103名称必备字符型256关键词云计算与大数据2104描述非必备长文本字符串1000详细描述2105出现频率,热度值必备数值20出现频率2552106类型必备字符型32广东省热点2107行业类型必备字符型64基准医学2108数据来源必备字符型642109录入时间必备日期型格式"2015-01-12"5.
1.
2.
2.
2全国热点信息表9全国热点信息数据元标记中文名称必备性数据类型长度限制定义示例2201Id必备字符型32系统id编码2252202年份必备字符型4年份2017T/GDAQIXXXXX—XXXX表9全国热点信息(续)数据元标记中文名称必备性数据类型长度限制定义示例2203名称必备字符型256关键词云计算与大数据2204描述非必备长文本字符串1000详细描述2205出现频率,热度值必备数值20出现频率2552206类型必备字符型32全国热点2207行业类型必备字符型64基准医学2208数据来源必备字符型642209录入时间必备日期型格式"2015-01-12"5.
1.
2.
2.
3全球热点信息表10全球热点信息数据元标记中文名称必备性数据类型长度限制定义示例2301Id必备字符型32系统id编码2252302年份必备字符型4年份20172303名称必备字符型256关键词云计算与大数据2304描述非必备长文本字符串1000详细描述2305出现频率,热度值必备数值20出现频率2552306类型必备字符型32全球热点T/GDAQIXXXXX—XXXX表10全球热点信息(续)数据元标记中文名称必备性数据类型长度限制定义示例2307行业类型必备字符型64基准医学2308数据来源必备字符型642309录入时间必备日期型格式"2015-01-12"6科技热点可视化展示6.
1通则利用数据挖掘技术对省阳光政务平台中指南建议、国家科技部所有的申报书可行性报告、国际权威期刊Science、Nature进行文本挖掘,分析得出当前科技研究重点、热点问题.
分栏展示全省、全国以及全球科技近三年TOP20热点以及热点的热度历年变化趋势发展,方便科技主管部门对科研方向把控,着重培育,定向引导.
图4科技热点首页6.
2热点说明介绍T/GDAQIXXXXX—XXXX鼠标点击"热点说明icon"时,弹窗-轮播显示广东省热点、全国热点及全球热点获取来源、技术介绍等内容信息,轮播图自动按照3s间隔循环轮播;点击"左右轮播箭头"或者点击"右边气泡名词"切换查看对应的热点说明,自动轮播或者手动切换到对应的名词解释时,右边的名词高亮显示.
如图5所示:图5热点说明6.
2.
1热点年份选择科技热点数据包括广东省热点、全国热点、全球热点.
默认显示最近一年最新的科技热点,可以切换选择近三年任一年份热点.
如图6所示:图6年份选择切换6.
2.
2热点词云展示科技热点词云主要以椭圆形关键词的形式,展现广东省科技领域最受关注的科技热点情况;关键词设置多种随机颜色,提高对比度;热度越高的关键词,以越突出的字体展示(增大字体,加粗字体);鼠标悬浮于某一热点时,悬浮显示所看热点的名称及热度指数;点击某热点,下方联动到对应的热点详情情况.
如图7所示:T/GDAQIXXXXX—XXXX图7科技热点词云展示6.
2.
3热点排名对比以自动轮播形式可视化展示排名前20的科技热点情况,可手动切换查看热点排名,当点击某热点排名,下方联动到对应的热点情况.
热度指数越高,排名越靠前,可直观展示科技热点的对比情况.
图8Top20热点排名对比情况6.
2.
4热点趋势详情以文字形式展示当前查看热点的简要介绍,以柱形图和折线图结合可视化展示热点近几年热度趋势变化,指标悬浮对应横坐标,显示某热点某年热度指数值.
点击可以查看每年的增加量,柱形图可以动态对比热度变化.
T/GDAQIXXXXX—XXXX图9科技热点历年变化趋势6.
3科技热点分析应用利用Hadoop、Hbase大数据分析技术,结合科研社交网络平台,对科研热点进行分析画像,通过画像相似度分析技术以及大数据可视化技术,分析出科技热点趋势,为科技计划项目资助方向提供辅助依据,根据项目立项情况制定新的政策推动科学技术发展态势及方向,提高决策科学性.
项目立项的热度和关注度不仅影响科技热点的趋势,同时影响政策的制定.
新的政策出台也会带动新的项目和新的科技热点从而影响科技热点趋势.
图10科技热点可视化分析应用关系图

美国VPS 美国高防VPS 香港VPS 日本VPS 首月9元 百纵科技

百纵科技湖南百纵科技有限公司是一家具有ISP ICP 电信增值许可证的正规公司,多年不断转型探索现已颇具规模,公司成立于2009年 通过多年经营积累目前已独具一格,公司主要经营香港服务器,香港站群服务器,美国高防服务器,美国站群服务器,云服务器,母机租用托管!美国CN2云服务器,美国VPS,美国高防云主机,美国独立服务器,美国站群服务器,美国母机。美国原生IP支持大批量订货 合作 适用电商 亚马逊...

3元/首月香港便宜vps究竟是什么货。

便宜的香港vps多少钱?现在国外VPS主机的价格已经很便宜了,美国VPS主机最低一个月只要十几元,但同样免备案的香港VPS价格贵不贵呢?或者说便宜的香港VPS多少钱?香港vps主机价格要比美国机房的贵一些,但比国内的又便宜不少,所以目前情况是同等配置下,美国VPS比香港的便宜,香港VPS比国内(指大陆地区)的便宜。目前,最便宜香港vps低至3元/首月、18元/月起,今天云服务器网(www.yunt...

RackNerd提供四款高配美国服务器促销活动低至月$189

RackNerd 商家给的感觉就是一直蹭节日热点,然后时不时通过修改配置结构不断的提供低价年付的VPS主机,不过他们家还是在做事的,这么两年多的发展,居然已经有新增至十几个数据中心,而且产品线发展也是比较丰富。比如也有独立服务器业务,不过在他们轮番的低价年付VPS主机活动下,他们的服务器估摸着销路不是太好的。这里,今天有看到RackNerd商家的独立服务器业务有促销。这次提供美国多个机房的高配独立...

蜘蛛搜索引擎为你推荐
1头牛168万人民币1头700千克的牛多少钱硬盘工作原理硬盘的工作原理是什么?原代码求数字代码大全?陈嘉垣反黑阿欣是谁演的 扮演者介绍www.99cycy.com谁在这个http://www.sifangmall.com网站上买过东西?www.5ff.comhttp://www.940777.com/网站,是不是真的网投六合www.bbb551.com广州欢乐在线551要收费吗?bbs2.99nets.com天堂1单机版到底怎么做javlibrary.comImage Library Sell Photos Digital Photos Photo Sharing Photo Restoration Digital Photos Photo Albums汴京清谈汴京还被称为什么?
绍兴服务器租用 哈尔滨服务器租用 域名服务器是什么 过期域名抢注 鲨鱼机 lamp配置 促正网秒杀 phpmyadmin配置 佛山高防服务器 免费phpmysql空间 免费dns解析 免费网页申请 购买国外空间 linux使用教程 多线空间 dnspod 万网主机 杭州电信 免备案jsp空间 fatcow 更多