爬虫下一代互联网技术-2015试卷李楚煌.doc

下一代互联网  时间:2021-03-21  阅读:()

学院专业姓名学号座号

(密封线内不答题)

„„„„„„„„„„„„„„„„„„„„

密„„„„„„„„„„„„„„„„„„封„„„„„„„„„„„„„„„

线„„„„„„„„„„„„„„线„„„„„„„„„„„„„„„

_____________ ________

深圳大学期末考试试卷

命题人(签字) 崔来中 审题人(签字) 年 月 日

《下一代互联网技术》课程综述报告要求

1.课程综述报告由个人独立完成。

2.要求学生从教师的授课专题包括

1 下一代互联网过渡技术翻译技术和隧道技术

2 云计算资源调度、存储、安全

3 社交网络推荐、影响力分析、传播模型

4 物联网无线传感器网络、节能技术

5 搜索技术爬虫技术、 图片搜索、语义搜索

6 P2P 文件下载、流媒体分发

7 大数据处理与分析技术网络与机器学习

8 多媒体网络多媒体网络与SDN、流媒体与机器学习

9 软件定义网络SDN与安全、 SDN与流量优化、 SDN与网络管理

选择一个专题中的具体技术问题上述括号内为推荐的问题内容作为综述报告主题综述报告名称自拟参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告” 评分标准见附件三。

3.提交的课程综述报告要符合深圳大学相关的格式规范。

4.第17周提交课程综述报告电子版到blackboard系统纸质版交到任课老师处。

附件一综述报告格式模板

深圳大学考试答题纸

(以论文、报告等形式考核专用)

二○一 二○一 学年度第 学期

1.前言

在21世纪互联网高速发展的背景下搜索引擎在人们生活中有着举足轻重的作用而网络爬虫是搜索引擎中的重要的信息采集器是搜索引擎技术的核心部分。

本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法并对各种方法进行实验分析主要研究分析工作如下:

网络爬虫中的核心技术部分 即网络爬虫系统的多线程设计与实现详细介绍网络爬虫的概念及信息分类涉及到的算法技术要点并探讨实现对漏洞平台当中的爬虫技术的聚焦。

网络爬虫的核心在于 以端口接通为设计基础依据HTTP协议使用SOCKET套接字相关函数向服务器端发送HTTP请求得到目标URL对应的网页内容再从该网页提取出未爬取过的URL将该URL重新作为源URL进行新的一轮向下爬取搜索工作按照各种优先算法向下爬行从而完成网络爬虫系统的爬行工作。

在互联网中有着很多协议它们彼此联系着支持着许多网络程序的运行。网络爬虫系统是基于SOCKET协议的而SOCKET协议的基础建立在TCP/IP协议之上。 由此 网络爬虫是基于最原始的协议依靠算法技术组织分布式系统非常

有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大接下来我会详细讨论近期我对这个技术的若干研究。

2. 阅读文献概述

基于此次希望探讨的研究方向 网络爬虫在中文文献方面主要有以下阅读多线程进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术爬虫对漏洞管理平台核心帮助。在英文文献方面主要有 《A Cloud-based Web CrawlerArchitecture》 , 《A Spatial Web Crawler for Discovering》 , 《Design ofimproved focused web crawler》 。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、 以漏洞管理平台为切口看爬虫技术有哪方面的发展潜力。

多线程爬虫又可以理解为分布式爬虫主要阅读的部分有分布式网络爬虫结构设计其中又细分为爬行节点的结构设计控制节点的结构设计。分布式网络爬虫的关键技术在于种子集合的优化选取分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读在于有效采集需要对信息检索引擎有所划分全文检索、 目录索引型检索、元检索。再深入到网络爬虫的搜索策略有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容爬虫有其特色性质布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读首先了解的是在漏洞平台这个领域爬虫子模块的划分爬虫接口模块、配置文件解析模块、 网页爬取模块、 网页解析模块、 URL过滤去重模块、漏洞信息保存模块。在漏洞平台管理这个框架下对爬虫效率如何改进、 URL相关内容如何改进有所阅读了解。

此外 《A Cloud-based Web Crawler Architecture》主要论述的网络爬虫为代表的应用程序如何在网络上更好得进行有趣的信息的查找。因为网路上有巨量的索引的链接或非结构化的数据这需要网络爬虫去应对这些挑战链接和高密度计算的复杂性。在这种背景下该文献提供了云计算模式支持弹性的资源化和非结构化的数据并提供读写加注功能。采用云计算的功能和MapReduce编程技

术可以使我们能够分布式抓取网页和存储在云计算中所发现的Azure表。 《ASpatial Web Crawler for Discovering》 这篇文献其实与单纯地谈论爬虫技术不一样一般地讨论爬虫技术是如何在物理、软件层面提高单体计算机的速度、分布式地进行搜索又或者对URL等算法策略的优化。而这篇文献谈论的可以归属另一个学科它围绕地缘服务器提供的地理特征进行空间信息的划分使用空间的数据源。核心来说这是一个对地理领域信息系统的研究。地理空间数据在本质上常常动态并在异构的形式提供 网上空间数据是一个基于地理的形式进行发布的。空间网络爬虫专注于地理空间在地缘服务器上的功能。 《Design of improvedfocused web crawler》这篇文献讲述的东西比较细是对URL和锚文本的语义性质的研究分析。它提出了一种技术偏重于基于语义重点的网络履带的分析探讨。

3.课题研究方向的现状与发展趋势

研究方向主要有以下六个分支:多线程分布式进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术爬虫对漏洞管理平台核心帮助云计算模式这种支持弹性的资源化和非结构化的数据的爬虫技术空间网络爬虫这样专注于地理空间在地缘服务器上研究的新科技锚文本的语义性质的研究分析。

分布式网络爬虫的理论基础它由多台PC机组成其中一台是控制节点其他为爬行节点控制节点负责维护所有结点的信息对所有结点的信息进行同步同时在控制节点上进行结点的添加和删除。它分为5个模块 URL分析模块、下载模块、 网页分析模块、结点通信模块、 URL分配模块。

分布式网络爬虫的方法可以具体到5个模块来分析探讨。 URL分析模块是接受来自分布式模块分配的URL任务判断该URL是否被访问过。访问过进队列没访问过忽略。那在分布式网络爬虫中与单台PC有所不同的是单台PC机只需要对URL地址进行记录还有域名转换计算复杂度低分布式网络爬虫中对需要IP与域名转换的计算量大复杂度高。下面具体解释维护URL队列在每个节点维护一个本节点将要访问的URL队列模块可以参照Mercator系统每一道指向一个domain这样可以避免多个线程同时访问一个domain。刚刚已经谈到计算

量大的问题是由于多道队列的数据结构在爬行进行到一定阶段时数据量一定分成庞大。如何解决在内存不能够承载时将队列的中间部分放在硬盘上在内存中只保留队列的头和尾。还有就是完整的URL是没必要记录的只需要判断URL是否已经下载过了。因此可以采用哈希表存储URL的checksums,高位存储hostname的checksum这样一来来自同样的domain的URL就会排列在一起。之前说过把数据放在硬盘上。这样实现建立一个LRU cache。 明显 网页链接的聚簇性和高位存储hostname的数据结构使硬盘的读写概率非常小提高了爬虫分布式系统的运行速度。 IP与域名需要转换是因为URL地址不同但可能指向同一物理网页。譬如多个域名共同拥有一个IP而各个域名下的内容是不同的DNS转换导致的同一域名对应的IP是不一样的一个站点多个域名。面多这种情况如何解决呢首先积累一定数量的域名和IP下载一些网页判断分别属于哪种情况积累下来然后针对性地取舍避免重复收集使用。下载模块的核心在于节点线程控制。主要解决的是本地节点与Web端服务器的通信问题。在前言中提到爬虫技术也是基于TCP协议的。客户有时在同一次会话中希望从服务器端下载更多的HTML页面 由于HTTP1.0该TCP需要终止。这是可以这样为了节省时间和网络带宽可以保留上次已经建立好的链接。如果该链接没有失效本次可以继续使用。详细点说就是服务器接收爬虫客户端发送的请求消息后先返回一个HTTP头信息包含文件类型大小最后修改时间等内容后续添加包含网页的文本内容。根据网页体的大小 申请内存空间准备接收有两种情况需要放弃接收一、 网页类型不符合要求。二、超出预定接收大小。毕竟我们现在讨论的是多线程的网络爬虫技术在下载模块重点在于结点线程模块。结点线程根据控制计算机硬件的运行情况把并行开设的线程数控制在一个最佳的数量上并监控保证同时访问同一个domain的线程数不超过n这样是为了保证web服务器不会出现类似于拒绝服务攻击DOS反应使得一些URL的漏取。最好建立一个DNS缓冲区即是缓存。这样可以避免频繁地查询DNS服务器。 网页分析模块相对简单 HTML比较灵活 URL出现的语境较多我们应该参照HTML的语法给出相应的URL出现的语境。 URL分配模块工作是为了协调各个节点将任务分配给不同的节点并且能够增删节点。节点通信模块负责节点间的相互通信除了采集器采集网页时直

接与Internet交互外其他时候所有网络通讯都通过通信器完成。上次模块通过Send把它的数据包以单体为目标标识发布。接收上层的发送请求后通信器先将数据包缓存起来再通过目标标识维护每个节点的节点号和IP对应的节点信息。有节点通信模块可以只关注本身的策略并且和其他模块松耦合方便架构在不同的对等网络上。

分布式网络爬虫的方案可以先讲述一个中级规模的网页搜集 当然对于一些大型的网站如凤凰网、腾讯首页等网站的全站下载分布式系统仍有用武之地。先了解下对中等规模的网站的爬虫搜集一个网站的host是一样的 因此需要在普通的任务分配基础上做出一些改动首先任务的粒度不能再选择host 因为这样一来 同一网站的网页的哈希函数的数值是唯一的任务只能分配在节点上对于分布式网络爬虫系统显然是不行的。粒度如果按URL分配粒度又太小了 由此可以对网站的URL信息收集和分析总结出网站全站下载多机协同任务分配算法。举例说明大型网站下有很多子网站而同一子网站网页的URL有一些共同点它们的URL前一两个字都相同这些子网页的互联关系比较紧密子网站与子网站网页的引用频繁度没有那么高差别较大可以把任务分配的粒度定为子网站。 由于粒度的合理分配分布式对中大型网站进行全站下载是可实现的。

关于分布式网络爬虫技术的现状 国内外的一些大公司已经有很成熟的解决方案并已投入使用。其中以Google研究的最早也最先进。在Google公开的网络爬虫设计中 Internet Archive Crawler是可以使用多台机器进行爬行的每个Crawler进程可分配64个站点同时爬行每个站点只分配一个Crawler进行爬行。谷歌的分布式网络爬虫技术能够在全球处于领先地方也在于它的搜索引擎在全球处于领先地位。 Google每天都会对使用它搜索引擎的网站进行一定量的爬虫有了大量的数据分析它对于网络上的语义分析是领先的而在全球大量分布的服务器也促进了它在分布式网络爬虫的发展。其中它研发的Mercator是一个非常出色的Crawler该技术完全用Java实现它才用的数据结构可以不管爬行规模的大小在内存只占有限的空间。分布式网络爬虫现阶段采用的技术主要是服务器集群技术 由中央控制软件进行任务发布、负载平衡和运行监控。

提速啦(24元/月)河南BGP云服务器活动 买一年送一年4核 4G 5M

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...

ZJI:香港物理服务器,2*E5-2630L/32G/480G SSD/30Mbps/2IP/香港BGP,月付520元

zji怎么样?zji是一家老牌国人主机商家,公司开办在香港,这个平台主要销售独立服务器业务,和hostkvm是同一样,两个平台销售的产品类别不一平,商家的技术非常不错,机器非常稳定。昨天收到商家的优惠推送,目前针对香港邦联四型推出了65折优惠BGP线路服务器,性价比非常不错,有需要香港独立服务器的朋友可以入手,非常适合做站。zji优惠码:月付/年付优惠码:zji 物理服务器/VDS/虚拟主机空间订...

NameCheap黑色星期五和网络礼拜一

如果我们较早关注NameCheap商家的朋友应该记得前几年商家黑色星期五和网络星期一的时候大促采用的闪购活动,每一个小时轮番变化一次促销活动而且限量的。那时候会导致拥挤官网打不开迟缓的问题。从去年开始,包括今年,NameCheap商家比较直接的告诉你黑色星期五和网络星期一为期6天的活动。没有给你限量的活动,只有限时六天,这个是到11月29日。如果我们有需要新注册、转入域名的可以参加,优惠力度还是比...

下一代互联网为你推荐
东软集团股份有限公司香港iphonecheckmy非洲bitthinkphpthinkphp与PHP的差别,怎么查看thinkphp编写的系统?flashwind谁能教我怎么在360里下载个flashwind?支付宝蜻蜓发布怎么取得支付宝蜻蜓二代的代理?重庆电信断网为什么重庆电信沙坪坝天星桥这网络老是掉线360防火墙在哪里设置电脑或电脑360有联网防火墙吗,在哪里设置腾讯官方电话腾讯公司电话多少
香港vps主机 免费申请网页 100x100头像 佛山高防服务器 t云 腾讯总部在哪 smtp虚拟服务器 个人免费邮箱 lamp的音标 supercache 网站防护 阿里云邮箱怎么注册 九零网络 卡巴斯基官方下载 vi命令 ssd 中国最年轻博士 电脑主机报警 华为4核手机 灵动:鬼影实录 更多