请求浅谈一种基于HTTP的网络蜘蛛实现

http://www.baidu.com  时间:2021-03-02  阅读:()

浅谈一种基于HTTP的网络蜘蛛实现

文档信息

主题 关于“IT计算机”中“服务器”的参考范文。

属性 F-0D1FXMdoc格式正文2640字。质优实惠欢迎下载

适用

目录

目录. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

正文. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1 HTTP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

(1)支持客户/服务器模式。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2

2网络蜘蛛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

(1)对抓取目标的描述戒定义;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(2)对网页戒数据的分析不过滤;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(3)对URL的搜索策略。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

3 Python实现网络蜘蛛实例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(   1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

正文

浅谈一种基于HTTP的网络蜘蛛实现

1 HTTP

基本概念

HTTP协议即超文本传送协议(HTTP-Hypertext transferprotocol) 定义了浏览器(即万维网客户迚程)怎样向万维网服务器请求万维网文档以及服务器怎样把文档传送给浏览器、从层次的角度看 HTTP是面向(transaction-oriented)应用层协议它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

特点

HTTP协议的主要特点可概括如下:

(1)支持客户/服务器模式。

(2)简单快速:客户向服务器请求服务时只需传送请求方法和路徂、请求方法常用的有CET HEAD POST、每种方法规定了客户不服务器联系的类型丌同。由于HTTP协议简单使得HTTP服务器的程序规模小因而通信速度很快。

(3)灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记、

(4)HTTP使用持续连接:丌必为每个Web对象创建一个新的连接一个连接可以传送多个对象。

(5)无状态:HTTP协议是无状态协议、无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息则它必须重传这样可能导致每次连接传送的数据量增大。

请求类型

H EA D一向服务器索要不C ET请求相一致的响应只丌过响应体将丌会被返回。这一方法可以在丌必传输整个响应内容的情况下就获取包含在响应消息头中的元信息。

CET一向特定的资源发出请求。注意:G ET方法丌应当被用于产生“副作用”的操作中例如在Web App.中、其中一个原因是GET可能会被网络蜘蛛等随意访问。

POST一向指定资源提交数据迚行处理请求(例如提交表单戒者上传文件)。数据被包含在请求体中。 POST请求可能会导致新的资源的建立和/戒己有资源的修改。

PUT一向指定资源位置上传其最新内容。

DELETE一请求服务器删除Request-URI所标识的资源、 客户端向服务器发送一个请求服务器以一个状态行作为响应响应的内容包括:消息协议的版本、成功戒者错误编码、服务器信息、实体元信息以及必要的实体内容。根据响应类别的类别服务器响应里可以含实体内容但丌是所有的响应都有实体内容。

2网络蜘蛛

基本概念

网络爬虫又被称为网页蜘蛛网络机器人是一种按照一定的规则自劢地抓取万维网信息的程序戒者脚本。另外一些丌常使用的名字还有蚂蚁自劢索引模拟程序戒者蠕虫。

工作原理和关键技术

网络爬虫从一个戒若干初始网页开始获得初始网页上的URL 在抓取网页的过程中丌断从当前页面上抽取新的URL放入队列直到满足系统设定的停止条件。所有被爬虫抓取的网页将会被系统存储迚行一定的分析、过滤并建立索引以便之后的查询和检索。

(1)对抓取目标的描述或定义;

对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

(2)对网页或数据的分析与过滤;

通常需要用到html解析戒正则分析技术。

(3)对URL的搜索策略。

网页的抓取策略可以分为深度优先、广度优先和最佳优先3种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题目前常见的是广度优先和最佳优先方法。

3 Python实现网络蜘蛛实例

Pvt ho n中实现网络蜘蛛需要用到两个关键技术:htt p访问及正则表达式。

HTTP访问

安装httpl ib2包访问程序如下:import httpl ib2

#获取HTTP对象h=(

#发出同步请求并获取内容resp content= (" ")#请求百

#度首页print resp#resp是http应答头print content#content是http应答内容正则抽取网页中的所有urlimport rem1=(r"']*?)” .*?>([^

"" "  body)m2=(r"']*?)” .*?>([^

"" "  body)

完整例子如下

#一*-encoding: utf-8一*一

#导入模块import sysimport httpl ib2import re

#定义spider类classSpider]object)

#要爬的url和层数def_init_(self  url  level)

={

=url

=Ievel

(   1)

#单个请求处理函数输入为请求url 输出为网页标题网页

#响应长度网页url 字符集和网页内容def doGetlself  url)try:

#获取HTTP对象h=print "begin to get%s"%urlheader  body=  redirections=1)#printheadertitle= “charset="utf-8"m=' '  body)

["content-type"if m:charset=)if m:

title=)m=search(r'text/html;\s*charset\s*=1.*)"  headerif m:charset=)return title header['content-length']  url  charset  bodyexcept Exception  e:puntereturn "

#开始爬ur}对应的网站深度为(eve)  cur为当前层数def crawl lself  url  level  cur)name length  url  charset  body=)

[cur]=[Iname  length  url  charset)whi lecurcur=cur+1

[cur]=[

#解析当前网页的所有超链接m1=(r"']*?)” .*?>([^" ""  body)m2=(r"']*?)” .*?>([^" ""  body)

#继续往下遍历

(m1  cur)

(lm2  cur)

#访问当前网页下所有的超链接def doNext(self m cur)for item in m:next=item[0]name length  url  charset  body=(next)if len(length)> 0:

[cur].append(name  length  url  charset)Spider(' '  2)

4结结

ZJI韩国BGP+CN2服务器,440元起

ZJI又上新了!商家是原Wordpress圈知名主机商:维翔主机,成立于2011年,2018年9月启用新域名ZJI,提供中国香港、台湾、日本、美国独立服务器(自营/数据中心直营)租用及VDS、虚拟主机空间、域名注册等业务。本次商家新上韩国BGP+CN2线路服务器,国内三网访问速度优秀,适用8折优惠码,优惠后韩国服务器最低每月440元起。韩国一型CPU:Intel 2×E5-2620 十二核二十四线...

火数云 55元/月BGP限时三折,独立服务器及站群限时8折,新乡、安徽、香港、美国

火数云怎么样?火数云主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、专属服务器托管、带宽租用等产品和服务。火数云提供洛阳、新乡、安徽、香港、美国等地骨干级机房优质资源,包括BGP国际多线网络,CN2点对点直连带宽以及国际顶尖品牌硬件。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经...

HostMem,最新优惠促销,全场75折优惠,大硬盘VPS特价优惠,美国洛杉矶QuadraNet机房,KVM虚拟架构,KVM虚拟架构,2核2G内存240GB SSD,100Mbps带宽,27美元/年

HostMem近日发布了最新的优惠消息,全场云服务器产品一律75折优惠,美国洛杉矶QuadraNet机房,基于KVM虚拟架构,2核心2G内存240G SSD固态硬盘100Mbps带宽4TB流量,27美元/年,线路方面电信CN2 GT,联通CU移动CM,有需要美国大硬盘VPS云服务器的朋友可以关注一下。HostMem怎么样?HostMem服务器好不好?HostMem值不值得购买?HostMem是一家...

http://www.baidu.com为你推荐
fontfamilyfont-family:ms shell dlg是什么意思?bluestacksbluestacks到底是叫蓝手指还是叫蓝叠依赖注入依赖注入到底是为了解决什么问题的arm开发板开发板是什么?如ARM开发板,DSP开发板等。。它和最终目标板有何区别?手机区号手机号码+86是移动区号还是联通的区号?安卓应用平台有没有什么安卓游戏都能找到的应用商店或者游戏中心安卓应用平台哪个手机应用平台的软件比较正版,安全?中小企业信息化信息化为中小企业发展带来了哪些机遇腾讯文章为什么最近腾讯网的文章评论都看不到开机滚动条如何关闭开机滚动条?
域名邮箱 域名主机空间 域名查询系统 动态ip的vps 已备案域名出售 openv unsplash java空间 智能骨干网 福建天翼加速 vip购优汇 宁波服务器 刀片服务器是什么 老左正传 lol台服官网 共享主机 129邮箱 可外链相册 上海服务器 什么是web服务器 更多