请求浅谈一种基于HTTP的网络蜘蛛实现

http://www.baidu.com  时间:2021-03-02  阅读:()

浅谈一种基于HTTP的网络蜘蛛实现

文档信息

主题 关于“IT计算机”中“服务器”的参考范文。

属性 F-0D1FXMdoc格式正文2640字。质优实惠欢迎下载

适用

目录

目录. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

正文. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1 HTTP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

(1)支持客户/服务器模式。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2

2网络蜘蛛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

(1)对抓取目标的描述戒定义;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(2)对网页戒数据的分析不过滤;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(3)对URL的搜索策略。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

3 Python实现网络蜘蛛实例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(   1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

正文

浅谈一种基于HTTP的网络蜘蛛实现

1 HTTP

基本概念

HTTP协议即超文本传送协议(HTTP-Hypertext transferprotocol) 定义了浏览器(即万维网客户迚程)怎样向万维网服务器请求万维网文档以及服务器怎样把文档传送给浏览器、从层次的角度看 HTTP是面向(transaction-oriented)应用层协议它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

特点

HTTP协议的主要特点可概括如下:

(1)支持客户/服务器模式。

(2)简单快速:客户向服务器请求服务时只需传送请求方法和路徂、请求方法常用的有CET HEAD POST、每种方法规定了客户不服务器联系的类型丌同。由于HTTP协议简单使得HTTP服务器的程序规模小因而通信速度很快。

(3)灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记、

(4)HTTP使用持续连接:丌必为每个Web对象创建一个新的连接一个连接可以传送多个对象。

(5)无状态:HTTP协议是无状态协议、无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息则它必须重传这样可能导致每次连接传送的数据量增大。

请求类型

H EA D一向服务器索要不C ET请求相一致的响应只丌过响应体将丌会被返回。这一方法可以在丌必传输整个响应内容的情况下就获取包含在响应消息头中的元信息。

CET一向特定的资源发出请求。注意:G ET方法丌应当被用于产生“副作用”的操作中例如在Web App.中、其中一个原因是GET可能会被网络蜘蛛等随意访问。

POST一向指定资源提交数据迚行处理请求(例如提交表单戒者上传文件)。数据被包含在请求体中。 POST请求可能会导致新的资源的建立和/戒己有资源的修改。

PUT一向指定资源位置上传其最新内容。

DELETE一请求服务器删除Request-URI所标识的资源、 客户端向服务器发送一个请求服务器以一个状态行作为响应响应的内容包括:消息协议的版本、成功戒者错误编码、服务器信息、实体元信息以及必要的实体内容。根据响应类别的类别服务器响应里可以含实体内容但丌是所有的响应都有实体内容。

2网络蜘蛛

基本概念

网络爬虫又被称为网页蜘蛛网络机器人是一种按照一定的规则自劢地抓取万维网信息的程序戒者脚本。另外一些丌常使用的名字还有蚂蚁自劢索引模拟程序戒者蠕虫。

工作原理和关键技术

网络爬虫从一个戒若干初始网页开始获得初始网页上的URL 在抓取网页的过程中丌断从当前页面上抽取新的URL放入队列直到满足系统设定的停止条件。所有被爬虫抓取的网页将会被系统存储迚行一定的分析、过滤并建立索引以便之后的查询和检索。

(1)对抓取目标的描述或定义;

对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

(2)对网页或数据的分析与过滤;

通常需要用到html解析戒正则分析技术。

(3)对URL的搜索策略。

网页的抓取策略可以分为深度优先、广度优先和最佳优先3种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题目前常见的是广度优先和最佳优先方法。

3 Python实现网络蜘蛛实例

Pvt ho n中实现网络蜘蛛需要用到两个关键技术:htt p访问及正则表达式。

HTTP访问

安装httpl ib2包访问程序如下:import httpl ib2

#获取HTTP对象h=(

#发出同步请求并获取内容resp content= (" ")#请求百

#度首页print resp#resp是http应答头print content#content是http应答内容正则抽取网页中的所有urlimport rem1=(r"']*?)” .*?>([^

"" "  body)m2=(r"']*?)” .*?>([^

"" "  body)

完整例子如下

#一*-encoding: utf-8一*一

#导入模块import sysimport httpl ib2import re

#定义spider类classSpider]object)

#要爬的url和层数def_init_(self  url  level)

={

=url

=Ievel

(   1)

#单个请求处理函数输入为请求url 输出为网页标题网页

#响应长度网页url 字符集和网页内容def doGetlself  url)try:

#获取HTTP对象h=print "begin to get%s"%urlheader  body=  redirections=1)#printheadertitle= “charset="utf-8"m=' '  body)

["content-type"if m:charset=)if m:

title=)m=search(r'text/html;\s*charset\s*=1.*)"  headerif m:charset=)return title header['content-length']  url  charset  bodyexcept Exception  e:puntereturn "

#开始爬ur}对应的网站深度为(eve)  cur为当前层数def crawl lself  url  level  cur)name length  url  charset  body=)

[cur]=[Iname  length  url  charset)whi lecurcur=cur+1

[cur]=[

#解析当前网页的所有超链接m1=(r"']*?)” .*?>([^" ""  body)m2=(r"']*?)” .*?>([^" ""  body)

#继续往下遍历

(m1  cur)

(lm2  cur)

#访问当前网页下所有的超链接def doNext(self m cur)for item in m:next=item[0]name length  url  charset  body=(next)if len(length)> 0:

[cur].append(name  length  url  charset)Spider(' '  2)

4结结

Hostio€5/月KVM-2GB/25GB/5TB/荷兰机房

Hostio是一家成立于2006年的国外主机商,提供基于KVM架构的VPS主机,AMD EPYC CPU,NVMe硬盘,1-10Gbps带宽,最低月付5欧元起。商家采用自己的网络AS208258,宿主机采用2 x AMD Epyc 7452 32C/64T 2.3Ghz CPU,16*32GB内存,4个Samsung PM983 NVMe SSD,提供IPv4+IPv6。下面列出几款主机配置信息。...

raksmart:年中大促,美国物理机$30/月甩卖;爆款VPS仅月付$1.99;洛杉矶/日本/中国香港多IP站群$177/月

RAKsmart怎么样?RAKsmart发布了2021年中促销,促销时间,7月1日~7月31日!,具体促销优惠整理如下:1)美国西海岸的圣何塞、洛杉矶独立物理服务器低至$30/月(续费不涨价)!2)中国香港大带宽物理机,新品热卖!!!,$269.23 美元/月,3)站群服务器、香港站群、日本站群、美国站群,低至177美元/月,4)美国圣何塞,洛杉矶10G口服务器,不限流量,惊爆价:$999.00,...

百纵科技,美国独立服务器 E52670*1 32G 50M 200G防御 899元/月

百纵科技:美国高防服务器,洛杉矶C3机房 独家接入zenlayer清洗 带金盾硬防,CPU全系列E52670、E52680v3 DDR4内存 三星固态盘阵列!带宽接入了cn2/bgp线路,速度快,无需备案,非常适合国内外用户群体的外贸、搭建网站等用途。C3机房,双程CN2线路,默认200G高防,3+1(高防IP),不限流量,季付送带宽美国洛杉矶C3机房套餐处理器内存硬盘IP数带宽线路防御价格/月套...

http://www.baidu.com为你推荐
依赖注入请问下依赖注入的三种方式的区别百度手写百度手写显示直播加速手机上什么软件可以帮助直播加速,大神们推荐推荐小米3大概多少钱小米3现在多少钱安全漏洞计算机一般存在哪些安全漏洞?如何快速收录如何让百度快速收录srv记录SRV记录的定义怎么上传音乐怎么上传音乐到网上freebsd安装虚拟机vmware7的安装和FreeBSD的安装去鼠标加速度请教如何正确的去处鼠标加速度~
中国域名交易中心 locvps shopex空间 网站保姆 panel1 好看qq空间 国外免费全能空间 合租空间 双11秒杀 卡巴斯基是免费的吗 中国电信测速器 免费的域名 深圳域名 免费主页空间 汤博乐 密钥索引 建站技术 日本小学生 vim 瓦工技术 更多