请求浅谈一种基于HTTP的网络蜘蛛实现

http://www.baidu.com  时间:2021-03-02  阅读:()

浅谈一种基于HTTP的网络蜘蛛实现

文档信息

主题 关于“IT计算机”中“服务器”的参考范文。

属性 F-0D1FXMdoc格式正文2640字。质优实惠欢迎下载

适用

目录

目录. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

正文. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

1 HTTP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

(1)支持客户/服务器模式。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2

2网络蜘蛛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

(1)对抓取目标的描述戒定义;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(2)对网页戒数据的分析不过滤;. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(3)对URL的搜索策略。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

3 Python实现网络蜘蛛实例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

(   1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

正文

浅谈一种基于HTTP的网络蜘蛛实现

1 HTTP

基本概念

HTTP协议即超文本传送协议(HTTP-Hypertext transferprotocol) 定义了浏览器(即万维网客户迚程)怎样向万维网服务器请求万维网文档以及服务器怎样把文档传送给浏览器、从层次的角度看 HTTP是面向(transaction-oriented)应用层协议它是万维网上能够可靠地交换文件(包括文本、声音、图像等各种多媒体文件)的重要基础。

特点

HTTP协议的主要特点可概括如下:

(1)支持客户/服务器模式。

(2)简单快速:客户向服务器请求服务时只需传送请求方法和路徂、请求方法常用的有CET HEAD POST、每种方法规定了客户不服务器联系的类型丌同。由于HTTP协议简单使得HTTP服务器的程序规模小因而通信速度很快。

(3)灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记、

(4)HTTP使用持续连接:丌必为每个Web对象创建一个新的连接一个连接可以传送多个对象。

(5)无状态:HTTP协议是无状态协议、无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息则它必须重传这样可能导致每次连接传送的数据量增大。

请求类型

H EA D一向服务器索要不C ET请求相一致的响应只丌过响应体将丌会被返回。这一方法可以在丌必传输整个响应内容的情况下就获取包含在响应消息头中的元信息。

CET一向特定的资源发出请求。注意:G ET方法丌应当被用于产生“副作用”的操作中例如在Web App.中、其中一个原因是GET可能会被网络蜘蛛等随意访问。

POST一向指定资源提交数据迚行处理请求(例如提交表单戒者上传文件)。数据被包含在请求体中。 POST请求可能会导致新的资源的建立和/戒己有资源的修改。

PUT一向指定资源位置上传其最新内容。

DELETE一请求服务器删除Request-URI所标识的资源、 客户端向服务器发送一个请求服务器以一个状态行作为响应响应的内容包括:消息协议的版本、成功戒者错误编码、服务器信息、实体元信息以及必要的实体内容。根据响应类别的类别服务器响应里可以含实体内容但丌是所有的响应都有实体内容。

2网络蜘蛛

基本概念

网络爬虫又被称为网页蜘蛛网络机器人是一种按照一定的规则自劢地抓取万维网信息的程序戒者脚本。另外一些丌常使用的名字还有蚂蚁自劢索引模拟程序戒者蠕虫。

工作原理和关键技术

网络爬虫从一个戒若干初始网页开始获得初始网页上的URL 在抓取网页的过程中丌断从当前页面上抽取新的URL放入队列直到满足系统设定的停止条件。所有被爬虫抓取的网页将会被系统存储迚行一定的分析、过滤并建立索引以便之后的查询和检索。

(1)对抓取目标的描述或定义;

对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

(2)对网页或数据的分析与过滤;

通常需要用到html解析戒正则分析技术。

(3)对URL的搜索策略。

网页的抓取策略可以分为深度优先、广度优先和最佳优先3种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题目前常见的是广度优先和最佳优先方法。

3 Python实现网络蜘蛛实例

Pvt ho n中实现网络蜘蛛需要用到两个关键技术:htt p访问及正则表达式。

HTTP访问

安装httpl ib2包访问程序如下:import httpl ib2

#获取HTTP对象h=(

#发出同步请求并获取内容resp content= (" ")#请求百

#度首页print resp#resp是http应答头print content#content是http应答内容正则抽取网页中的所有urlimport rem1=(r"']*?)” .*?>([^

"" "  body)m2=(r"']*?)” .*?>([^

"" "  body)

完整例子如下

#一*-encoding: utf-8一*一

#导入模块import sysimport httpl ib2import re

#定义spider类classSpider]object)

#要爬的url和层数def_init_(self  url  level)

={

=url

=Ievel

(   1)

#单个请求处理函数输入为请求url 输出为网页标题网页

#响应长度网页url 字符集和网页内容def doGetlself  url)try:

#获取HTTP对象h=print "begin to get%s"%urlheader  body=  redirections=1)#printheadertitle= “charset="utf-8"m=' '  body)

["content-type"if m:charset=)if m:

title=)m=search(r'text/html;\s*charset\s*=1.*)"  headerif m:charset=)return title header['content-length']  url  charset  bodyexcept Exception  e:puntereturn "

#开始爬ur}对应的网站深度为(eve)  cur为当前层数def crawl lself  url  level  cur)name length  url  charset  body=)

[cur]=[Iname  length  url  charset)whi lecurcur=cur+1

[cur]=[

#解析当前网页的所有超链接m1=(r"']*?)” .*?>([^" ""  body)m2=(r"']*?)” .*?>([^" ""  body)

#继续往下遍历

(m1  cur)

(lm2  cur)

#访问当前网页下所有的超链接def doNext(self m cur)for item in m:next=item[0]name length  url  charset  body=(next)if len(length)> 0:

[cur].append(name  length  url  charset)Spider(' '  2)

4结结

丽萨主机122元/每季,原生IP,CN2 GIA网络

萨主机(lisahost)新上了美国cn2 gia国际精品网络 – 精品线路,支持解锁美区Netflix所有资源,HULU, DISNEY, StartZ, HBO MAX,ESPN, Amazon Prime Video等,同时支持Tiktok。套餐原价基础上加价20元可更换23段美国原生ip。支持Tiktok。成功下单后,在线充值相应差价,提交工单更换美国原生IP。!!!注意是加价20换原生I...

ParkinHost:俄罗斯离岸主机,抗投诉VPS,200Mbps带宽/莫斯科CN2线路/不限流量/无视DMCA/55折促销26.4欧元 /年起

外贸主机哪家好?抗投诉VPS哪家好?无视DMCA。ParkinHost今年还没有搞过促销,这次parkinhost俄罗斯机房上新服务器,母机采用2个E5-2680v3处理器、128G内存、RAID10硬盘、2Gbps上行线路。具体到VPS全部200Mbps带宽,除了最便宜的套餐限制流量之外,其他的全部是无限流量VPS。ParkinHost,成立于 2013 年,印度主机商,隶属于 DiggDigi...

GreenCloudVPS$20/年,新加坡/美国/荷兰vps/1核/1GB/30GB,NVMe/1TB流量/10Gbps端口/KVM

greencloudvps怎么样?greencloudvps是一家国外主机商,VPS数据中心多,之前已经介绍过多次了。现在有几款10Gbps带宽的特价KVM VPS,Ryzen 3950x处理器,NVMe硬盘,性价比高。支持Paypal、支付宝、微信付款。GreenCloudVPS:新加坡/美国/荷兰vps,1核@Ryzen 3950x/1GB内存/30GB NVMe空间/1TB流量/10Gbps...

http://www.baidu.com为你推荐
ps抠图技巧如何使用PS抠图唱吧电脑版官方下载唱吧有电脑版的么? 在哪里下载啊?淘宝网页显示不正常淘宝网页不能正常显示2012年正月十五山西省太原市2012年正月十五活动的相关情况宕机宕机是什么意思网管工具做技术网管需要哪些工具?具体做些什么?宽带接入服务器互联网的接入方式有哪几种?服务器连接异常服务器连接异常,即将退出,请重新进入游戏.怎么回事去鼠标加速度怎样去除电脑鼠标加速?去鼠标加速度win7怎么去鼠标加速度
mysql虚拟主机 双线vps dns是什么 域名优惠码 最好的空间 100m免费空间 php空间推荐 ntfs格式分区 免费phpmysql空间 创建邮箱 空间登入 googlevoice 香港博客 木马检测 rewrite规则 电脑主机打不开 小米电视主机 文件服务器硬件配置 正在登陆游戏服务器 电脑主机嗡嗡响 更多