爬虫robots文件

robots文件  时间:2021-04-17  阅读:()
《解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫》课程教学大纲(课程英文名称)课程编号:201800522062学分:5学分学时:53学时(其中:讲课学时41上机学时:12)先修课程:《Python快速编程入门》后续课程:Python数据分析与数据挖掘适用专业:信息技术及其计算机相关专业开课部门:计算机系一、课程的性质与目标《解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫》是面向计算机相关专业的一门专业进阶课,涉及抓取网页数据、数据解析、并发下载、抓取动态网页、图像识别与文字处理、存储爬虫数据、爬虫框架、分布式爬虫.
通过本课程的学习,学生能够掌握Python爬虫的基础知识,可以独立使用框架开发Python爬虫的项目程序.
二、教学条件要求操作系统:Windows7版本及以上Python环境:Python3.
6.
2开发工具:PyCharm2016.
3.
2三、课程的主要内容及基本要求第1章初识爬虫章名初识爬虫学时1学习目标1.
了解爬虫产生的背景2.
知道什么是爬虫3.
了解爬虫的用途4.
熟悉不同维度下网络爬虫的几种类型知识点了解掌握重点难点爬虫产生背景√什么是爬虫√√爬虫的用途√爬虫的分类√√√第2章爬虫的实现原理和技术章名爬虫的实现原理和技术学时4学习目标1.
掌握通用爬虫和聚焦爬虫的工作原理2.
熟悉爬虫抓取网页的流程3.
了解通用爬虫的网页分类,4.
了解爬虫要遵守的协议,及智能抓取更新网页的文件5.
熟悉防爬虫的一些应对策略6.
了解使用Python语言做爬虫的优势知识点了解掌握重点难点通用爬虫工作原理√√聚焦爬虫工作原理√√爬虫抓取网页的详细流程√通用爬虫中网页的分类√robots.
txt文件√Sitemap.
xml文件√防爬虫应对策略√√为什么选择Python做爬虫√第3章网页请求原理章名网页请求原理学时3学习目标1.
熟悉浏览器加载网页的过程2.
掌握基于HTTP协议的请求原理3.
掌握客户端HTTP请求格式4.
掌握服务端HTTP响应格式5.
熟悉HTTP抓包工具Fiddler的使用知识点了解掌握重点难点统一资源定位符URL√计算机域名系统DNS√分析浏览器显示完整网页的过程√√客户端HTTP请求格式√√√服务端HTTP响应格式√√√Fiddler工作原理√Fiddler下载安装√Fiddler界面详解√Fiddler抓取HTTPS设置√使用Fiddler捕获Chrome的会话√第4章抓取网页数据章名抓取网页数据学时6学习目标1.
了解什么是urllib库2.
会使用urllib库爬取网页3.
掌握如何转换URL编码,可以使用GET和POST两种方式实现数据传输4.
知道伪装浏览器的用途5.
掌握如何自定义opener6.
了解服务器的超时7.
熟悉一些常见的网络异常8.
掌握requests库的使用知识点了解掌握重点难点什么是urllib库√快速爬取一个网页√分析urlopen方法√使用HTTPResponse对象√构造Request对象√URL编码转换√处理GET请求√√处理POST请求√√√添加特定Headers√√简单的自定义opener√√设置代理服务器√√超时设置√URLError异常和捕获√HttpError异常和捕获√什么是requests库√使用requests发送请求√√返回Response响应√√第5章数据解析章名数据解析学时8学习目标1.
了解服务器返回的数据格式2.
会通过浏览器查看网页的结构3.
熟悉解析数据的几种技术4.
掌握正则表达式的使用,会使用re模块解析网页数据5.
掌握XPath语法的使用,会使用lxml库解析网页数据6.
掌握BeautifulSoup的使用,会使用bs4库解析网页数据7.
掌握JSONPath语法的使用,会使用json模块解析网页数据知识点了解掌握重点难点网页数据格式√查看网页结构√数据解析技术√正则表达式√√什么是XPath√XPath语法√√XPath开发工具√什么是lxml库√√lxml库的基本使用√√√什么是BeautifulSoup√构建BeautifulSoup对象√通过操作方法进行解读搜索√√√通过CSS选择器进行搜索√√什么是JSON√JSON与XML语言比较√json模块介绍√json模块基本使用√√√JSONPath介绍√JSONPath语法对比√第6章并发下载章名并发下载学时3学习目标1.
了解多线程爬虫的流程2.
掌握queue模块的使用,可以利用它实现多线程爬虫3.
熟悉协程的使用,能够用协程技术实现并发爬虫知识点了解掌握重点难点多线程爬虫流程分析√√queue(队列)模块简介√Queue类简介√√协程爬虫的流程分析√√第三方库gevent√√第7章抓取动态内容章名抓取动态内容学时4学习目标1.
知道什么是动态网页2.
掌握抓取动态网页的selenium和PhantomJS技术,学会安装和配置它们3.
掌握selenium和PhantomJS的基本使用知识点了解掌握重点难点动态网页介绍√selenium和PhantomJS概述√selenium和PhantomJS安装配置√√入门操作√√√定位UI元素√√鼠标动作链√填充表单√√弹窗处理√页面切换√页面前进和后退√获取页面Cookies√页面等待√√第8章图像识别与文字处理章名图像识别与文字处理学时4学习目标1.
了解什么是OCR技术2.
会安装Tesseract工具3.
熟悉PIL和pytesseract库4.
知道什么是文字规范的图像,能够利用pytesseract识别和处理字符5.
了解验证码的分类,能够利用pytesseract识别简单的图形验证码知识点了解掌握重点难点OCR技术简介√Tesseract引擎的下载和安装√pytesseract库简介√PIL库简介√处理图像中格式规范的文字√√对图片进行阈值过滤和降噪处理√√√识别图像的中文字符√√√验证码分类√简单识别图形验证码√第9章存储爬虫数据章名存储爬虫数据学时4学习目标1.
熟悉数据存储的几种方式2.
了解什么是MongoDB数据库3.
会在Windows平台安装和配置MongoDB数据库4.
掌握PyMongo库的使用知识点了解掌握重点难点数据存储简介√什么是MongoDB√Windows平台安装MongoDB数据库√比较MongoDB和MySQL的术语√√什么是PyMongo√PyMongo的基本操作√√√第10章初识爬虫框架Scrapy章名初识爬虫框架Scrapy学时3学习目标1.
了解常见的爬虫框架2.
掌握Scrapy框架的架构3.
熟悉Scrapy框架的运作流程4.
学会在不同的平台上安装Scrapy框架5.
掌握Scrapy框架的基本操作知识点了解掌握重点难点常见爬虫框架介绍√Scrapy框架的架构√√Scrapy框架的运作流程√√安装Scrapy框架√√新建一个Scrapy项目√√添加Item实体数据√√制作Spiders爬取网页√√√永久性存储数据√第11章Scrapy终端与核心组件章名Scrapy终端与核心组件学时4学习目标1.
会启动和使用Scrapy框架自带的shell2.
掌握Spiders组件,能够更深一步认识并使用这个组件3.
掌握ItemPipeline组件,会自定义管道来处理数据4.
掌握DownloaderMiddlewares组件,可以通过随机IP和随机用户代理应对反爬虫行为5.
掌握Settings组件,能够明确和定制各个Scrapy组件的行为知识点了解掌握重点难点启用Scrapyshell√使用Scrapyshell√√Spiders—抓取和提取结构化数据√√√自定义ItemPipeline√√√DownloaderMiddlewares—防止反爬虫√√Settings—定制Scrapy组件√√第12章自动抓取网页的爬虫CrawlSpider章名自动抓取网页的爬虫CrawlSpider学时3学习目标1.
明确CrawlSpider爬虫类的用途,可以创建使用CrawlSpider模板的爬虫2.
掌握CrawlSpider类的原理3.
掌握Rule类的使用,能够运用该类制定爬虫的爬取规则4.
掌握LinkExtractor类的使用,能够提取需要跟踪爬取的链接知识点了解掌握重点难点初识爬虫类CrawlSpider√CrawlSpider类的工作原理√√√通过Rule类决定爬取规则√√√通过LinkExtractor类提取链接√√√第13章Scrapy-Redis分布式爬虫章名Scrapy-Redis分布式爬虫学时6学习目标1.
了解什么是Scrapy-Redis,明确Scrapy和Scrapy-Redis的关系2.
熟悉Scrapy-Redis的架构和运作流程3.
掌握Scrapy-Redis的主要组件4.
会在不同的平台上独立搭建Scrapy-Redis开发环境5.
理解分布式采用的策略,可以测试服务器端和爬虫端是否能远程连接6.
掌握Scrapy-Redis的基本使用,可以在Scrapy项目的基础上实现分布式爬取知识点了解掌握重点难点Scrapy-Redis简介√Scrapy-Redis的完整架构√√Scrapy-Redis的运作流程√√Scrapy-Redis的主要组件√√安装Scrapy-Redis√安装和启动Redis数据库√修改配置文件redis.
conf√分布式策略√√测试Slave端远程连接Master端√设置Scrapy-Redis组件√√制作Spider爬取网页√√√执行分布式爬虫√√√使用多个管道存储√√√处理Redis数据库里的数据√√四、学时分配章目讲课上机合计第1章初识爬虫1学时0学时1学时第2章爬虫的实现原理和技术3学时1学时4学时第3章网页请求原理2学时1学时3学时第4章抓取网页数据5学时1学时6学时第5章数据解析7学时1学时8学时第6章并发下载2学时1学时3学时第7章抓取动态内容3学时1学时4学时第8章图像识别与文字处理3学时1学时4学时第9章存储爬虫数据3学时1学时4学时第10章初识爬虫框架Scrapy2学时1学时3学时第11章Scrapy框架的shell和组件3学时1学时4学时第12章自动抓取网页的爬虫CrawlSpider2学时1学时3学时第13章Scrapy-Redis分布式爬虫5学时1学时6学时合计41学时12学时53学时五、考核模式与成绩评定办法本课程为考试课程,期末考试采用百分制的闭卷考试模式.
学生的考试成绩由平时成绩(30%)和期末考试(70%)组成,其中,平时成绩包括出勤(5%)、作业(5%)、上机成绩(20%).
六、选用教材和主要参考书本大纲是根据教材《Python快速编程入门》所设计的.
参考书籍:传智播客.
《Python快速编程入门》人民邮电出版社.
201709七、大纲说明本课程的授课模式为:课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课,并且会通过测试题阶段测试学生的掌握程度;上机主要是编写程序,要求学生动手完成指定的程序设计或验证.
撰写人:审定人:批准人:执行时间:

德阳电信高防物理机 16核16G 50M 260元/月 达州创梦网络

达州创梦网络怎么样,达州创梦网络公司位于四川省达州市,属于四川本地企业,资质齐全,IDC/ISP均有,从创梦网络这边租的服务器均可以备案,属于一手资源,高防机柜、大带宽、高防IP业务,一手整C IP段,四川电信,一手四川托管服务商,成都优化线路,机柜租用、服务器云服务器租用,适合建站做游戏,不须要在套CDN,全国访问快,直连省骨干,大网封UDP,无视UDP攻击,机房集群高达1.2TB,单机可提供1...

DMIT:新推出美国cn2 gia线路高性能 AMD EPYC/不限流量VPS(Premium Unmetered)$179.99/月起

DMIT,最近动作频繁,前几天刚刚上架了日本lite版VPS,正在酝酿上线日本高级网络VPS,又差不多在同一时间推出了美国cn2 gia线路不限流量的美国云服务器,不过价格太过昂贵。丐版只有30M带宽,月付179.99 美元 !!目前美国云服务器已经有个4个套餐,分别是,Premium(cn2 gia线路)、Lite(普通直连)、Premium Secure(带高防的cn2 gia线路),Prem...

FBICDN,0.1元解决伪墙/假墙攻击,超500 Gbps DDos 防御,每天免费流量高达100G,免费高防网站加速服务

最近很多网站都遭受到了伪墙/假墙攻击,导致网站流量大跌,间歇性打不开网站。这是一种新型的攻击方式,攻击者利用GWF规则漏洞,使用国内服务器绑定host的方式来触发GWF的自动过滤机制,造成GWF暂时性屏蔽你的网站和服务器IP(大概15分钟左右),使你的网站在国内无法打开,如果攻击请求不断,那么你的网站就会是一个一直无法正常访问的状态。常规解决办法:1,快速备案后使用国内服务器,2,使用国内免备案服...

robots文件为你推荐
常回家snslinux防火墙设置LINUX系统怎么关闭防火墙苹果appstore宕机苹果appstore打不开怎么办支付宝注册网站支付宝申请流程是怎么样的??网站方案设计求一篇校园网络设计的方案中国保健养猪网最具权威的养猪信息网站是哪个 啊免费代理加盟免费加盟代销怎么回事,能具体介绍下么灌水机什么是论坛灌水机?在哪里可以下载到呢?如何发帖子怎么发帖啊metinfoMetInfo跟织梦那个比较好?各自的优点跟缺点是什么,
中国互联网域名注册 淘宝抢红包攻略 新加坡服务器 韩国俄罗斯 siteground dreamhost 免备案cdn payoneer 512m 合肥鹏博士 php空间推荐 idc是什么 电信主机 如何建立邮箱 国外视频网站有哪些 smtp虚拟服务器 沈阳主机托管 新加坡空间 lamp架构 网页加速 更多