抓取利用NUTCH来抓取网站数据并进行后期数据分析

网站数据抓取  时间:2021-02-10  阅读:()

利用NUTCH来抓取网站数据并进行后期数据分析

参会人员李凯、马继光、卢少锦、许雷

会议主题如何利用NUTCH来抓取网站数据并进行后期数据分析

会议发言摘要

李凯

利用NUTCH来抓取网站数据的优势在于我们可以把程序员的工作重心转移到后期的数据分析上边。并且工作不再受时间限制目前我们的大部分数据抓取只能在晚上进行因为NUTCH会把我们感兴趣的网站的内容全部镜像到本地。

可以充分利用NUTCH的分布式抓取的机制那么即使将来我们收录的网站到了另外一个数量级整个系统依然能正常运行。

如果我们能在今年年底以前把这套系统很流畅地运作起来我们在同类的网站当中已经是领先一大步了。

马继光

我们现在最紧迫的任务是要熟悉NUTCH的工作流程对它还处在认识阶段需要先利用它来抓取一些网站来测试一下。

卢少锦

我最关心的是数据抓取过来以后的读取如何完整再现他们的内容。计划研究Htmlparse来进行底层页面的抽取工作。

许雷

目前还处于探索阶段包括NUTCH本身是不是真的能将网站所有的数据都抓取下来、会不会丢失掉一些我们需要的比如产品类别信息、如何专门针对我们特别感兴趣的页面进行抓取都需要继续研究。另外现在的公司的程序员还没有特别精通JAVA的 因此JAVA的部分知识还需要进行学习。

下一步工作的计划

1李凯需要继续熟悉NUTCH的抓取流程包括NUTCH的重试机制分布式抓取。2马工学习一下JAVA的常见错误和报错信息还有JAVA中面向对象的基本概念。在下周五下午对程序员做一个讲座。同时尽快修复目前的空间余留的BUG。

3卢少锦在保证目前抓取工作进度的情况下研究Htmlpars e实现页面信息更方便的抽取。4许雷 研究如何把NUTCH抓取过来的页面缓存信息读取出来供信息抽取人员使用。5下周三下午两点的时候继续开会汇报目前的工作进度研究有关NUTCH的下一步开发计划。

6下周五下午三点开始由马工对程序员进行有关j ava开发的讲座。

大拿网技术部

2006-8-9

ftlcloud(超云)9元/月,1G内存/1核/20g硬盘/10M带宽不限/10G防御,美国云服务器

ftlcloud怎么样?ftlcloud(超云)目前正在搞暑假促销,美国圣何塞数据中心的云服务器低至9元/月,系统盘与数据盘分离,支持Windows和Linux,免费防御CC攻击,自带10Gbps的DDoS防御。FTL-超云服务器的主要特色:稳定、安全、弹性、高性能的云端计算服务,快速部署,并且可根据业务需要扩展计算能力,按需付费,节约成本,提高资源的有效利用率。点击进入:ftlcloud官方网站...

FBICDN,0.1元解决伪墙/假墙攻击,超500 Gbps DDos 防御,每天免费流量高达100G,免费高防网站加速服务

最近很多网站都遭受到了伪墙/假墙攻击,导致网站流量大跌,间歇性打不开网站。这是一种新型的攻击方式,攻击者利用GWF规则漏洞,使用国内服务器绑定host的方式来触发GWF的自动过滤机制,造成GWF暂时性屏蔽你的网站和服务器IP(大概15分钟左右),使你的网站在国内无法打开,如果攻击请求不断,那么你的网站就会是一个一直无法正常访问的状态。常规解决办法:1,快速备案后使用国内服务器,2,使用国内免备案服...

PIGYun中秋特惠:香港/韩国VPS月付14元起

PIGYun发布了九月份及中秋节特惠活动,提供8折优惠码,本月商家主推中国香港和韩国机房,优惠后最低韩国每月14元/中国香港每月19元起。这是一家成立于2019年的国人商家,提供中国香港、韩国和美国等地区机房VPS主机,基于KVM架构,采用SSD硬盘,CN2+BGP线路(美国为CUVIP-AS9929、GIA等)。下面列出两款主机配置信息。机房:中国香港CPU:1core内存:1GB硬盘:10GB...

网站数据抓取为你推荐
windows优化大师怎么用如何用Windows优化大师??在线漏洞检测求免费的漏洞扫描工具伪静态什么是伪静态ps抠图技巧ps的抠图技巧是什么镜像文件是什么什么是镜像文件啊申请证书求高手教下怎么申请证书彩信中心短信中心号码是多少如何快速收录如何掌握百度收录之快速收录srv记录exchange 2010 自动发现需不需要srv记录网站优化方案网站优化方案应该从哪些方面去分析?
花生壳域名 org域名 广州服务器租用 到期域名查询 注册cn域名 dreamhost 国外空间 怎样建立邮箱 hkg 服务器是干什么的 gtt vip域名 万网空间管理 双线空间 cdn网站加速 asp空间 百度新闻源申请 日本小学生 大硬盘分区 堡垒主机 更多