利用NUTCH来抓取网站数据并进行后期数据分析
参会人员李凯、马继光、卢少锦、许雷
会议主题如何利用NUTCH来抓取网站数据并进行后期数据分析
会议发言摘要
李凯
利用NUTCH来抓取网站数据的优势在于我们可以把程序员的工作重心转移到后期的数据分析上边。并且工作不再受时间限制目前我们的大部分数据抓取只能在晚上进行因为NUTCH会把我们感兴趣的网站的内容全部镜像到本地。
可以充分利用NUTCH的分布式抓取的机制那么即使将来我们收录的网站到了另外一个数量级整个系统依然能正常运行。
如果我们能在今年年底以前把这套系统很流畅地运作起来我们在同类的网站当中已经是领先一大步了。
马继光
我们现在最紧迫的任务是要熟悉NUTCH的工作流程对它还处在认识阶段需要先利用它来抓取一些网站来测试一下。
卢少锦
我最关心的是数据抓取过来以后的读取如何完整再现他们的内容。计划研究Htmlparse来进行底层页面的抽取工作。
许雷
目前还处于探索阶段包括NUTCH本身是不是真的能将网站所有的数据都抓取下来、会不会丢失掉一些我们需要的比如产品类别信息、如何专门针对我们特别感兴趣的页面进行抓取都需要继续研究。另外现在的公司的程序员还没有特别精通JAVA的 因此JAVA的部分知识还需要进行学习。
下一步工作的计划
1李凯需要继续熟悉NUTCH的抓取流程包括NUTCH的重试机制分布式抓取。2马工学习一下JAVA的常见错误和报错信息还有JAVA中面向对象的基本概念。在下周五下午对程序员做一个讲座。同时尽快修复目前的空间余留的BUG。
3卢少锦在保证目前抓取工作进度的情况下研究Htmlpars e实现页面信息更方便的抽取。4许雷 研究如何把NUTCH抓取过来的页面缓存信息读取出来供信息抽取人员使用。5下周三下午两点的时候继续开会汇报目前的工作进度研究有关NUTCH的下一步开发计划。
6下周五下午三点开始由马工对程序员进行有关j ava开发的讲座。
大拿网技术部
2006-8-9
Webhosting24是一家始于2001年的意大利商家,提供的产品包括虚拟主机、VPS、独立服务器等,可选数机房包括美国洛杉矶、迈阿密、纽约、德国慕尼黑、日本、新加坡、澳大利亚悉尼等。商家VPS主机采用AMD Ryzen 9 5950X CPU,NVMe磁盘,基于KVM架构,德国机房不限制流量,网站采用欧元计费,最低年付15欧元起。这里以美国机房为例,分享几款套餐配置信息。CPU:1core内存...
georgedatacenter怎么样?GeorgeDatacenter是一家2017年成立的美国商家,正规注册公司(REG: 10327625611),其实是oneman。现在有优惠,有几款特价VPS,基于Vmware。支持Paypal付款。GeorgeDatacenter目前推出的一款美国vps,2核/8GB内存/250GB NVMe空间/2TB流量/1Gbps端口/Vmware/洛杉矶/达拉...
香港云服务器最便宜价格是多少钱一个月/一年?无论香港云服务器推出什么类型的配置和活动,价格都会一直吸引我们,那么就来说说香港最便宜的云服务器类型和香港最低的云服务器价格吧。香港云服务器最便宜最低价的价格是多少?香港云服务器只是服务器中最受欢迎的产品。香港云服务器有多种配置类型,如1核1G、2核2G、2核4G、8到16核32G等。这些配置可以满足大多数用户的需求,无论是电商站、视频还是游戏、小说等。...