利用NUTCH来抓取网站数据并进行后期数据分析
参会人员李凯、马继光、卢少锦、许雷
会议主题如何利用NUTCH来抓取网站数据并进行后期数据分析
会议发言摘要
李凯
利用NUTCH来抓取网站数据的优势在于我们可以把程序员的工作重心转移到后期的数据分析上边。并且工作不再受时间限制目前我们的大部分数据抓取只能在晚上进行因为NUTCH会把我们感兴趣的网站的内容全部镜像到本地。
可以充分利用NUTCH的分布式抓取的机制那么即使将来我们收录的网站到了另外一个数量级整个系统依然能正常运行。
如果我们能在今年年底以前把这套系统很流畅地运作起来我们在同类的网站当中已经是领先一大步了。
马继光
我们现在最紧迫的任务是要熟悉NUTCH的工作流程对它还处在认识阶段需要先利用它来抓取一些网站来测试一下。
卢少锦
我最关心的是数据抓取过来以后的读取如何完整再现他们的内容。计划研究Htmlparse来进行底层页面的抽取工作。
许雷
目前还处于探索阶段包括NUTCH本身是不是真的能将网站所有的数据都抓取下来、会不会丢失掉一些我们需要的比如产品类别信息、如何专门针对我们特别感兴趣的页面进行抓取都需要继续研究。另外现在的公司的程序员还没有特别精通JAVA的 因此JAVA的部分知识还需要进行学习。
下一步工作的计划
1李凯需要继续熟悉NUTCH的抓取流程包括NUTCH的重试机制分布式抓取。2马工学习一下JAVA的常见错误和报错信息还有JAVA中面向对象的基本概念。在下周五下午对程序员做一个讲座。同时尽快修复目前的空间余留的BUG。
3卢少锦在保证目前抓取工作进度的情况下研究Htmlpars e实现页面信息更方便的抽取。4许雷 研究如何把NUTCH抓取过来的页面缓存信息读取出来供信息抽取人员使用。5下周三下午两点的时候继续开会汇报目前的工作进度研究有关NUTCH的下一步开发计划。
6下周五下午三点开始由马工对程序员进行有关j ava开发的讲座。
大拿网技术部
2006-8-9
部落分享过多次G-core(gcorelabs)的产品及评测信息,以VPS主机为主,距离上一次分享商家的独立服务器还在2年多前,本月初商家针对迈阿密机房限定E5-2623v4 CPU的独立服务器推出75折优惠码,活动将在9月30日到期,这里再分享下。G-core(gcorelabs)是一家总部位于卢森堡的国外主机商,主要提供基于KVM架构的VPS主机和独立服务器租用等,数据中心包括俄罗斯、美国、日...
百纵科技:美国云服务器活动重磅来袭,洛杉矶C3机房 带金盾高防,会员后台可自助管理防火墙,添加黑白名单 CC策略开启低中高.CPU全系列E52680v3 DDR4内存 三星固态盘列阵。另有高防清洗!百纵科技官网:https://www.baizon.cn/联系QQ:3005827206美国洛杉矶 CN2 云服务器CPU内存带宽数据盘防御价格活动活动地址1核1G10M10G10G38/月续费同价点击...
onevps最新消息,为了更好服务中国区用户:1、网站支付方式新增了支付宝,即将增加微信;原信用卡、PayPal方式不变;(2)可以切换简体中文版网站,在网站顶部右上角找到那个米字旗,下拉可以换中国简体版本。VPS可选机房有:中国(香港)、新加坡、日本(东京)、美国(纽约、洛杉矶)、英国(伦敦)、荷兰(阿姆斯特丹)、瑞士(苏黎世)、德国(法兰克福)、澳大利亚(悉尼)。不管你的客户在亚太区域、美洲区...