利用NUTCH来抓取网站数据并进行后期数据分析
参会人员李凯、马继光、卢少锦、许雷
会议主题如何利用NUTCH来抓取网站数据并进行后期数据分析
会议发言摘要
李凯
利用NUTCH来抓取网站数据的优势在于我们可以把程序员的工作重心转移到后期的数据分析上边。并且工作不再受时间限制目前我们的大部分数据抓取只能在晚上进行因为NUTCH会把我们感兴趣的网站的内容全部镜像到本地。
可以充分利用NUTCH的分布式抓取的机制那么即使将来我们收录的网站到了另外一个数量级整个系统依然能正常运行。
如果我们能在今年年底以前把这套系统很流畅地运作起来我们在同类的网站当中已经是领先一大步了。
马继光
我们现在最紧迫的任务是要熟悉NUTCH的工作流程对它还处在认识阶段需要先利用它来抓取一些网站来测试一下。
卢少锦
我最关心的是数据抓取过来以后的读取如何完整再现他们的内容。计划研究Htmlparse来进行底层页面的抽取工作。
许雷
目前还处于探索阶段包括NUTCH本身是不是真的能将网站所有的数据都抓取下来、会不会丢失掉一些我们需要的比如产品类别信息、如何专门针对我们特别感兴趣的页面进行抓取都需要继续研究。另外现在的公司的程序员还没有特别精通JAVA的 因此JAVA的部分知识还需要进行学习。
下一步工作的计划
1李凯需要继续熟悉NUTCH的抓取流程包括NUTCH的重试机制分布式抓取。2马工学习一下JAVA的常见错误和报错信息还有JAVA中面向对象的基本概念。在下周五下午对程序员做一个讲座。同时尽快修复目前的空间余留的BUG。
3卢少锦在保证目前抓取工作进度的情况下研究Htmlpars e实现页面信息更方便的抽取。4许雷 研究如何把NUTCH抓取过来的页面缓存信息读取出来供信息抽取人员使用。5下周三下午两点的时候继续开会汇报目前的工作进度研究有关NUTCH的下一步开发计划。
6下周五下午三点开始由马工对程序员进行有关j ava开发的讲座。
大拿网技术部
2006-8-9
digital-vm,这家注册在罗马尼亚的公司在国内应该有不少人比较熟悉了,主要提供VPS业务,最高10Gbps带宽,还不限制流量,而且还有日本、新加坡、美国洛杉矶、英国、西班牙、荷兰、挪威、丹麦这些可选数据中心。2020年,digital-vm新增了“独立服务器”业务,暂时只限“日本”、“新加坡”机房,最高也是支持10Gbps带宽... 官方网站:https://digital-vm.co...
腾讯云轻量应用服务器又要免费升级配置了,之前已经免费升级过一次了(腾讯云轻量应用服务器套餐配置升级 轻量老用户专享免费升配!),这次在上次的基础上再次升级。也许这就是良心云吧,名不虚传。腾讯云怎么样?腾讯云好不好。腾讯云轻量应用服务器 Lighthouse 是一种易于使用和管理、适合承载轻量级业务负载的云服务器,能帮助个人和企业在云端快速构建网站、博客、电商、论坛等各类应用以及开发测试环境,并提供...
iON Cloud怎么样?iON Cloud升级了新加坡CN2 VPS的带宽和流量最低配的原先带宽5M现在升级为10M,流量也从原先的150G升级为250G。注意,流量也仅计算出站方向。iON Cloud是Krypt旗下的云服务器品牌,成立于2019年,是美国老牌机房(1998~)krypt旗下的VPS云服务器品牌,主打国外VPS云服务器业务,均采用KVM架构,整体性能配置较高,云服务器产品质量靠...