www.
locoy.
com火车采集器V9产品白皮书合肥乐维信息技术有限公司2015年9月最受欢迎的网页数据采集软件www.
locoy.
com1目录一、引言.
31.
1文档主题.
31.
2适用范围.
31.
3相关术语.
3二、火车采集器的研发背景.
42.
1从搜索引擎到网页数据采集.
42.
2从手动采集到软件采集.
4三、火车采集器综述.
43.
1火车采集器简述.
43.
2功能详述.
43.
2.
1网址采集.
53.
2.
2内容采集.
53.
2.
3数据处理.
53.
2.
4数据发布.
53.
2.
5多任务多线程运行.
63.
2.
6HTTP二级代理服务器.
63.
2.
7计划任务管理器.
63.
2.
8任务运行日志管理.
63.
2.
9插件扩展.
63.
3版本介绍.
6四、火车采集器的特性.
74.
1全网通用.
74.
1.
1基于web结构的采集.
74.
1.
2扩展性强.
74.
2功能全面.
74.
2.
1集采集发布于一体.
74.
2.
2多元化的功能配置.
74.
3高效稳定.
84.
3.
1分布式高速采集系统.
84.
3.
2占用资源少.
84.
4数据精准.
84.
4.
1采集监控系统.
84.
4.
2数据处理准确.
8五、火车采集器的典型应用.
8最受欢迎的网页数据采集软件www.
locoy.
com25.
1使用群体及运用.
85.
1.
1企业人员.
85.
1.
2电商运营.
85.
1.
3政府机关.
85.
1.
4网站站长.
95.
1.
5个人需求者.
95.
2应用案例.
9六、运行环境.
96.
1系统环境.
96.
2框架支持.
9七、火车采集器技术支持.
10最受欢迎的网页数据采集软件www.
locoy.
com3一、引言1.
1文档主题合肥乐维信息技术有限公司是国内最早从事互联网数据服务的企业之一,多年来专注于互联网数据采集领域,面向国内外的广大用户提供技术支持与服务.
目前拥有超过十万的合作客户,其中包括政府机构和众多知名企业.
乐维公司一直秉承着为客户节约成本,提升价值的服务理念,做客户最值得信赖的合作伙伴.
由合肥乐维信息技术有限公司自主研发推出的核心产品——火车采集器,是一款能够高效采集网页数据的采集软件.
火车采集器作为国内使用人数最多的网页数据采集产品,曾多次被网易新闻、电脑报、安徽商报等知名媒体报道,备受业界关注.
软件通过对网页数据的提取,处理,发布等操作,使网页数据的提取利用变得简单便捷,能够显著提升使用者的工作效率.
本文档就火车采集器的研发背景、产品概述、功能、应用等各个方面进行了系统的介绍,以帮助本文档的读者快速,全面的了解火车采集器.
1.
2适用范围本文档适用于需要全面、系统的了解火车采集器产品的人群,其他关于火车采集器的信息咨询,可以联系火车采集器的客服人员为您解答.
1.
3相关术语采集任务:采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块.
采集规则:即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,这个设置可以从火车采集器里面导出保存为.
ljobx文件,也可以再次导入火车采集器.
发布模块:在火车采集器中,发布模块是对"将已经采集到的数据发布到哪里"进行的设置.
包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.
wpm文件和.
dbm文件,并可以再次导入火车采集器,多次使用.
发布接口:发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求.
即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照用户特定需求灵活地处理数据.
标签:是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,比如标题、手机号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过该标签名对应获取到,格式为[标签:标签名]如[标签:标题].
标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,最受欢迎的网页数据采集软件www.
locoy.
com4内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息.
注:通常还有一种说法为html标签,这里的标签是指一些html代码里面的属性标识符,如:
1从搜索引擎到网页数据采集以惊人的速度发展起来的网络,成就了万维网这个拥有着大量信息资源的宝藏,基于万维网信息资源而生的搜索引擎则实现了信息的有效提取和利用;但仍在飞速发展的网络让我们对互联网信息产生了新的需求,不仅要搜索到信息,还要将所需数据信息快速地收集到目标中去,这个目标可能是一家网站,一个数据库,一间网店,一篇文档……所有需要数据的地方,正是这种对数据利用的强烈需求催生了网页数据采集.
2.
2从手动采集到软件采集对网页数据的采集需求最初通过人工手动采集来实现,我们把需要的数据复制下来,再粘贴到目标中去,就完成了一个最简单的采集过程.
手动采集可以满足少量的采集需求,但网页数据是海量的,我们需要的数据往往也是大量而又复杂的,传统手动采集会耗费更多时间更多精力,因此我们需要一个高效的采集工具,来帮助我们快速完成采集,在这种需求之下,火车采集器应运而生.
火车采集器实现了将数据从采集到处理到发布的一系列智能操作,能够快速稳定地应对大量的数据采集需求,取代手动采集模拟人工操作,大幅提升工作效率.
三、火车采集器综述:3.
1火车采集器简述火车采集器是一款专业的网页数据抓取、处理、分析,挖掘软件.
软件凭借灵活的配置,可以轻松迅速地抓取网页上散乱分布的文本、图片等文件,并通过数据清洗、过滤、去噪等预处理后进行整合聚集存储,再进行数据的分析挖掘,最终将可用数据呈现.
3.
2功能详述火车采集器主要包含网址采集、内容采集、数据处理、数据发布、多任务多最受欢迎的网页数据采集软件www.
locoy.
com5线程运行、HTTP二级代理服务器、计划任务管理器、任务运行日志管理和插件拓展九大特色功能,下面对九大主要功能进行详细说明.
3.
2.
1网址采集火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息.
可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息.
支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式.
应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了GET,POST和ASPXPOST三种HTTP请求方式.
火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确.
3.
2.
2内容采集火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集.
通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集.
火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取.
可选性强,用户可以按照使用需求进行选择.
内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理.
3.
2.
3数据处理对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准.
主要包括1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;3)数据转换:支持汉译英、简转繁、转换为拼音等;4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址.
3.
2.
4数据发布火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发.
根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个SQL语句,程序就会按照用户的SQL语句导入数据;保存为本地文件时支持本地SQL或文本文件(word、excel、html,txt)格式.
最受欢迎的网页数据采集软件www.
locoy.
com63.
2.
5多任务多线程运行火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务.
单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率.
3.
2.
6HTTP二级代理服务器火车采集器可以通过二级代理服务器的功能实现IP的更换,避免因IP被限制访问而导致的采集无法运行,用户需先获取一些代理IP,然后将代理IP导入采集器中完成设置即可.
3.
2.
7计划任务管理器火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义corn表达式执行.
3.
2.
8任务运行日志管理火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析.
可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据.
3.
2.
9插件扩展火车采集器支持PHP和C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能.
用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源.
火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试.
3.
3版本介绍火车采集器分为免费版、基础版、旗舰版机器码版、旗舰版自动授权版、企业版尊享版,企业版豪华版六个版本,每个版本对应的功能和权限有所不同,火车采集器支持低版本向高版本的升级.
免费版:火车采集器免费版已经具备许多基础功能,比如分页采集,post获得网址,支持网站登录采集等,能够满足一般用户的使用需求,用户同样可以在论坛和QQ群中获取技术支持.
基础版:火车采集器基础版在免费版的基础上为用户提供更为强大的采集功能,包括:ftp上传功能,标签自由组合功能,Http请求功能,定时定量采最受欢迎的网页数据采集软件www.
locoy.
com7集发布,多页采集,Sqlite数据库存储数据,采集到的数据编辑后再发布等.
基础版只能绑定一台电脑或服务器,包含免费更换电脑一次和一年的免费升级年限服务.
旗舰版机器码版:火车采集器旗舰版机器码版相对于基础版增加了文件自动上传到网站,二级页面缓存,二级代理服务器,图片加水印等.
同样只能绑定一台电脑或服务器,包含免费更换电脑一次和一年的免费升级年限,附赠一个采集规则和一个发布模块.
旗舰版自动授权版:火车采集器旗舰版自动授权版与上述机器码版功能一样.
区别在于自动授权版绑定一台机器后可以随时更换机器码,不限次数,同样有一年的免费升级年限,附赠两个采集规则和一个发布模块.
企业版尊享版:企业版尊享版较之其他版本增加了数据发布到Oracle,Http接口管理采集器运行的功能,包含两个加密狗和三个机器码,需要绑定三台机器,赠送三次免费更换授权.
使用加密狗时无需绑定机器,即企业版尊享版可以同时供五台机器使用,附赠四个采集规则一个发布模块,一年免费升级年限.
同时享有一次免费的网络培训(三小时).
企业版豪华版:豪华版在功能上与尊享版相同,区别在于豪华版包含四个加密狗和六个自动授权,即可以供十台机器同时使用,且六个自动授权绑定机器后可随时更换授权.
加密狗同样无需绑定机器,附赠八个采集规则和两个发布模块,以及一个插件,享有一次免费的网络培训(三小时).
四、火车采集器的特性4.
1全网通用4.
1.
1基于web结构的采集火车采集器的采集原理是基于web结构的源代码提取,几乎适用于所有的网页,以及网页中能够看到的所有内容;4.
1.
2扩展性强火车采集器支持接口和插件多种扩展延伸,打破操作局限,满足更加多样化的使用需求,使火车采集器真正做到全网通用.
4.
2功能全面4.
2.
1集采集发布于一体火车采集器在每个功能上都做了优化设置,除了最基础的数据采集,更是融入了强大的数据处理和数据发布功能,全面完善了对于数据利用的整个流程.
4.
2.
2多元化的功能配置最受欢迎的网页数据采集软件www.
locoy.
com8火车采集器在许多细节操作中配置多项可选方式.
1)多种提取方式:网址和内容的提取均设置了多种方式,网址采集包含手动填写采集规则、页面自动分析,内容提取包含前后截取、正则提取、正文提取,标签组合,用户可根据自己的需要选择不同方式;2)多识别系统:正文识别、任意编码识别等多种智能识别系统;3)图片、压缩文件、视频等任意格式的文件都能轻松下载;4)支持Access/MySQL/MsSQL/Sqlite/Oracle五种类型的数据库发布;5)可选择使用加密狗,随时移动更安全.
4.
3高效稳定4.
3.
1分布式高速采集系统火车采集器采用分布式高速采集系统,将任务分配至多个服务端同时运行采集,多任务多线程式的运行模式,能够最大化提升运行效率.
4.
3.
2占用资源少任务量得以分解,服务端所占用资源减少,使得火车采集器的性能更加稳定.
4.
4数据精准4.
4.
1采集监控系统实时地监控采集,任务运行日志报错统计,及时修复,确保数据不被遗漏.
4.
4.
2数据处理准确多种精细化的数据处理方式,结合测试功能让火车采集器做到数据采集无误,精准可用.
五、火车采集器的典型应用5.
1使用群体及运用5.
1.
1企业人员收集潜在的客户信息,快速挖掘新客户;通过分析客户行为开展业务,降低风险和预算,洞察竞争对手的业务数据,助力商业决策.
5.
1.
2电商运营按照用户需求定向采集商品信息、商家信息、产品评价,挖掘相关数据背后的潜在价值,进行精准的营销优化,提升运行效率.
5.
1.
3政府机关实时汇集国内外信息数据,掌握所关注的动态信息,进行舆情监控,及时对不利或危情信息进行预警,并通过分析数据指导社会与经济的发展.
最受欢迎的网页数据采集软件www.
locoy.
com95.
1.
4网站站长实现定时采集数据和自动发布数据,采集优质内容加工处理后填充发布到网站,让网站快速拥有强大的内容支撑,轻松提升流量与人气.
5.
1.
5个人需求者批量下载大量的文件,图片等内容,解决个人在学术研究或生活,工作等方面的数据需求,取代手动复制粘贴,提高效率,节省下更多时间.
5.
2应用案例案例一:地震台网中心某地震中心通过火车采集器汇集到各类地震监测数据并加以分析,同时能够实时监控数据动态,及时预警最新地震活动分布范围.
案例二:某品牌保险数据为保险行业带来四大精准:精准营销、精准定价、精准管理,精准服务.
通过采集器抓取、筛选和分析出精算、营销、投保、服务、理赔等各个环节的统计数据,更加科学地设定各种费率;向客户提示保障不足的地方,筛选出最适合的保险产品和服务类型并向其精准推送.
案例三:淘宝店长电商运营人员用火车采集器采集到同类商品的属性、评价、价格,市场销量占比,从而进行某商品标题的搜索优化,根据同类经验制造爆款,提升网店的运营水平与效率.
案例四:视频网站对采集到的视频数据进行流量分析,排序,使得精品内容得以不断涌现,并能将精品快速发布到目标网站中,提升网站流量,助力内容与营销升级.
案例五:著名大学科研人员火车采集器帮助科研人员完成大量科研数据的检索、采集,在短时间内快速批量下载大量内容,取代手动采集,节省下更多时间,工作效率快速提升.
萨主机(lisahost)新上了美国cn2 gia国际精品网络 – 精品线路,支持解锁美区Netflix所有资源,HULU, DISNEY, StartZ, HBO MAX,ESPN, Amazon Prime Video等,同时支持Tiktok。套餐原价基础上加价20元可更换23段美国原生ip。支持Tiktok。成功下单后,在线充值相应差价,提交工单更换美国原生IP。!!!注意是加价20换原生I...
RAKsmart怎么样?RAKsmart机房即日起开始针对洛杉矶机房的独立服务器进行特别促销活动:低至$76.77/月,最低100Mbps带宽,最高10Gbps带宽,优化线路,不限制流量,具体包括有:常规服务器、站群服务器、10G大带宽服务器、整机机柜托管。活动截止6月30日结束。RAKsmart,美国华人老牌机房,专注于圣何塞服务器,有VPS、独立服务器等。支持PayPal、支付宝付款。点击直达...
CUBECLOUD(魔方云)成立于2016年,亚太互联网络信息中心(APNIC)会员,全线产品均为完全自营,专业数据灾备冗余,全部产品均为SSD阵列,精品网络CN2(GIA) CU(10099VIP)接入,与当今主流云计算解决方案保持同步,为企业以及开发者用户实现灵活弹性自动化的基础设施。【夏日特促】全场产品88折优惠码:Summer_2021时间:2021年8月1日 — 2021年8月8日香港C...