文章采集火车采集器怎么采集小说列表页？

文章采集时间:2021-09-01 阅读:()

收集文章中写的好段落

如果说友谊是一颗常青树，那么，浇灌它的必定是出自心田的清泉；如果说友谊是一朵开不败的鲜花，那么，照耀它的必定是从心中升起的太阳。

2多少笑声都是友谊唤起的，多少眼泪都是友谊揩干的。

友谊的港湾温情脉脉，友谊的清风灌满征帆。

友谊不是感情的投资，它不需要股息和分红。

一个没有友谊的人，等于这个世界上没有同类，唯有他孤独一人。

有了友谊，就有了朋友，就有了关心自己的人，自己的生活就有了意义。

不知是哪个诗人写道：“友谊，是一把雨伞下的两个身影，是一张课桌上的两对明眸；是理想土壤中的小花，是宏伟乐章上的两个音符。

没有友谊，生命之树就会在时间的涛声中枯萎；心灵之壤就会在季节的变奏里荒芜。

” 歌颂友谊的诗句人们百听不厌，李白的“桃花潭水深千尺，不及汪伦送我情”，苏东坡的“但愿人长久，千里共婵娟”，王维的“劝君更尽一杯酒，西出阳关无故人”，何逊的“春草似青袍，秋月如团扇，三五出重云，当知我忆君”，王勃的“海内存知己，天涯若比邻” ，千古年来，人们念着它们，受着它们的感染，演译着一幕幕动人的篇章。

有朋友的人，生活才有乐趣，一个人喝茶，不能品出味道；就是一个人单独吃饭，也不会有太大的胃口，多个人在一起吃饭，就会增加香味。

工作中碰到了困难，朋友就是帮不了太大的忙，一双双关心的眼晴也会让你减掉不少压力。

培根说，把痛苦告诉给你的知心朋友，痛苦就会减掉一半；把快乐与你的朋友分享，快乐就会一分为二。

友谊的作用就是这么神奇！真正的友谊是不掺杂任何杂质，没有价钱可讲的。

朋友需要的时候不请自来，朋友有难的时候奋不顾身。

真正的友谊要经得起考验，廉颇蔺相如如果没有先国家之急而后私仇的宽大胸怀，便不会有负荆请罪的动人场面。

友谊不是某些人的专利，只要怀有一颗真诚的心，将心比心，你就会得到真正友情的回报。

能把真诚赠给朋友，你会赢得更多朋友，多一个朋友多一个世界，蓦然回首，你不再是孤寂的独行人。

一个人的智力有限，所考虑的问题免不了有所欠妥，朋友的忠告使你少走了一条弯路；一个人的精力有限，不可能把古往今来人类所创造的专业知识全部掌握，不同专业门类的朋友将帮你扩大知识面；一个人不可能遍游天下明山秀水，居住在美国的朋友会向你侃起纽约的繁华；走过古文明遗址的朋友将跟你谈起金字塔的雄伟。

正如张潮所说的：“上元须酌豪友；端午须酌丽友；七夕须酌韵友；中秋须酌淡友；重九须酌逸友。

对渊博友，如读异书；对风雅友，如读名人诗文；对谨饬友，如读圣贤经传；对滑稽友，如阅传奇小说。

”

如何填写采集规则“正文开始标记”

其实采集可以这么理解，定义头和尾，除了在截取链接不需要检测，在其它地方你定义的头和尾，在同一个html表里不能有相同的，为什么不能有相同的呢？是因为采集的每一步（除了截取链接外）都是根据你所定义的头和尾来截取页面内容的。

所以你在定义头和尾不仅不能有相同的，还要尽可能地把不需要的内容排除开。

如果你理解了这个定义头和尾，基本上对于简单的页面是能采集的。

下面我以一个实例来说明一下：

以下内容为程序代码: 新闻列表网址： /newxw/thd_sjym.htm /newxw/thd_sjym.htm /newxw/thd_sjym.htm 列表开始代码： <td style="padding-left:6px;"><table border="0" cellpadding="0" cellspacing="0" class="table_logo"> 列表结束代码： <td height="5" colspan="2"></td> 链接开始代码：·<a target="_blank" href=" 链接结束代码："> 标题开始标记：<title> 标题结束标记：</title> 正文开始标记：<div id="ArticleCnt"> 正文结束标记：<div id="ArticleTopic"></div>

上面所采集的页面是比较标准的。

现在来分析一下： 1.列表网址：就是你要采集的页面，这一步很关键，以前这一步我是乱搞，现在发现这一步关系到你能否采集完所有内容。

一般你进入采集页面先判断一下是不是有多页，如果有多页你进入第二页和第一页是不是有规律变化，比如是：xxxx_1.htm,xxx_2.htm,特别注意数字，如果第一页开始就有_id的规律，那就把第一页作为列表网址，如果第一页与第二页没相关规律，而是从第二页开始才能这样的规律，那将第二页作为列表网址，第一页放到一边，等所有数据采集完了，再来采集单独页面，反正以后也只采集第一页，为啥？因为一般更新的都在第一页。

2.列表开始与结束：这里就是向采集程序说明你要采集的内容大概方向，比如上例里的列表网址，里面有好多内容，我只采集右边的新闻，这时你可以搜索第一条新闻，向上看，找段在这个HTML文件里唯一的内容，这里定义头和尾要值得注意的是：空格也算的。

比如<a href前有四个空格，这也算个特征，反正不管怎么样，只要是全文仅有的就行。

同样方法，只是这次搜索最后一条新闻，定位一下，省得全文乱找，浪费时间，往下推找个全文仅有的代码，链接开始与结束，这里你得看一下采集页面了，然后再看HTML文件，一般是<a href= 开始，>结束。

中间的内容就让采集程序帮你去放到这里已经接近成功了，这时为了保险一点，随机点五个页面，找五个页面的共同点，把标题开始与结束，正文开始与结束填一下，最后测试一下。

应该可以了吧。

下面谈谈分页，分页有二种，一种是采集页的分页，另一种是文章内容的分页。

采集页的分页：例：以下内容为程序代码: 新闻列表网址： /mobile/news/hgxz/index_1.html /mobile/news/hgxz/index_1.html 列表开始代码：1px solid; ">文章列表 </TD> 列表结束代码： <DIV ALIGN="CENTER"> 列表索引分页：批量生成： /mobile/news/hgxz/index_{$ID}.html /mobile/news/hgxz/index_{$ID}.html 生成范围：4to1 链接开始代码：<a href=" 链接结束代码：target="_blank" 标题开始标记：<title> 标题结束标记：-太平洋电脑网Pconline-[手机新品速递]</title> 正文开始标记：广告：</IFRAME> 正文结束标记：<br clear=all>

请注意列表网址与列表索引分页链接的不同之处：就是将index_1.html改为了index_{$ID}.html，生成范围：这里有多少页就?to?,有二种选择，由后到前，前到后，随便你喜好。

内容页的分页：例：以下内容为程序代码: 新闻列表网址： /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 列表开始代码：<td class="filter4" width="350"><font color="#FFFFFF">手机资讯列表结束代码： <td height="2"></td> 批量生成： /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 生成范围：10to1(这样的好处最新新闻在前面，不然刚好跟采集页面相反，最后一页为最新新闻) 链接开始代码：<td><a href=" 链接结束代码：target="_blank" 标题开始标记：<strong class="p24"> 标题结束标记： <td align="center">(这里要把前面的空格一起复制了，不然会出现错误）正文开始标记：<table width="100%" border="0" cellspacing="0" cellpadding="2" align="center"> 正文结束标记：<p id="adv_under_cont"></p> 下页开始标记： <a href="./(找到下一页，把<a href="./的空格也复制了）下页结束标记：">下一页</a> 请注意下页开始与结束：找到分页代码，找到下一页的代码：定义好下一页开始与结束就OK。

这里多试几次，因为这里代码可选择范围小。

累死了o(︶︿︶)o 唉，谢谢采纳！~

如何写火车头采集器的采集规则，采集页面上图片内的文字？

不得不说火车头是有一定用处，但是个人觉得不怎么好用，光是写那些采集规则，设定什么的就一大堆不明不白的东西。

拿钱购买嘛，一开始那客服还很热情的为你解答，一交完钱买下来了，写规则，好了，有问题要找客服解决，结果一拖再拖，弄了一个多月还没弄好，整个网站的工作进程全拖慢了，还不如自己辛苦点自己手动写文章，还采集啥啊~ 言归正传，火车头使用：新建站点—>新建任务—>填写你要采集的网站文章列表—>点下面的开始测试网址—>如果有采集到很多文章，看各个地址相同部分（如system/2012/03/07），点返回修改，把system/2012/03/07这部分加到“文章内容必须包含”那里，再测试一下，就可以采集到3月7日的文章地址了—>前面准备好网址后接下来就是第二步的采集内容规则了，点第二步，设定标签，一般采集包括标题<title></title>、关键字<meta name=keyword...>、内容<div>...</div>，这些设置从你要采集的网站代码上可以找到相应的——>采集页面上的图片32313133353236313431303231363533e78988e69d8331333330326633，在第四步，“文件保存及高级设置”，选择所有文件本地保存文件夹（这里是从页面下载图片存放的位置），然后下面有个FTP同步文件上传的，填好服务器、用户名、密码什么的，文件上传根目录就是你网站服务器放置图片的文件夹位置，你可以在服务器新建一个文件夹试试看，OK！到此为止，不过有一些网站写了反采集代码，有可能会被封IP，整体来说，个人不提倡使用火车头采集器，还不如个人手动来得实在，就算一天少发点也行，只要保证每天更新量、伪原创和原创，一样有很大效果。

dede文章网址匹配规则不能包含怎么为多项

1、织梦CMS文章采集　　新建一个文章采集节点，后台——采集——采集节点管理——增加新节点，选择内容模型为普通文章。

　　设置节点基本信息。

目标源码同上篇文章所说，通过查看目标网站源代码后设置，区域匹配模式默认字符串，只有在字符串无法确定区域的时候才用正则表达式，不过一般都用不上。

最后就是织梦cms采集的特点之一防盗链模式，如果目标网站有防盗链功能则开启次功能可以成功采集，但是会降低采集速度。

次测试目标网站没防盗链功能，所以不开启。

　　列表网站获取规则。

同上篇文章分析，列表网址是有规律的可批量生成。

这里要说下dedecms的强大之处，不仅获取列表网址的方式能灵活组合，而且如果目标网站整站使用的都是同一个模板，就可以启用“多栏目通配(#)”功能，通过设置后一个采集规则就可以采集整站并发布不同栏目了，而不需要一个栏目对应一个规则。

(此功能小编会另外单独写一篇教程) 　　文章网址匹配规则。

查看目标列表页源代码，设置要采集文章网址区域的开始和结束的html，接下来又是dedecms特点之一，如果采集网址页面链接有图片可直接设置采集为缩略图，非常方便。

对区域网址进行再次筛选功能也有特色，除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级，本篇体验目标站无干扰网址，所以留空。

　　保存并测试，系统会应用前面的设置测试采集网址，完整无误后保存信息并进入下一步内容采集设置。

　网页内容获取规则。

系统会默认一个采集url为预览网址，另外内容分页导航所在的区域匹配规则也很灵活，除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外，还多了一个“分页列表规则”。

　　各字段内容采集，dedecms的内容匹配规则和phpcms一样：“起始无重复HTML[内容]结尾无重复HTML”，[内容]即为所采内容。

过滤规则是{dede:trim replace=""}规则{/dede:trim}，多个规则的话一个一行，如果要替换成指定的值，则只要在replace=""的引号里设置即可。

　　其中，内容摘要、关键字、缩略图系统会用正则进行自动匹配，我们只需设置过滤内容即可。

其余字段分别设置匹配规则和过滤规则，系统同样自带了几个常用的过滤规则，但是点击“常用规则”后为弹出小窗口模式，稍微有点不方便。

针对本测试的标题采集，以下两种方式都是可以的，如图：　　文章作者、文章来源和发布时间字段一样采集，但是此版本dedecms在这几个字段下没有“自定义处理接口”了，如果有的话会稍显灵活，例如设置固定值可直接用“@me="固定值"”实现。

现在不能用自定义处理接口设定固定值，也没有字段值设置，只能通过采集网页某一固定值然后用替换。

如图：　　dedecms的文章内容采集非常强大，除了匹配规则和过滤规则，还有个“自定义处理接口”。

如果你有php基础的话，可以通过此功能对采集结果@me进行各种处理，强大到不行啊。

以后小编会专门发一篇此功能的讲解文章。

最后，不能直接在采集管理处新增采集字段，只能在对应内容模型管理中增加字段，采集管理会自动增加。

如小编在“普通文章”内容模型那增加了一个“chinaz字段”，则采集设置中自动增了一个“chinaz字段”项目。

　　保存并测试，查看列表测试信息和网页规则测试，检查是否正确，无误后确定并开始采集。

进入采集指定节点设置页面，因为小编之前有测试一遍，所以有60个历史种子网址，即小编之前已经采集了60个网址，另外还有几个选项大家按需求选择。

　　点开始采集网页，出现此采集提示信息显示采集进度，不知道是小编人品不好还是dede采集本身缺点，经常会浏览器没反应，采集停止在那，只有手动点击了才会继续。

采集完成后点右上角的“导出数据”，然后选择导出栏目，如果你在前面启用了“多栏目通配(#)”并指定了栏目ID，则要勾选此处的“批量采集选项”，其余选项根据自己需求选择，然后确定。

如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站，否则就要先手动去生成。

火车采集器怎么采集小说列表页？

一、简介火车采内容集器(LocoySpider) 是一个供各大主流文章系统，论坛系统等使用的多线程内容采集发布程序。

使用火车采集器，你可以瞬间建立一个拥有庞大内容的网站。

　　系统支持远程图片下载，图片批量水印，Flash下载，下载附件，探测文件真实地址并下载文件；可扩展性强，只要做出相应的登陆模块，就能将采集的东东发往各种CMS和论坛。

二、安装官方地址：官方论坛： 3.0.1版下载地址：/viewthread. ... page%3D1&page=1 使用前请安 framework 2.0 下载地址: /downloa ... p;displaylang=[荐] 火车采集器非常灵活，不拘泥于某一种使用方式。

只要你习惯，怎么用都行。

下面仅介绍基本用法。

值得一提的是：在制作规则时可以用“（*）”来代表任何变动的部分，这无疑给我们这些不懂正侧表达的人来了福音！在此对火车表示感谢！三、采集规则的制作及在线发布 3.0.1版采集规则制作及在线发布的基本步骤为：新建站点，在站点下建任务（包括采集网址、设置内容规则、设置数据发布方式），点开始按钮发布。

下面以163明星写真（/special/p/00031HGU/portray.html）为例，与大家共同学习采集规则的制作：（为便于初学者理解，我的步骤与火车的在线教程有点差异。

）准备：用IE打开要采集的站点列表页/special/p/00031HGU/portray.html，并打开一内容页面，如/05/1205/23/248DINS9000300E1.html，查看内容页源代码。

1.新建站点打开火车采集器，点击“新建”按钮，出现上下排列的“新建任务、新建站点”，点击“新建站点”出现一对话框，在“站点基本信息”中填写要采集站点的名称和网址：“网易娱乐，”，如不做整站规则，可直接点击“保存”。

2.新建任务点击“新建”按钮，点击“新建站点”，在“选择任务所属站点”中选“网易娱乐”，在“任务名称”中输入要采集的版块名称“163明星写真”。

3. 采集网址（添加网址的方式有3种：单条网址、批量/多页、文本导入。

可根据情况灵活使用）双击“开始采集地址”的空白处，会弹出“添加开始采集地址”的对话框，将要采集的站点列表页地址“/special/p/00031HGU/portray.html”填入框中，点“添加”，再点“完成添加”。

观察内容页面地址都包含有“05”，便在“文章内容页面地址必须包含”内填入“05”，点“开始测试网址采集”按钮，采到所要的网址。

注意：默认设置下采不到的网址可试用“自定义链接格式” 4.内容规则设置切换到“内容规则”，把要采集的内容页面的网址/05/1205/23/248DINS9000300E1.html拷贝到“典型页面”测试框中，点击“测试”读取源码。

观察测试页的源码，发现按默认标签采集回来的标题多了“_网易娱乐频道”，双击“标签名”下的标题标签，会弹出一对话框，在“内容排除”下方点“Add”把“_网易娱乐频道”添加到排除内容框里，点“确定”，标题标签设置完成。

注意：内容标签开始和结束代码的设置，一定要注意所取代码的惟一性，这是规则成败的关键。

我们观察/05/1205/23/248DINS9000300E1.html的源代码发现所采页面的各分页内容开始处都有“”，内容的结尾处都有“</div>”，利用IE的查找功能确定它们是惟一的，可作为内容开始和结束代码，双击内容标签，在“开始字符串”中填入“”，在“结束字符串”中填入“</div>”，再点测试页面的“测试”就能看到采集效果，发现内容标签中多了这样的代码“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="应声虫" border=0>”，多测试几个页面后，还发现有的内容多了“<div id="travesty">，<div class="travestypic">”这样的代码，双击内容标签，在“内容排除”下方点“Add”把“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="(*)" border=0>,<div id="travesty">，<div class="travestypic">”分别添加到排除内容框里，钩上“下载图片”，点“确定”，内容标签设置完成。

5. 分页的设置（其实质就是把每个分页的地址都包含在内）（无分页的可不设）观察几个内容分页的源代码后，发现每个页面的分页代码都有用图片表示的“上一页”和“下一页”，而且各分页地址都包含在其中，便以“上一页”和“下一页”的图片名称“arc_pre.gif”，“arc_next.gif”作为分页设置的起止代码，选中上下页形式（选全部列出模式也行），选中内容循环匹配。

这时点测试页面的“测试”能见各分页合并的内容，点“更新”，跟提示做。

分页设置完成。

6.数据发表方式设置 3.0.1有5种数据发布方式，目前开放的只有前3种。

这里讲第3种：在线发布方式。

切换到“数据发布方式”，选中“方式三”，点击“全局发布方式（已完成）”，在“选择系统代码类型” 中选定发布模块——》填写网站/cms根地址、用户名和密码（或使用火车内置浏览器登陆，登陆后关闭内置浏览器）——》刷新列表——》测试模块，测试成功——》保存配置——》保存任务。

7. 下载设置返回火车主界面，选中任务点右键，再点“任务高级设置”调出对话框，在“文件链接地址前缀，一般填你的域名或根目录/”处填写“/img（填你的域名/放图片的文件夹名）”，保存设置。

注意：文章倒序发表的设置也在这里哦 8.系统设置（一般使用默认设置，这步可省略）点击主界面上方的“系统设置”，再点“系统全局”，可进行线程，间隔时间等设置。

9.点击主界面“开始”按钮，即开始在线发布。

呵呵，到自已的站上去看看吧，见到帖子了吧，恭喜你啦！耶，图片没有显示哦 10. 在火车采集程序的 LocoySpider3.1Data任务名称Locoy_Img目录下找到存放的图片，将图片上传到图片地址对应的空间目录，再刷新下页面，呵呵，大功告成！图片显示了！

展开全文