文章采集火车采集器怎么采集小说列表页?

文章采集  时间:2021-09-01  阅读:()

收集文章中写的好段落

如果说友谊是一颗常青树,那么,浇灌它的必定是出自心田的清泉;如果说友谊是一朵开不败的鲜花,那么,照耀它的必定是从心中升起的太阳。

2多少笑声都是友谊唤起的,多少眼泪都是友谊揩干的。

友谊的港湾温情脉脉,友谊的清风灌满征帆。

友谊不是感情的投资,它不需要股息和分红。

一个没有友谊的人,等于这个世界上没有同类,唯有他孤独一人。

有了友谊,就有了朋友,就有了关心自己的人,自己的生活就有了意义。

不知是哪个诗人写道:“友谊,是一把雨伞下的两个身影,是一张课桌上的两对明眸;是理想土壤中的小花,是宏伟乐章上的两个音符。

没有友谊,生命之树就会在时间的涛声中枯萎;心灵之壤就会在季节的变奏里荒芜。

” 歌颂友谊的诗句人们百听不厌,李白的“桃花潭水深千尺,不及汪伦送我情”,苏东坡的“但愿人长久,千里共婵娟”,王维的“劝君更尽一杯酒,西出阳关无故人”,何逊的“春草似青袍,秋月如团扇,三五出重云,当知我忆君”,王勃的“海内存知己,天涯若比邻” ,千古年来,人们念着它们,受着它们的感染,演译着一幕幕动人的篇章。

有朋友的人,生活才有乐趣,一个人喝茶,不能品出味道;就是一个人单独吃饭,也不会有太大的胃口,多个人在一起吃饭,就会增加香味。

工作中碰到了困难,朋友就是帮不了太大的忙,一双双关心的眼晴也会让你减掉不少压力。

培根说,把痛苦告诉给你的知心朋友,痛苦就会减掉一半;把快乐与你的朋友分享,快乐就会一分为二。

友谊的作用就是这么神奇! 真正的友谊是不掺杂任何杂质,没有价钱可讲的。

朋友需要的时候不请自来,朋友有难的时候奋不顾身。

真正的友谊要经得起考验,廉颇蔺相如如果没有先国家之急而后私仇的宽大胸怀,便不会有负荆请罪的动人场面。

友谊不是某些人的专利,只要怀有一颗真诚的心,将心比心,你就会得到真正友情的回报。

能把真诚赠给朋友,你会赢得更多朋友,多一个朋友多一个世界,蓦然回首,你不再是孤寂的独行人。

一个人的智力有限,所考虑的问题免不了有所欠妥,朋友的忠告使你少走了一条弯路;一个人的精力有限,不可能把古往今来人类所创造的专业知识全部掌握,不同专业门类的朋友将帮你扩大知识面;一个人不可能遍游天下明山秀水,居住在美国的朋友会向你侃起纽约的 繁华;走过古文明遗址的朋友将跟你谈起金字塔的雄伟。

正如张潮所说的:“上元须酌豪友;端午须酌丽友;七夕须酌韵友;中秋须酌淡友;重九须酌逸友。

对渊博友,如读异书;对风雅友,如读名人诗文;对谨饬友,如读圣贤经传;对滑稽友,如阅传奇小说。

如何填写采集规则“正文开始标记”

其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同一个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。

所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。

如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。

下面我以一个实例来说明一下:

以下内容为程序代码: 新闻列表网址: /newxw/thd_sjym.htm /newxw/thd_sjym.htm /newxw/thd_sjym.htm 列表开始代码: <td style="padding-left:6px;"><table border="0" cellpadding="0" cellspacing="0" class="table_logo"> 列表结束代码: <td height="5" colspan="2"></td> 链接开始代码:·<a target="_blank" href=" 链接结束代码:"> 标题开始标记:<title> 标题结束标记:</title> 正文开始标记:<div id="ArticleCnt"> 正文结束标记:<div id="ArticleTopic"></div>

上面所采集的页面是比较标准的。

现在来分析一下: 1.列表网址:就是你要采集的页面,这一步很关键,以前这一步我是乱搞,现在发现这一步关系到你能否采集完所有内容。

一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。

2.列表开始与结束:这里就是向采集程序说明你要采集的内容大概方向,比如上例里的列表网址,里面有好多内容,我只采集右边的新闻,这时你可以搜索第一条新闻,向上看,找段在这个HTML文件里唯一的内容,这里定义头和尾要值得注意的是:空格也算的。

比如<a href前有四个空格,这也算个特征,反正不管怎么样,只要是全文仅有的就行。

同样方法,只是这次搜索最后一条新闻,定位一下,省得全文乱找,浪费时间,往下推找个全文仅有的代码, 链接开始与结束,这里你得看一下采集页面了,然后再看HTML文件,一般是<a href= 开始,>结束。

中间的内容就让采集程序帮你去放 到这里已经接近成功了,这时为了保险一点,随机点五个页面,找五个页面的共同点,把标题开始与结束,正文开始与结束填一下,最后测试一下。

应该可以了吧。

下面谈谈分页,分页有二种,一种是采集页的分页,另一种是文章内容的分页。

采集页的分页: 例: 以下内容为程序代码: 新闻列表网址: /mobile/news/hgxz/index_1.html /mobile/news/hgxz/index_1.html 列表开始代码:1px solid; ">文章列表 </TD> 列表结束代码: <DIV ALIGN="CENTER"> 列表索引分页: 批量生成: /mobile/news/hgxz/index_{$ID}.html /mobile/news/hgxz/index_{$ID}.html 生成范围:4to1 链接开始代码:<a href=" 链接结束代码:target="_blank" 标题开始标记:<title> 标题结束标记:-太平洋电脑网Pconline-[手机新品速递]</title> 正文开始标记:广告:</IFRAME> 正文结束标记:<br clear=all>

请注意列表网址与列表索引分页链接的不同之处:就是将index_1.html改为了index_{$ID}.html, 生成范围:这里有多少页就?to?,有二种选择,由后到前,前到后,随便你喜好。

内容页的分页: 例: 以下内容为程序代码: 新闻列表网址: /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 列表开始代码:<td class="filter4" width="350"><font color="#FFFFFF">手机资讯 列表结束代码: <td height="2"></td> 批量生成: /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 生成范围:10to1(这样的好处最新新闻在前面,不然刚好跟采集页面相反,最后一页为最新新闻) 链接开始代码:<td><a href=" 链接结束代码:target="_blank" 标题开始标记:<strong class="p24"> 标题结束标记: <td align="center">(这里要把前面的空格一起复制了,不然会出现错误) 正文开始标记:<table width="100%" border="0" cellspacing="0" cellpadding="2" align="center"> 正文结束标记:<p id="adv_under_cont"></p> 下页开始标记: <a href="./(找到下一页,把<a href="./的空格也复制了) 下页结束标记:">下一页</a> 请注意下页开始与结束:找到分页代码,找到下一页的代码:定义好下一页开始与结束就OK。

这里多试几次,因为这里代码可选择范围小。

累死了o(︶︿︶)o 唉,谢谢采纳!~

如何写火车头采集器的采集规则,采集页面上图片内的文字?

不得不说火车头是有一定用处,但是个人觉得不怎么好用,光是写那些采集规则,设定什么的就一大堆不明不白的东西。

拿钱购买嘛,一开始那客服还很热情的为你解答,一交完钱买下来了,写规则,好了,有问题要找客服解决,结果一拖再拖,弄了一个多月还没弄好,整个网站的工作进程全拖慢了,还不如自己辛苦点自己手动写文章,还采集啥啊~ 言归正传,火车头使用:新建站点—>新建任务—>填写你要采集的网站文章列表—>点下面的开始测试网址—>如果有采集到很多文章,看各个地址相同部分(如system/2012/03/07),点返回修改,把system/2012/03/07这部分加到“文章内容必须包含”那里,再测试一下,就可以采集到3月7日的文章地址了—>前面准备好网址后接下来就是第二步的采集内容规则了,点第二步,设定标签,一般采集包括标题<title></title>、关键字<meta name=keyword...>、内容<div>...</div>,这些设置从你要采集的网站代码上可以找到相应的——>采集页面上的图片32313133353236313431303231363533e78988e69d8331333330326633,在第四步,“文件保存及高级设置”,选择所有文件本地保存文件夹(这里是从页面下载图片存放的位置),然后下面有个FTP同步文件上传的,填好服务器、用户名、密码什么的,文件上传根目录就是你网站服务器放置图片的文件夹位置,你可以在服务器新建一个文件夹试试看,OK!到此为止,不过有一些网站写了反采集代码,有可能会被封IP,整体来说,个人不提倡使用火车头采集器,还不如个人手动来得实在,就算一天少发点也行,只要保证每天更新量、伪原创和原创,一样有很大效果。

dede文章网址匹配规则 不能包含怎么为多项

1、织梦CMS文章采集   新建一个文章采集节点,后台——采集——采集节点管理——增加新节点,选择内容模型为普通文章。

  设置节点基本信息。

目标源码同上篇文章所说,通过查看目标网站源代码后设置,区域匹配模式默认字符串,只有在字符串无法确定区域的时候才用正则表达式,不过一般都用不上。

最后就是织梦cms采集的特点之一防盗链模式,如果目标网站有防盗链功能则开启次功能可以成功采集,但是会降低采集速度。

次测试目标网站没防盗链功能,所以不开启。

  列表网站获取规则。

同上篇文章分析,列表网址是有规律的可批量生成。

这里要说下dedecms的强大之处,不仅获取列表网址的方式能灵活组合,而且如果目标网站整站使用的都是同一个模板,就可以启用“多栏目通配(#)”功能,通过设置后一个采集规则就可以采集整站并发布不同栏目了,而不需要一个栏目对应一个规则。

(此功能小编会另外单独写一篇教程)   文章网址匹配规则。

查看目标列表页源代码,设置要采集文章网址区域的开始和结束的html,接下来又是dedecms特点之一,如果采集网址页面链接有图片可直接设置采集为缩略图,非常方便。

对区域网址进行再次筛选功能也有特色,除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级,本篇体验目标站无干扰网址,所以留空。

  保存并测试,系统会应用前面的设置测试采集网址,完整无误后保存信息并进入下一步内容采集设置。

 网页内容获取规则。

系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也很灵活,除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外,还多了一个“分页列表规则”。

  各字段内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。

过滤规则是{dede:trim replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的引号里设置即可。

  其中,内容摘要、关键字、缩略图系统会用正则进行自动匹配,我们只需设置过滤内容即可。

其余字段分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不方便。

针对本测试的标题采集,以下两种方式都是可以的,如图:   文章作者、文章来源和发布时间字段一样采集,但是此版本dedecms在这几个字段下没有“自定义处理接口”了,如果有的话会稍显灵活,例如设置固定值可直接用“@me="固定值"”实现。

现在不能用自定义处理接口设定固定值,也没有字段值设置,只能通过采集网页某一固定值然后用替换。

如图:   dedecms的文章内容采集非常强大,除了匹配规则和过滤规则,还有个“自定义处理接口”。

如果你有php基础的话,可以通过此功能对采集结果@me进行各种处理,强大到不行啊。

以后小编会专门发一篇此功能的讲解文章。

最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中增加字段,采集管理会自动增加。

如小编在“普通文章”内容模型那增加了一个“chinaz字段”,则采集设置中自动增了一个“chinaz字段”项目。

  保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。

进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史种子网址,即小编之前已经采集了60个网址,另外还有几个选项大家按需求选择。

  点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有手动点击了才会继续。

采集完成后点右上角的“导出数据”,然后选择导出栏目,如果你在前面启用了“多栏目通配(#)”并指定了栏目ID,则要勾选此处的“批量采集选项”,其余选项根据自己需求选择,然后确定。

如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站,否则就要先手动去生成。

火车采集器怎么采集小说列表页?

一、简介 火车采内容集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。

使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。

  系统支持远程图片下载,图片批量水印,Flash下载,下载附件,探测文件真实地址并下载文件;可扩展性强,只要做出相应的登陆模块,就能将采集的东东发往各种CMS和论坛。

二、安装 官方地址: 官方论坛: 3.0.1版下载地址:/viewthread. ... page%3D1&page=1 使用前请安 framework 2.0 下载地址: /downloa ... p;displaylang=[荐] 火车采集器非常灵活,不拘泥于某一种使用方式。

只要你习惯,怎么用都行。

下面仅介绍基本用法。

值得一提的是:在制作规则时可以用“(*)”来代表任何变动的部分,这无疑给我们这些不懂正侧表达的人来了福音!在此对火车表示感谢! 三、采集规则的制作及在线发布 3.0.1版采集规则制作及在线发布的基本步骤为:新建站点,在站点下建任务(包括 采集网址、设置内容规则、设置数据发布方式),点 开始 按钮发布。

下面以163明星写真(/special/p/00031HGU/portray.html)为例,与大家共同学习采集规则的制作: (为便于初学者理解,我的步骤与火车的在线教程有点差异。

) 准备:用IE打开要采集的站点列表页/special/p/00031HGU/portray.html,并打开一内容页面,如/05/1205/23/248DINS9000300E1.html,查看内容页源代码。

1.新建站点 打开火车采集器,点击“新建”按钮,出现上下排列的“新建任务、新建站点”,点击“新建站点”出现一对话框,在“站点基本信息”中填写要采集站点的名称和网址:“网易娱乐,”,如不做整站规则,可直接点击“保存”。

2.新建任务 点击“新建”按钮,点击“新建站点”,在“选择任务所属站点”中选“网易娱乐”,在“任务名称”中输入要采集的版块名称“163明星写真”。

3. 采集网址 (添加网址的方式有3种:单条网址、批量/多页、文本导入。

可根据情况灵活使用) 双击“开始采集地址”的空白处,会弹出“添加开始采集地址”的对话框,将要采集的站点列表页地址“/special/p/00031HGU/portray.html”填入框中,点“添加”,再点“完成添加”。

观察内容页面地址都包含有“05”,便在“文章内容页面地址必须包含”内填入“05”,点“开始测试网址采集”按钮,采到所要的网址。

注意:默认设置下采不到的网址可试用“自定义链接格式” 4.内容规则设置 切换到“内容规则”,把要采集的内容页面的网址/05/1205/23/248DINS9000300E1.html拷贝到“典型页面”测试框中,点击“测试”读取源码。

观察测试页的源码,发现按默认标签采集回来的标题多了“_网易娱乐频道”,双击“标签名”下的标题标签,会弹出一对话框,在“内容排除”下方点“Add”把“_网易娱乐频道”添加到排除内容框里,点“确定”,标题标签设置完成。

注意:内容标签开始和结束代码的设置,一定要注意所取代码的惟一性,这是规则成败的关键。

我们观察/05/1205/23/248DINS9000300E1.html的源代码发现所采页面的各分页内容开始处都有“<!-- 正文 -->”,内容的结尾处都有“</div>”,利用IE的查找功能确定它们是惟一的,可作为内容开始和结束代码,双击内容标签,在“开始字符串”中填入“<!-- 正文 -->”,在“结束字符串”中填入“</div>”,再点测试页面的“测试”就能看到采集效果,发现内容标签中多了这样的代码“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="应声虫" border=0>”,多测试几个页面后,还发现有的内容多了“<div id="travesty">,<div class="travestypic">”这样的代码, 双击内容标签,在“内容排除”下方点“Add”把“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="(*)" border=0>,<div id="travesty">,<div class="travestypic">”分别添加到排除内容框里,钩上“下载图片”,点“确定”,内容标签设置完成。

5. 分页的设置(其实质就是把每个分页的地址都包含在内)(无分页的可不设) 观察几个内容分页的源代码后,发现每个页面的分页代码都有用图片表示的“上一页”和“下一页”,而且各分页地址都包含在其中,便以“上一页”和“下一页”的图片名称“arc_pre.gif”,“arc_next.gif”作为分页设置的起止代码,选中上下页形式(选全部列出模式也行),选中内容循环匹配。

这时点测试页面的“测试”能见各分页合并的内容,点“更新”,跟提示做。

分页设置完成。

6.数据发表方式设置 3.0.1有5种数据发布方式,目前开放的只有前3种。

这里讲第3种:在线发布方式。

切换到“数据发布方式”,选中“方式三”,点击“全局发布方式(已完成)”,在“选择系统代码类型” 中选定发布模块——》填写网站/cms根地址、用户名和密码(或使用火车内置浏览器登陆,登陆后关闭内置浏览器)——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务。

7. 下载设置 返回火车主界面,选中任务点右键,再点“任务高级设置”调出对话框,在“文件链接地址前缀,一般填你的域名或根目录/”处填写“/img(填你的域名/放图片的文件夹名)”,保存设置。

注意:文章倒序发表的设置也在这里哦 8.系统设置(一般使用默认设置,这步可省略) 点击主界面上方的“系统设置”,再点“系统全局”,可进行线程,间隔时间等设置。

9.点击主界面“开始”按钮,即开始在线发布。

呵呵,到自已的站上去看看吧,见到帖子了吧,恭喜你啦!耶,图片没有显示哦 10. 在火车采集程序的 LocoySpider3.1Data任务名称Locoy_Img目录下找到存放的图片,将图片上传到图片地址对应的空间目录,再刷新下页面,呵呵,大功告成!图片显示了!

Megalayer美国独立服务器配置及性能速度综合评测

Megalayer 商家在之前也有记录过,商家开始只有提供香港站群服务器和独立服务器,后来也有增加到美国独立服务器,以及前几天也有介绍到有增加香港VPS主机。对于香港服务器之前有过评测(Megalayer香港服务器配置一览及E3-1230 8GB服务器评测记录),这里申请到一台美国独立服务器,所以也准备简单的评测记录。目前市场上我们看到很多商家提供VPS或者云服务器基本上没有什么特别的,但是独立服...

萤光云(16元/月)高防云服务器自带50G防御

螢光云官網萤光云成立于2002年,是一家自有IDC的云厂商,主打高防云服务器产品。在国内有福州、北京、上海、台湾、香港CN2节点,还有华盛顿、河内、曼谷等海外节点。萤光云的高防云服务器自带50G防御,适合高防建站、游戏高防等业务。本次萤光云中秋云活动简单无套路,直接在原有价格上砍了一大刀,最低价格16元/月,而且有没有账户限制,新老客户都可以买,就是直接满满的诚意给大家送优惠了!官网首页:www....

妮妮云36元,美国VPS洛杉矶 8核 8G 36元/月,香港葵湾 8核 8G

妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...

文章采集为你推荐
阈值电压在MOS管里面,为什么阈值电压正负跟是否是耗尽型还是增强型有至?高级工程师证书考一个高级工程师证要什么学历?权限表帮忙设计个用户权限表增值税专用发票和增值税普通发票的区别普通增值税发票和专用增值税发票有区别吗?数字通信原理数字通信要怎么学组或资源的状态不是执行请求操作的正确状态无法启动承载网络,组或资源状态下不是执行请求操作的正确状态!背投广告搜狐的广告类型有哪些?报价多少?封包是什么洛克王国封包是什么意思软件更新不可用手机软件突然更新不了怎么办软件更新不可用我的手机系统更新时候出现您的设备已修改,软件更新不可用S3(sch-939d)
短域名 lamp 香港ufo namecheap windows2003iso 丹弗 华为4核 合肥鹏博士 php空间申请 建立邮箱 hinet isp服务商 河南移动网 网站在线扫描 360云服务 服务器是干什么用的 中国电信网络测速 网页加速 中国联通宽带测试 乐视会员免费领取 更多