收集文章中写的好段落
如果说友谊是一颗常青树,那么,浇灌它的必定是出自心田的清泉;如果说友谊是一朵开不败的鲜花,那么,照耀它的必定是从心中升起的太阳。
2多少笑声都是友谊唤起的,多少眼泪都是友谊揩干的。
友谊的港湾温情脉脉,友谊的清风灌满征帆。
友谊不是感情的投资,它不需要股息和分红。
一个没有友谊的人,等于这个世界上没有同类,唯有他孤独一人。
有了友谊,就有了朋友,就有了关心自己的人,自己的生活就有了意义。
不知是哪个诗人写道:“友谊,是一把雨伞下的两个身影,是一张课桌上的两对明眸;是理想土壤中的小花,是宏伟乐章上的两个音符。
没有友谊,生命之树就会在时间的涛声中枯萎;心灵之壤就会在季节的变奏里荒芜。
” 歌颂友谊的诗句人们百听不厌,李白的“桃花潭水深千尺,不及汪伦送我情”,苏东坡的“但愿人长久,千里共婵娟”,王维的“劝君更尽一杯酒,西出阳关无故人”,何逊的“春草似青袍,秋月如团扇,三五出重云,当知我忆君”,王勃的“海内存知己,天涯若比邻” ,千古年来,人们念着它们,受着它们的感染,演译着一幕幕动人的篇章。
有朋友的人,生活才有乐趣,一个人喝茶,不能品出味道;就是一个人单独吃饭,也不会有太大的胃口,多个人在一起吃饭,就会增加香味。
工作中碰到了困难,朋友就是帮不了太大的忙,一双双关心的眼晴也会让你减掉不少压力。
培根说,把痛苦告诉给你的知心朋友,痛苦就会减掉一半;把快乐与你的朋友分享,快乐就会一分为二。
友谊的作用就是这么神奇! 真正的友谊是不掺杂任何杂质,没有价钱可讲的。
朋友需要的时候不请自来,朋友有难的时候奋不顾身。
真正的友谊要经得起考验,廉颇蔺相如如果没有先国家之急而后私仇的宽大胸怀,便不会有负荆请罪的动人场面。
友谊不是某些人的专利,只要怀有一颗真诚的心,将心比心,你就会得到真正友情的回报。
能把真诚赠给朋友,你会赢得更多朋友,多一个朋友多一个世界,蓦然回首,你不再是孤寂的独行人。
一个人的智力有限,所考虑的问题免不了有所欠妥,朋友的忠告使你少走了一条弯路;一个人的精力有限,不可能把古往今来人类所创造的专业知识全部掌握,不同专业门类的朋友将帮你扩大知识面;一个人不可能遍游天下明山秀水,居住在美国的朋友会向你侃起纽约的 繁华;走过古文明遗址的朋友将跟你谈起金字塔的雄伟。
正如张潮所说的:“上元须酌豪友;端午须酌丽友;七夕须酌韵友;中秋须酌淡友;重九须酌逸友。
对渊博友,如读异书;对风雅友,如读名人诗文;对谨饬友,如读圣贤经传;对滑稽友,如阅传奇小说。
”
如何填写采集规则“正文开始标记”
其实采集可以这么理解,定义头和尾,除了在截取链接不需要检测,在其它地方你定义的头和尾,在同一个html表里不能有相同的,为什么不能有相同的呢?是因为采集的每一步(除了截取链接外)都是根据你所定义的头和尾来截取页面内容的。
所以你在定义头和尾不仅不能有相同的,还要尽可能地把不需要的内容排除开。
如果你理解了这个定义头和尾,基本上对于简单的页面是能采集的。
下面我以一个实例来说明一下:
以下内容为程序代码:
新闻列表网址: /newxw/thd_sjym.htm /newxw/thd_sjym.htm /newxw/thd_sjym.htm
列表开始代码: <td style="padding-left:6px;"><table border="0" cellpadding="0" cellspacing="0" class="table_logo">
列表结束代码: <td height="5" colspan="2"></td>
链接开始代码:·<a target="_blank" href="
链接结束代码:">
标题开始标记:<title>
标题结束标记:</title>
正文开始标记:<div id="ArticleCnt">
正文结束标记:<div id="ArticleTopic"></div>
上面所采集的页面是比较标准的。
现在来分析一下:
1.列表网址:就是你要采集的页面,这一步很关键,以前这一步我是乱搞,现在发现这一步关系到你能否采集完所有内容。
一般你进入采集页面先判断一下是不是有多页,如果有多页你进入第二页和第一页是不是有规律变化,比如是:xxxx_1.htm,xxx_2.htm,特别注意数字,如果第一页开始就有_id的规律,那就把第一页作为列表网址,如果第一页与第二页没相关规律,而是从第二页开始才能这样的规律,那将第二页作为列表网址,第一页放到一边,等所有数据采集完了,再来采集单独页面,反正以后也只采集第一页,为啥?因为一般更新的都在第一页。
2.列表开始与结束:这里就是向采集程序说明你要采集的内容大概方向,比如上例里的列表网址,里面有好多内容,我只采集右边的新闻,这时你可以搜索第一条新闻,向上看,找段在这个HTML文件里唯一的内容,这里定义头和尾要值得注意的是:空格也算的。
比如<a href前有四个空格,这也算个特征,反正不管怎么样,只要是全文仅有的就行。
同样方法,只是这次搜索最后一条新闻,定位一下,省得全文乱找,浪费时间,往下推找个全文仅有的代码, 链接开始与结束,这里你得看一下采集页面了,然后再看HTML文件,一般是<a href= 开始,>结束。
中间的内容就让采集程序帮你去放
到这里已经接近成功了,这时为了保险一点,随机点五个页面,找五个页面的共同点,把标题开始与结束,正文开始与结束填一下,最后测试一下。
应该可以了吧。
下面谈谈分页,分页有二种,一种是采集页的分页,另一种是文章内容的分页。
采集页的分页:
例:
以下内容为程序代码:
新闻列表网址: /mobile/news/hgxz/index_1.html /mobile/news/hgxz/index_1.html
列表开始代码:1px solid; ">文章列表 </TD>
列表结束代码: <DIV ALIGN="CENTER">
列表索引分页: 批量生成: /mobile/news/hgxz/index_{$ID}.html /mobile/news/hgxz/index_{$ID}.html
生成范围:4to1
链接开始代码:<a href="
链接结束代码:target="_blank"
标题开始标记:<title>
标题结束标记:-太平洋电脑网Pconline-[手机新品速递]</title>
正文开始标记:广告:</IFRAME>
正文结束标记:<br clear=all>
请注意列表网址与列表索引分页链接的不同之处:就是将index_1.html改为了index_{$ID}.html,
生成范围:这里有多少页就?to?,有二种选择,由后到前,前到后,随便你喜好。
内容页的分页:
例:
以下内容为程序代码:
新闻列表网址: /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page=1&atype=A&acid=4146
列表开始代码:<td class="filter4" width="350"><font color="#FFFFFF">手机资讯
列表结束代码: <td height="2"></td>
批量生成: /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146 /emobile/inforcenter/articlelist.jsp?page={$ID}&atype=A&acid=4146
生成范围:10to1(这样的好处最新新闻在前面,不然刚好跟采集页面相反,最后一页为最新新闻)
链接开始代码:<td><a href="
链接结束代码:target="_blank"
标题开始标记:<strong class="p24">
标题结束标记: <td align="center">(这里要把前面的空格一起复制了,不然会出现错误)
正文开始标记:<table width="100%" border="0" cellspacing="0" cellpadding="2" align="center">
正文结束标记:<p id="adv_under_cont"></p>
下页开始标记: <a href="./(找到下一页,把<a href="./的空格也复制了)
下页结束标记:">下一页</a>
请注意下页开始与结束:找到分页代码,找到下一页的代码:定义好下一页开始与结束就OK。
这里多试几次,因为这里代码可选择范围小。
累死了o(︶︿︶)o 唉,谢谢采纳!~
如何写火车头采集器的采集规则,采集页面上图片内的文字?
不得不说火车头是有一定用处,但是个人觉得不怎么好用,光是写那些采集规则,设定什么的就一大堆不明不白的东西。
拿钱购买嘛,一开始那客服还很热情的为你解答,一交完钱买下来了,写规则,好了,有问题要找客服解决,结果一拖再拖,弄了一个多月还没弄好,整个网站的工作进程全拖慢了,还不如自己辛苦点自己手动写文章,还采集啥啊~
言归正传,火车头使用:新建站点—>新建任务—>填写你要采集的网站文章列表—>点下面的开始测试网址—>如果有采集到很多文章,看各个地址相同部分(如system/2012/03/07),点返回修改,把system/2012/03/07这部分加到“文章内容必须包含”那里,再测试一下,就可以采集到3月7日的文章地址了—>前面准备好网址后接下来就是第二步的采集内容规则了,点第二步,设定标签,一般采集包括标题<title></title>、关键字<meta name=keyword...>、内容<div>...</div>,这些设置从你要采集的网站代码上可以找到相应的——>采集页面上的图片32313133353236313431303231363533e78988e69d8331333330326633,在第四步,“文件保存及高级设置”,选择所有文件本地保存文件夹(这里是从页面下载图片存放的位置),然后下面有个FTP同步文件上传的,填好服务器、用户名、密码什么的,文件上传根目录就是你网站服务器放置图片的文件夹位置,你可以在服务器新建一个文件夹试试看,OK!到此为止,不过有一些网站写了反采集代码,有可能会被封IP,整体来说,个人不提倡使用火车头采集器,还不如个人手动来得实在,就算一天少发点也行,只要保证每天更新量、伪原创和原创,一样有很大效果。
dede文章网址匹配规则 不能包含怎么为多项
1、织梦CMS文章采集
新建一个文章采集节点,后台——采集——采集节点管理——增加新节点,选择内容模型为普通文章。
设置节点基本信息。
目标源码同上篇文章所说,通过查看目标网站源代码后设置,区域匹配模式默认字符串,只有在字符串无法确定区域的时候才用正则表达式,不过一般都用不上。
最后就是织梦cms采集的特点之一防盗链模式,如果目标网站有防盗链功能则开启次功能可以成功采集,但是会降低采集速度。
次测试目标网站没防盗链功能,所以不开启。
列表网站获取规则。
同上篇文章分析,列表网址是有规律的可批量生成。
这里要说下dedecms的强大之处,不仅获取列表网址的方式能灵活组合,而且如果目标网站整站使用的都是同一个模板,就可以启用“多栏目通配(#)”功能,通过设置后一个采集规则就可以采集整站并发布不同栏目了,而不需要一个栏目对应一个规则。
(此功能小编会另外单独写一篇教程)
文章网址匹配规则。
查看目标列表页源代码,设置要采集文章网址区域的开始和结束的html,接下来又是dedecms特点之一,如果采集网址页面链接有图片可直接设置采集为缩略图,非常方便。
对区域网址进行再次筛选功能也有特色,除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级,本篇体验目标站无干扰网址,所以留空。
保存并测试,系统会应用前面的设置测试采集网址,完整无误后保存信息并进入下一步内容采集设置。
网页内容获取规则。
系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也很灵活,除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外,还多了一个“分页列表规则”。
各字段内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。
过滤规则是{dede:trim replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的引号里设置即可。
其中,内容摘要、关键字、缩略图系统会用正则进行自动匹配,我们只需设置过滤内容即可。
其余字段分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不方便。
针对本测试的标题采集,以下两种方式都是可以的,如图:
文章作者、文章来源和发布时间字段一样采集,但是此版本dedecms在这几个字段下没有“自定义处理接口”了,如果有的话会稍显灵活,例如设置固定值可直接用“@me="固定值"”实现。
现在不能用自定义处理接口设定固定值,也没有字段值设置,只能通过采集网页某一固定值然后用替换。
如图:
dedecms的文章内容采集非常强大,除了匹配规则和过滤规则,还有个“自定义处理接口”。
如果你有php基础的话,可以通过此功能对采集结果@me进行各种处理,强大到不行啊。
以后小编会专门发一篇此功能的讲解文章。
最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中增加字段,采集管理会自动增加。
如小编在“普通文章”内容模型那增加了一个“chinaz字段”,则采集设置中自动增了一个“chinaz字段”项目。
保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。
进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史种子网址,即小编之前已经采集了60个网址,另外还有几个选项大家按需求选择。
点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有手动点击了才会继续。
采集完成后点右上角的“导出数据”,然后选择导出栏目,如果你在前面启用了“多栏目通配(#)”并指定了栏目ID,则要勾选此处的“批量采集选项”,其余选项根据自己需求选择,然后确定。
如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站,否则就要先手动去生成。
火车采集器怎么采集小说列表页?
一、简介
火车采内容集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。
使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。
系统支持远程图片下载,图片批量水印,Flash下载,下载附件,探测文件真实地址并下载文件;可扩展性强,只要做出相应的登陆模块,就能将采集的东东发往各种CMS和论坛。
二、安装
官方地址: 官方论坛:
3.0.1版下载地址:/viewthread. ... page%3D1&page=1
使用前请安 framework 2.0
下载地址: /downloa ... p;displaylang=[荐]
火车采集器非常灵活,不拘泥于某一种使用方式。
只要你习惯,怎么用都行。
下面仅介绍基本用法。
值得一提的是:在制作规则时可以用“(*)”来代表任何变动的部分,这无疑给我们这些不懂正侧表达的人来了福音!在此对火车表示感谢!
三、采集规则的制作及在线发布
3.0.1版采集规则制作及在线发布的基本步骤为:新建站点,在站点下建任务(包括 采集网址、设置内容规则、设置数据发布方式),点 开始 按钮发布。
下面以163明星写真(/special/p/00031HGU/portray.html)为例,与大家共同学习采集规则的制作:
(为便于初学者理解,我的步骤与火车的在线教程有点差异。
)
准备:用IE打开要采集的站点列表页/special/p/00031HGU/portray.html,并打开一内容页面,如/05/1205/23/248DINS9000300E1.html,查看内容页源代码。
1.新建站点
打开火车采集器,点击“新建”按钮,出现上下排列的“新建任务、新建站点”,点击“新建站点”出现一对话框,在“站点基本信息”中填写要采集站点的名称和网址:“网易娱乐,”,如不做整站规则,可直接点击“保存”。
2.新建任务
点击“新建”按钮,点击“新建站点”,在“选择任务所属站点”中选“网易娱乐”,在“任务名称”中输入要采集的版块名称“163明星写真”。
3. 采集网址 (添加网址的方式有3种:单条网址、批量/多页、文本导入。
可根据情况灵活使用)
双击“开始采集地址”的空白处,会弹出“添加开始采集地址”的对话框,将要采集的站点列表页地址“/special/p/00031HGU/portray.html”填入框中,点“添加”,再点“完成添加”。
观察内容页面地址都包含有“05”,便在“文章内容页面地址必须包含”内填入“05”,点“开始测试网址采集”按钮,采到所要的网址。
注意:默认设置下采不到的网址可试用“自定义链接格式”
4.内容规则设置
切换到“内容规则”,把要采集的内容页面的网址/05/1205/23/248DINS9000300E1.html拷贝到“典型页面”测试框中,点击“测试”读取源码。
观察测试页的源码,发现按默认标签采集回来的标题多了“_网易娱乐频道”,双击“标签名”下的标题标签,会弹出一对话框,在“内容排除”下方点“Add”把“_网易娱乐频道”添加到排除内容框里,点“确定”,标题标签设置完成。
注意:内容标签开始和结束代码的设置,一定要注意所取代码的惟一性,这是规则成败的关键。
我们观察/05/1205/23/248DINS9000300E1.html的源代码发现所采页面的各分页内容开始处都有“<!-- 正文 -->”,内容的结尾处都有“</div>”,利用IE的查找功能确定它们是惟一的,可作为内容开始和结束代码,双击内容标签,在“开始字符串”中填入“<!-- 正文 -->”,在“结束字符串”中填入“</div>”,再点测试页面的“测试”就能看到采集效果,发现内容标签中多了这样的代码“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="应声虫" border=0>”,多测试几个页面后,还发现有的内容多了“<div id="travesty">,<div class="travestypic">”这样的代码, 双击内容标签,在“内容排除”下方点“Add”把“<img src="/v2/thumb/?appid=200698&url=%2Fimg%2Fe.gif" width="18" height="18" align="absbottom" alt="(*)" border=0>,<div id="travesty">,<div class="travestypic">”分别添加到排除内容框里,钩上“下载图片”,点“确定”,内容标签设置完成。
5. 分页的设置(其实质就是把每个分页的地址都包含在内)(无分页的可不设)
观察几个内容分页的源代码后,发现每个页面的分页代码都有用图片表示的“上一页”和“下一页”,而且各分页地址都包含在其中,便以“上一页”和“下一页”的图片名称“arc_pre.gif”,“arc_next.gif”作为分页设置的起止代码,选中上下页形式(选全部列出模式也行),选中内容循环匹配。
这时点测试页面的“测试”能见各分页合并的内容,点“更新”,跟提示做。
分页设置完成。
6.数据发表方式设置
3.0.1有5种数据发布方式,目前开放的只有前3种。
这里讲第3种:在线发布方式。
切换到“数据发布方式”,选中“方式三”,点击“全局发布方式(已完成)”,在“选择系统代码类型” 中选定发布模块——》填写网站/cms根地址、用户名和密码(或使用火车内置浏览器登陆,登陆后关闭内置浏览器)——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务。
7. 下载设置
返回火车主界面,选中任务点右键,再点“任务高级设置”调出对话框,在“文件链接地址前缀,一般填你的域名或根目录/”处填写“/img(填你的域名/放图片的文件夹名)”,保存设置。
注意:文章倒序发表的设置也在这里哦
8.系统设置(一般使用默认设置,这步可省略)
点击主界面上方的“系统设置”,再点“系统全局”,可进行线程,间隔时间等设置。
9.点击主界面“开始”按钮,即开始在线发布。
呵呵,到自已的站上去看看吧,见到帖子了吧,恭喜你啦!耶,图片没有显示哦
10. 在火车采集程序的 LocoySpider3.1Data任务名称Locoy_Img目录下找到存放的图片,将图片上传到图片地址对应的空间目录,再刷新下页面,呵呵,大功告成!图片显示了!