dedecms采集教程大探秘(超详细)
看到很多网友都为织梦DEDE CMS的采集教程头疼 的确官方出的教程太笼
统了什么都没说换个网站你什么都做不了这个教程是最详尽的教程让你一看即会
首先我们打开织梦后台点击采集——采集节点管理——增加新节点
这里我们以采集普通文章为例我们选择普通文章然后确定
我们进入了采集的设置页面填写节点名称就是给这个新节点取个名字这里你可以任意填写。
然后打开你想要采集的文章列表页这里我们以织梦官网为例http://www.dedecms. com/web-manage/jianzhanxinde/打开这个页面右键——查看源文件
找到目标页面编码就在charset后面
页面基本信息其他的一般就不用管了填完了如图
现在我们来填写列表网址获取规则
看看文章列表第一页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_1.html对比第二页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_2.html我们发现了他们除了49_后面的数字不一样其他的都一样所以我们可以这样写http://www.dedecms.com/web-manage/j ianzhanxinde/list_49_(*) .html
就是把1换成了(*) 因为这里只有2页所以我们就填从1到2每页递增当然是1了 2-1. . .是等于1吧
这里我们就填写完了
可能大家采集的有些列表没有规则那就只有手工指定列表网址了如图
每行写一个页面地址
列表规则写完了我们就开始写文章网址匹配规则了,回到文章列表页右键查看源文件找到区域开始的HTML就是找文章列表开始的标志。
我们很容易的找到了如图中的“新闻列表” 。从这里开始后面就是文章列表里我们再找文章列表结束的HTML
就是这个了一个很容易找到的标志
不处理采集为缩略图这里根据自己的需要选如果链接中含有图片 择对区域网址进行再次筛选
(使用正则表达式)必须包含 (优先级高于后者)不能包含
打开源文件我们可以很清楚的看到文章链接都是以.html结束的所以我们在必须包含后面填.html如果遇到有些列表很麻烦还可以填写后面的不能包含
我们点击保存设置进入下一步可以看到我们获得的文章网址
看到这些就是对的了我们保存信息进入下一步设置内容字段获取规则
我们看看文章有没有分页 随便进入一篇文章看看。 。我们看到这里的文章没有分页
所以这里的我们就默认了
我们现在来找文章标题等等随便进入一篇文章右键查看源文件
看看这些
依照源码填写
我们再来填写文章内容的开始结束和上面的一样找到开始和结束标志
开始
结束
你想过滤文章中的什么内容就到过滤规则里写吧 比如要过滤文章中的图片
选择常用规则
再勾选IMG
这样我们就把正文中的图片过滤了设置完毕后点保存设置并预览
然后确定
这样一个采集规则就写好了很简单吧有些网站很难写可要多下点功夫了哦我们点保存并开始采集——开始采集网页一会的功夫就采集完了
我们看看我们采集到的文章
456
看来是成功了我们导出数据吧
首先选择要导入到的栏目按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目发布选项这里一般默认即可除非你不想马上发布。每批导入默认是30条这里修改与否都无所谓 附带选项一般选“排除重复标题” 至于自动生成HTML那个选项建议先别生成 因为我们还要去批量提取摘要和关键字。
去链接不去文字的方法 {dede:trim}<a( [^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
HostKvm又上新了,这次上架了2个线路产品:俄罗斯和香港高防VPS,其中俄罗斯经测试电信CN2线路,而香港高防VPS提供30Gbps攻击防御。HostKvm是一家成立于2013年的国外主机服务商,主要提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。俄罗斯VPSCPU:1core内存:2G...
TmhHost是一家国内正规公司,具备ISP\ICP等资质,主营国内外云服务器及独立服务器租用业务,目前,商家新上香港三网CN2 GIA线路VPS及国内镇江BGP高防云主机,其中香港三网CN2 GIA线路最低每月45元起;同时对美国洛杉矶CN2 GIA线路高防及普通VPS进行优惠促销,优惠后美国洛杉矶Cera机房CN2 GIA线路高防VPS季付99元起。香港CN2 GIA安畅机房,三网回程CN2 ...
npidc全称No Problem Network Co.,Limited(冇問題(香港)科技有限公司,今年4月注册的)正在搞云服务器和独立服务器促销,数据中心有香港、美国、韩国,走CN2+BGP线路无视高峰堵塞,而且不限制流量,支持自定义内存、CPU、硬盘、带宽等,采用金盾+天机+傲盾防御系统拦截CC攻击,非常适合建站等用途。活动链接:https://www.npidc.com/act.html...