采集(DOC)-dedecms采集教程大探秘(超详细)

dedecms采集  时间:2021-03-19  阅读:()

dedecms采集教程大探秘(超详细)

看到很多网友都为织梦DEDE CMS的采集教程头疼 的确官方出的教程太笼

统了什么都没说换个网站你什么都做不了这个教程是最详尽的教程让你一看即会

首先我们打开织梦后台点击采集——采集节点管理——增加新节点

这里我们以采集普通文章为例我们选择普通文章然后确定

我们进入了采集的设置页面填写节点名称就是给这个新节点取个名字这里你可以任意填写。

然后打开你想要采集的文章列表页这里我们以织梦官网为例http://www.dedecms. com/web-manage/jianzhanxinde/打开这个页面右键——查看源文件

找到目标页面编码就在charset后面

页面基本信息其他的一般就不用管了填完了如图

现在我们来填写列表网址获取规则

看看文章列表第一页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_1.html对比第二页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_2.html我们发现了他们除了49_后面的数字不一样其他的都一样所以我们可以这样写http://www.dedecms.com/web-manage/j ianzhanxinde/list_49_(*) .html

就是把1换成了(*) 因为这里只有2页所以我们就填从1到2每页递增当然是1了 2-1. . .是等于1吧

这里我们就填写完了

可能大家采集的有些列表没有规则那就只有手工指定列表网址了如图

每行写一个页面地址

列表规则写完了我们就开始写文章网址匹配规则了,回到文章列表页右键查看源文件找到区域开始的HTML就是找文章列表开始的标志。

我们很容易的找到了如图中的“新闻列表” 。从这里开始后面就是文章列表里我们再找文章列表结束的HTML

就是这个了一个很容易找到的标志

不处理采集为缩略图这里根据自己的需要选如果链接中含有图片 择对区域网址进行再次筛选

(使用正则表达式)必须包含 (优先级高于后者)不能包含

打开源文件我们可以很清楚的看到文章链接都是以.html结束的所以我们在必须包含后面填.html如果遇到有些列表很麻烦还可以填写后面的不能包含

我们点击保存设置进入下一步可以看到我们获得的文章网址

看到这些就是对的了我们保存信息进入下一步设置内容字段获取规则

我们看看文章有没有分页 随便进入一篇文章看看。 。我们看到这里的文章没有分页

所以这里的我们就默认了

我们现在来找文章标题等等随便进入一篇文章右键查看源文件

看看这些

依照源码填写

我们再来填写文章内容的开始结束和上面的一样找到开始和结束标志

开始

结束

你想过滤文章中的什么内容就到过滤规则里写吧 比如要过滤文章中的图片

选择常用规则

再勾选IMG

这样我们就把正文中的图片过滤了设置完毕后点保存设置并预览

然后确定

这样一个采集规则就写好了很简单吧有些网站很难写可要多下点功夫了哦我们点保存并开始采集——开始采集网页一会的功夫就采集完了

我们看看我们采集到的文章

456

看来是成功了我们导出数据吧

首先选择要导入到的栏目按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目发布选项这里一般默认即可除非你不想马上发布。每批导入默认是30条这里修改与否都无所谓 附带选项一般选“排除重复标题” 至于自动生成HTML那个选项建议先别生成 因为我们还要去批量提取摘要和关键字。

去链接不去文字的方法 {dede:trim}<a( [^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}

wordpress公司网站模板 wordpress简洁高级通用公司主题

wordpress公司网站模板,wordpresss简洁风格的高级通用自适应网站效果,完美自适应支持多终端移动屏幕设备功能,高级可视化后台自定义管理模块+规范高效的搜索优化。wordpress公司网站模板采用标准的HTML5+CSS3语言开发,兼容当下的各种主流浏览器: IE 6+(以及类似360、遨游等基于IE内核的)、Firefox、Google Chrome、Safari、Opera等;同时...

这几个Vultr VPS主机商家的优点造就商家的用户驱动力

目前云服务器市场竞争是相当的大的,比如我们在年中活动中看到各大服务商都找准这个噱头的活动发布各种活动,有的甚至就是平时的活动价格,只是换一个说法而已。可见这个行业确实竞争很大,当然我们也可以看到很多主机商几个月就消失,也有看到很多个人商家捣鼓几个品牌然后忽悠一圈跑路的。当然,个人建议在选择服务商的时候尽量选择老牌商家,这样性能更为稳定一些。近期可能会准备重新整理Vultr商家的一些信息和教程。以前...

piayun(pia云)240元/季起云服务器,香港限时季付活动,cn2线路,4核4G15M

pia云怎么样?pia云是一家2018的开办的国人商家,原名叫哔哔云,目前整合到了魔方云平台上,商家主要销售VPS服务,采用KVM虚拟架构 ,机房有美国洛杉矶、中国香港和深圳地区,洛杉矶为crea机房,三网回程CN2 GIA,带20G防御。目前,Pia云优惠促销,年付全场8折起,香港超极速CN2季付活动,4核4G15M云服务器仅240元/季起,香港CN2、美国三网CN2深圳BGP优质云服务器超高性...

dedecms采集为你推荐
libcurlphp现有新的ios更新可用请从ios14be苹果x更新系统14不能玩王者荣耀了有没有一样的?重庆网络公司一九互联网络公司做一个网站大概需要多少钱cisco2960cisco2960接入层交换机filezillaserverfilezilla server interface怎么填什么是支付宝支付宝是什么意思?csamy滴滴估值500亿开滴滴怎么才能月入一万,平均一天400纯收入,求指点购物车什么叫淘宝购物车科创板首批名单中国兰男队员名单
百度域名 阿里云邮箱登陆首页 winhost linode代购 win8升级win10正式版 上海域名 域名转接 国外代理服务器地址 佛山高防服务器 新睿云 双12 smtp虚拟服务器 移动王卡 酷锐 标准机柜 美国西雅图独立 nano 主机声音大 电信19元无限流量卡 免费网络加速器下载 更多