采集(DOC)-dedecms采集教程大探秘(超详细)

dedecms采集  时间:2021-03-19  阅读:()

dedecms采集教程大探秘(超详细)

看到很多网友都为织梦DEDE CMS的采集教程头疼 的确官方出的教程太笼

统了什么都没说换个网站你什么都做不了这个教程是最详尽的教程让你一看即会

首先我们打开织梦后台点击采集——采集节点管理——增加新节点

这里我们以采集普通文章为例我们选择普通文章然后确定

我们进入了采集的设置页面填写节点名称就是给这个新节点取个名字这里你可以任意填写。

然后打开你想要采集的文章列表页这里我们以织梦官网为例http://www.dedecms. com/web-manage/jianzhanxinde/打开这个页面右键——查看源文件

找到目标页面编码就在charset后面

页面基本信息其他的一般就不用管了填完了如图

现在我们来填写列表网址获取规则

看看文章列表第一页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_1.html对比第二页的地址http://www.dedecms. com/web-manage/jianzhanxinde/list_49_2.html我们发现了他们除了49_后面的数字不一样其他的都一样所以我们可以这样写http://www.dedecms.com/web-manage/j ianzhanxinde/list_49_(*) .html

就是把1换成了(*) 因为这里只有2页所以我们就填从1到2每页递增当然是1了 2-1. . .是等于1吧

这里我们就填写完了

可能大家采集的有些列表没有规则那就只有手工指定列表网址了如图

每行写一个页面地址

列表规则写完了我们就开始写文章网址匹配规则了,回到文章列表页右键查看源文件找到区域开始的HTML就是找文章列表开始的标志。

我们很容易的找到了如图中的“新闻列表” 。从这里开始后面就是文章列表里我们再找文章列表结束的HTML

就是这个了一个很容易找到的标志

不处理采集为缩略图这里根据自己的需要选如果链接中含有图片 择对区域网址进行再次筛选

(使用正则表达式)必须包含 (优先级高于后者)不能包含

打开源文件我们可以很清楚的看到文章链接都是以.html结束的所以我们在必须包含后面填.html如果遇到有些列表很麻烦还可以填写后面的不能包含

我们点击保存设置进入下一步可以看到我们获得的文章网址

看到这些就是对的了我们保存信息进入下一步设置内容字段获取规则

我们看看文章有没有分页 随便进入一篇文章看看。 。我们看到这里的文章没有分页

所以这里的我们就默认了

我们现在来找文章标题等等随便进入一篇文章右键查看源文件

看看这些

依照源码填写

我们再来填写文章内容的开始结束和上面的一样找到开始和结束标志

开始

结束

你想过滤文章中的什么内容就到过滤规则里写吧 比如要过滤文章中的图片

选择常用规则

再勾选IMG

这样我们就把正文中的图片过滤了设置完毕后点保存设置并预览

然后确定

这样一个采集规则就写好了很简单吧有些网站很难写可要多下点功夫了哦我们点保存并开始采集——开始采集网页一会的功夫就采集完了

我们看看我们采集到的文章

456

看来是成功了我们导出数据吧

首先选择要导入到的栏目按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目发布选项这里一般默认即可除非你不想马上发布。每批导入默认是30条这里修改与否都无所谓 附带选项一般选“排除重复标题” 至于自动生成HTML那个选项建议先别生成 因为我们还要去批量提取摘要和关键字。

去链接不去文字的方法 {dede:trim}<a( [^>]*)>{/dede:trim}

{dede:trim}</a>{/dede:trim}

无法忍受旧版不兼容PHP7+主题 更换新主题

今天父亲节我们有没有陪伴家人一起吃个饭,还是打个电话问候一下。前一段时间同学将网站账户给我说可以有空更新点信息确保他在没有时间的时候还能保持网站有一定的更新内容。不过,他这个网站之前采用的主题也不知道来源哪里,总之各种不合适,文件中很多都是他多年来手工修改的主题拼接的,并非完全适应WordPress已有的函数,有些函数还不兼容最新的PHP版本,于是每次出现问题都要去排查。于是和他商量后,就抽时间把...

pacificrack:2021年七夕VPS特别促销,$13.14/年,2G内存/2核/60gSSD/1T流量,支持Windows

pacificrack官方在搞2021年七夕促销,两款便宜vps给的配置都是挺不错的,依旧是接入1Gbps带宽,KVM虚拟、纯SSD raid10阵列,支持包括Linux、Windows 7、10、server2003、2008、2012、2016、2019在内多种操作系统。本次促销的VPS请特别注意限制条件,见本文末尾!官方网站:https://pacificrack.com支持PayPal、支...

建站选择网站域名和IP主机地址之间关系和注意要点

今天中午的时候有网友联系到在选择网站域名建站和主机的时候问到域名和IP地址有没有关联,或者需要注意的问题。毕竟我们在需要建站的时候,我们需要选择网站域名和主机,而主机有虚拟主机,包括共享和独立IP,同时还有云服务器、独立服务器、站群服务器等形式。通过这篇文章,简单的梳理关于网站域名和IP之间的关系。第一、什么是域名所谓网站域名,就是我们看到的类似"www.laozuo.org",我们可以通过直接记...

dedecms采集为你推荐
空间文章空间的文章被人推荐有什么好处centos6.5centos 6.5服务器基本配置有哪些企业建网站一般中小型企业建立网站需要多少费用?多大的空间?重庆400年老树穿楼生长重庆适宜驴生长asp.net网页制作开发ASP.NET的网站,步骤是怎样?有经验的可以说说自己的经验sns网站有哪些有趣的SNS网站有哪些北京大学cuteftp电子商务世界电子商务最先起源于那个国家,什么时间温州都市报招聘劳务市场找工作可靠吗网站制作套餐做一个网站要多少钱
域名拍卖 上海域名注册 vps租用 dns是什么 瓦工 荷兰服务器 香港加速器 bandwagonhost namecheap cdn服务器 特价空间 宕机监控 godaddy 搜狗抢票助手 500m空间 ntfs格式分区 如何用qq邮箱发邮件 idc查询 联通网站 空间登入 更多