新版采集示例
我们以新浪网环球新闻做个示例用新的内容采集工具来采集新闻页面地址http://roll.new s.s ina.c om.cn/news/gjxw/hqqw/index_1.shtml
所要采集的新闻页面最好是列表页
例页面上有显示上一页 123. 。 。 。 。 。下一页
比如第一页它的地址是 http://roll.new s.sina.c om.cn/news/gjxw/hqqw/index_1.shtml单击第二页地址就是 http://roll.new s.s ina.c om.cn/news/gjxw/hqqw/index_2.shtml
有一种规律性的延伸。
后台设置如下
首先进入后台单击“文章采集”单击左侧的“规则设置NEWS”。
1、将采集的页面地址复制到【采集路径】中
2、将采集的页面地址复制到【路径参数】将1替换为{0}
3、采集页数自已填写数字 例如 1
4、 页面编码可鼠标右击查看页面源文件
查看到这个页面编码为gb 2312那么就在页面编码里输入“gb 2312” 当然也有是utf-8的比如
所以根据采集的页面编码来输入。点击“下一步”
5、在这里我们可以看见这些采集的规则设置
“列表标签”就是整个新闻列表的标签查看页面源文件找到新闻条目如图
那么我们就可以定义“列表“标签”为“//ul [@c las s="lis t_009"]” ”为什么是这样规则呢
因为设置的格式是这样的 //+标签的起始代码+[@+标签的属性] 看到下面你就会明白了。那么“详细页标题标签”就是 //h1 [@id="artibodyTitle"]
那么“详细页内容标签”即是 //div [@id="artibody"] 注 当标签里同时有class和id时优先选择id属性jwWWmMMM第四维度——免费学习建站首选品牌
设置好的即如下图
然后单击“下一步”
7.看到如上图所示标有成功字样 即表示设置成功再点击“完成”按纽即可。
如果出现下图标题失败或者内容失败则表示不成功重新设置标签规则直到出现成功字样为止如图
8、点击“采集”jwWWmMMM第四维度——免费学习建站首选品牌
9.再点击“确定”
10、新闻采集成功之后采集的内容都会在临时内容里显示。点击文章采集—临时内容new
11.将已采集好的新闻勾选起来点击转移
12.选择转移的新闻类别 点击转移
13.提示操作成功之后确定去新闻管理查看刚刚转移的内容 内容管理—新闻模块—新闻管理。将转移的新闻勾选更新
这样采集的新闻就会显示在网站上了。jwWWmMMM第四维度——免费学习建站首选品牌
ThomasHost域名注册自2012年,部落最早分享始于2016年,还算成立了有几年了,商家提供基于KVM架构的VPS,数据中心包括美国、法国、英国、加拿大和爱尔兰等6个地区机房,VPS主机套餐最低2GB内存起步,支持Windows或者Linux操作系统,1Gbps端口不限制流量。最近商家提供了一个5折优惠码,优惠后最低套餐月付5美元起。下面列出部分套餐配置信息。CPU:1core内存:2GB硬...
80vps怎么样?80vps最近新上了香港服务器、美国cn2服务器,以及香港/日本/韩国/美国多ip站群服务器。80vps之前推荐的都是VPS主机内容,其实80VPS也有独立服务器业务,分布在中国香港、欧美、韩国、日本、美国等地区,可选CN2或直连优化线路。如80VPS香港独立服务器最低月付420元,美国CN2 GIA独服月付650元起,中国香港、日本、韩国、美国洛杉矶多IP站群服务器750元/月...
ProfitServer已开启了黑色星期五的促销活动,一直到本月底,商家新加坡、荷兰、德国和西班牙机房VPS直接5折,无码直购最低每月2.88美元起,不限制流量,提供IPv4+IPv6。这是一家始于2003年的俄罗斯主机商,提供虚拟主机、VPS、独立服务器、SSL证书、域名等产品,可选数据中心包括俄罗斯、法国、荷兰、美国、新加坡、拉脱维亚、捷克、保加利亚等多个国家和地区。我们随便以一个数据中心为例...