新版采集示例
我们以新浪网环球新闻做个示例用新的内容采集工具来采集新闻
页面地址http://roll.news.sina.c om.cn/news/gj xw/hqqw/index_1.shtml
所要采集的新闻页面最好是列表页
例页面上有显示上一页 123.。 。 。 。 。下一页
比如第一页它的地址是 http://roll.news.sina.c om.cn/news/gj xw/hqqw/index_1.shtml
单击第二页地址就是 http://roll.news.sina.com.cn/news/gj xw/hqqw/index_2.shtml
有一种规律性的延伸。
后台设置如下
首先进入后台单击“文章采集”单击左侧的“规则设置NEWS”。
第四维度——免费学习建站首选品牌
1、将采集的页面地址复制到【采集路径】中
2、将采集的页面地址复制到【路径参数】将1替换为{0}
3、采集页数自已填写数字 例如 1
4、 页面编码可鼠标右击查看页面源文件
查看到这个页面编码为gb2312那么就在页面编码里输入“gb2312” 当然也有是utf-8的比如
所以根据采集的页面编码来输入。点击“下一步”
5、在这里我们可以看见这些采集的规则设置
“列表标签”就是整个新闻列表的标签查看页面源文件找到新闻条目如图
第四维度——免费学习建站首选品牌
那么我们就可以定义“列表“标签”为“//ul [@class="list_009"]”为什么是这样规则呢
因为设“置的格式是这样的” //+标签的起始代码+[@+标签的属性]”看到下面你就会明白了。那么 详细页标题标签 就是 //h 1 [@id="artib odyTitle"]
那么“详细页内容标签”即是 //div[@i d="artib ody"] 注 当标签里同时有clas s和id时优先选择id属性
第四维度——免费学习建站首选品牌
设置好的即如下图
然后单击“下一步”
第四维度——免费学习建站首选品牌
7.看到如上图所示标有成功字样 即表示设置成功再点击“完成”按纽即可。
如果出现下图标题失败或者内容失败则表示不成功重新设置标签规则直到出现成功字样为止如图
8、点击“采集”
第四维度——免费学习建站首选品牌
9.再点击“确定”
10、新闻采集成功之后采集的内容都会在临时内容里显示。点击文章采集—临时内容new
11.将已采集好的新闻勾选起来点击转移
12.选择转移的新闻类别 点击转移
第四维度——免费学习建站首选品牌
13.提示操作成功之后确定去新闻管理查看刚刚转移的内容 内容管理—新闻模块—新闻管理。将转移的新闻勾选更新
这样采集的新闻就会显示在网站上了。
第四维度——免费学习建站首选品牌
金山云618年中促销活动正在进行中!金山云针对企业级新用户优惠力度比普通个人用户优惠力度要大,所以我们也是推荐企业新用户身份购买金山云企业级云服务器,尽量购买3年配置的,而不是限时秒杀活动中1年的机型。企业级用户购买金山云服务器推荐企业专区:云服务器N3 2核4G云服务器,1-5M带宽,827.64元/3年,性价比高,性能稳定!点击进入:金山云618年中促销活动目前,金山云基础型E1云服务器2核4...
部落分享过多次G-core(gcorelabs)的产品及评测信息,以VPS主机为主,距离上一次分享商家的独立服务器还在2年多前,本月初商家针对迈阿密机房限定E5-2623v4 CPU的独立服务器推出75折优惠码,活动将在9月30日到期,这里再分享下。G-core(gcorelabs)是一家总部位于卢森堡的国外主机商,主要提供基于KVM架构的VPS主机和独立服务器租用等,数据中心包括俄罗斯、美国、日...
IncogNet LLC是个由3个人运作的美国公司,主要特色是隐私保护,号称绝对保护用户的隐私安全。业务涵盖虚拟主机、VPS等,支持多种数字加密货币、PayPal付款。注册账号也很简单,输入一个姓名、一个邮箱、国家随便选,填写一个邮箱就搞定了,基本上不管资料的真假。当前促销的vps位于芬兰机房,全部都是AMD Ryzen系列的CPU,性能不会差的!5折优惠码:CRYPTOMONTH,支持:BTC,...