采集[指导]手把手教你制作百度站内搜索的sitemap数据文件

百度站内搜索  时间:2021-02-11  阅读:()

随着百度站内搜索的全面开放本人也打算尝尝鲜 因为号称可以提交数据给百度从而增加收录量。然而在提交数据的时候发现所用到的sitemap与以往的有所不同在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了今天把制作的具体流程给大家分享一下希望对有需要的朋友能有所帮助

一.结合百度站内搜索的数据格式说明这里列出一个单个URL的样式给大家看一下<?xml version="1.0"encoding="utf-8"?>

<urlset>

<url>

<loc>http://www.dcbzm.com/da icha nbaozhunbei/114.html</loc>

<lastmod>2014-09-12</lastmod>

<changefreq>always</changefreq>

<pr iority>0.7</p rior ity>

<data>

<display>

<tit le>孕妇待产包准备攻略,方便又齐全</title>

<tag>分娩待产包</tag>

<pubTime>2014-09-12T17:55:46</pubTime>

<breadCru mb title="首页" url="http://www.dcbzm.com"/>

<breadCrumb title="待产包准备" url="http://www.dcbzm.com/category/daichanbaozhunbei"/>

</display>

</data>

</url>

<url>

. . .略. . .

</url>

</urlset>

我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式 写在一个个的<url>标签中具体每一项的意思就不多解释了都很简单 实在不行可以去百度站长平台了解一下说的很清楚。如果网站内页成千上网那么一项一项来手工写肯定是不现实的。

了解这个XML文件的格式剩下的就开始行动了这里借肋于火车头采集器来完成页面的采集工作。

二.开始用火车头采集器来进行采集

采集的原理是先把站内的所有网址都抓取出来然后根据自己网站模板的特点来把每个网址所要采的页面标题title关键字tag发布时间pubTime面包屑导航breadCru mb等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样不用抓取也无法从页面中抓取设为为相同数值即可)给下一步做准备。O K这里就以待产包专卖网http://www.dc bz m.co m这个网站为例说一下怎么用火车头采集器抓取这个网站用的是word press模板做的不同网站大同小异但原理都是一样的。因为这不是一篇火车头采集器的使用教程为避免篇幅过长只做简单说明重要的地方会做详细解释如果想了解更可以去查看软件的使用帮助。

1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务 添加起始网址 这里填写 html版网站地图的URL:http://www.dcbzm.com/sitemap.html。

这是我用wordpress插件生成的网站地图本站所有的UR L都在这个源文件里面所以就从网站地图做起始网址。

PS:如果没有网站地图的就要从网站导航的分类目录开始一级一级向内抓取火车头采集器支持无限多级页面的网址抓取所以只要规则写的对就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察http://www.dc bz m.co m/s ite map.ht ml源文件发现所有文章的超链接都在<u l>标签中所以添加多级网址采集规则如下设置

c.填写完以后 点击“测试网址采集”发现本站所有的URL都给采集到了

2.采集页面内容信息

网址有了就要编写采集内容规则了。因为页面文章的模板都是一样的所以只要拿一个页面来进行测试就行

我们需要的是页面标题关键字文章发布时间以及面包屑导航这些有用信息。a.标题title的采集

打开源文件搜索标题查看有什么规律。本例如下

也就是说分娩待产包清单http://www.dcbz m.co m这个网站所有文章的标题都是这样的规律于是标题的提取方法就有了如下所示

b.发布时间pubTime的采集

同样根据源文件中"发布日期2014-09-1217:55:46"所处的位置查看规律并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00注意中间有个T。这里我用了替换功能。很重要哦

c.标签tag的采集

这个页面有三个标签

在源文件找到这段代码所处位置

发现规律做如下设置

d.为避免篇幅其它项目的的采集就不在举例了道理都是一样的。

”数据处理“选项里有很多设置可以替换字符串截取字符串过滤HTML等可以省去很多工作。采集完以后测试结果如下

3.保存设置选中任务点右键“开始任务”就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看如下图所示

三.用EXCEL整合采集的数据

这里用借助excel做最后的site map索引文件的整合其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了本于本站页面不多所以就用EXCEL来简单说明一下吧。

可以借助EXC E替换功能格式化数据等功能进一步完善最终索引文件的制作。

1.把采集到的数据都复制到EXC E L中并删除不用的字段保留必须数据如下所示

2.结合百度站内搜索数据格式说明严格按照各标签的出现顺序增加相应的列或替换数据。

以第一行http://www.dcbzm.com/daichanbaozhun bei/114.html数据为例说明EXCEL各列如何制作。A列全部写成<url>

B列全部写成<loc>

C列 采集到的网址http://www.dcbzm.com/da icha nbaozhunbei/114.html

D列全部写成</loc>

E列 全部写成<lastmod>

F列 采集到的最后修改时间2014/9/12

G列 全部写成</last mod>

H列 固定写为<cha ngefreq>a lways</changefreq> 中间的a lwarys可以根据需要设置为hourly、dai ly、w eekly等I列 <pr ior ity>0.6</pr iority> . . .略. . .

看到这里明白了吧就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下

四.最后一步格式化XM L文件

把上面的 EXCEL 中的内容全部复制到文本编辑器中 内容的最前面写上<?xml version="1.0"encod ing="utf-8"?><urlset> 最后面写上</urlset>。

然后随便找一个在线XML格式化一下即可

OK大功告成

把内容拷贝出来保存为XML格式去百度站长平台提交吧

写在最后的话 由于各网站模板的不同我的采集规则肯定是不适用于你的也绝对没有百分之百可能拿来就用的采集规则。

这里只起一个抛砖引玉的作用希望朋友们举一反三多做测试写出符合自己网站的采集规则来完成自己网站百度站内搜索的制作。

€4.99/月Contabo云服务器,美国高性价比VPS/4核8G内存200G SSD存储

Contabo是一家运营了20多年的欧洲老牌主机商,之前主要是运营德国数据中心,Contabo在今年4月份增设新加坡数据中心,近期同时新增了美国纽约和西雅图数据中心。全球布局基本完成,目前可选的数据中心包括:德国本土、美国东部(纽约)、美国西部(西雅图)、美国中部(圣路易斯)和亚洲的新加坡数据中心。Contabo的之前国外主机测评网站有多次介绍,他们家的特点就是性价比高,而且这个高不是一般的高,是...

炭云188元/年,上海CN2 VPS/2核/384MB内存/8GB空间/800GB流量/77Mbps端口/共享IP

炭云怎么样?炭云(之前的碳云),国人商家,正规公司(哈尔滨桓林信息技术有限公司),主机之家测评介绍过多次。现在上海CN2共享IP的VPS有一款特价,上海cn2 vps,2核/384MB内存/8GB空间/800GB流量/77Mbps端口/共享IP/Hyper-v,188元/年,特别适合电信网络。有需要的可以关注一下。点击进入:炭云官方网站地址炭云vps套餐:套餐cpu内存硬盘流量/带宽ip价格购买上...

Webhosting24:$1.48/月起,日本东京NTT直连/AMD Ryzen 高性能VPS/美国洛杉矶5950X平台大流量VPS/1Gbps端口/

Webhosting24宣布自7月1日起开始对日本机房的VPS进行NVMe和流量大升级,几乎是翻倍了硬盘和流量,价格依旧不变。目前来看,日本VPS国内过去走的是NTT直连,服务器托管机房应该是CDN77*(也就是datapacket.com),加上高性能平台(AMD Ryzen 9 3900X+NVMe),还是有相当大的性价比的。此外在6月30日,又新增了洛杉矶机房,CPU为AMD Ryzen 9...

百度站内搜索为你推荐
在线漏洞检测漏洞扫描工具有哪些打开网页出现错误网页上有错误怎么解决?数码资源网哪个网站可以直接在线做照片?功能要齐全的`淘宝网页显示不正常淘宝网页不能正常显示linux虚拟机怎么样在Linux下安装虚拟机如何快速收录如何做到让百度快速收录电子商务网站模板做电子商务网站用什么cms或者模版比较好?虚拟机软件下载谁有虚拟机软件的网址要好用的qq等级表谁能告诉我QQ等级列表?网站排名靠前如何优化网站 如何让网站排名靠前
域名注册使用godaddy securitycenter 站群服务器 韩国空间 koss 国外网站代理服务器 php空间推荐 hkt 东莞服务器托管 数据库空间 华为k3 114dns 免费php空间 测试网速命令 江苏徐州移动 免备案cdn加速 hdsky 亿库 德国代理 达拉斯 更多