采集[论文]手把手教你制作百度站内搜索的sitemap数据文件

百度站内搜索  时间:2021-02-11  阅读:()

随着百度站内搜索的全面开放本人也打算尝尝鲜 因为号称可以提交数据给百度从而增加收录量。然而在提交数据的时候发现所用到的sitemap与以往的有所不同在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了今天把制作的具体流程给大家分享一下希望对有需要的朋友能有所帮助

一.结合百度站内搜索的数据格式说明这里列出一个单个URL的样式给大家看一下<?xml version="1.0"encoding="utf-8"?>

<urlset>

<url>

<loc>http://www.dcbzm.com/da icha nbaozhunbei/114.html</loc>

<lastmod>2014-09-12</lastmod>

<changefreq>always</changefreq>

<pr iority>0.7</p rior ity>

<data>

<display>

<tit le>孕妇待产包准备攻略,方便又齐全</title>

<tag>分娩待产包</tag>

<pubTime>2014-09-12T17:55:46</pubTime>

<breadCru mb title="首页" url="http://www.dcbzm.com"/>

<breadCrumb title="待产包准备" url="http://www.dcbzm.com/category/daichanbaozhunbei"/>

</display>

</data>

</url>

<url>

. . .略. . .

</url>

</urlset>

我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式 写在一个个的<url>标签中具体每一项的意思就不多解释了都很简单 实在不行可以去百度站长平台了解一下说的很清楚。如果网站内页成千上网那么一项一项来手工写肯定是不现实的。

了解这个XML文件的格式剩下的就开始行动了这里借肋于火车头采集器来完成页面的采集工作。

二.开始用火车头采集器来进行采集

采集的原理是先把站内的所有网址都抓取出来然后根据自己网站模板的特点来把每个网址所要采的页面标题title关键字tag发布时间pubTime面包屑导航breadCru mb等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样不用抓取也无法从页面中抓取设为为相同数值即可)给下一步做准备。O K这里就以待产包专卖网http://www.dc bz m.co m这个网站为例说一下怎么用火车头采集器抓取这个网站用的是word press模板做的不同网站大同小异但原理都是一样的。因为这不是一篇火车头采集器的使用教程为避免篇幅过长只做简单说明重要的地方会做详细解释如果想了解更可以去查看软件的使用帮助。

1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务 添加起始网址 这里填写 html版网站地图的URL:http://www.dcbzm.com/sitemap.html。

这是我用wordpress插件生成的网站地图本站所有的UR L都在这个源文件里面所以就从网站地图做起始网址。

PS:如果没有网站地图的就要从网站导航的分类目录开始一级一级向内抓取火车头采集器支持无限多级页面的网址抓取所以只要规则写的对就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察http://www.dc bz m.co m/s ite map.ht ml源文件发现所有文章的超链接都在<u l>标签中所以添加多级网址采集规则如下设置

c.填写完以后 点击“测试网址采集”发现本站所有的URL都给采集到了

2.采集页面内容信息

网址有了就要编写采集内容规则了。因为页面文章的模板都是一样的所以只要拿一个页面来进行测试就行

我们需要的是页面标题关键字文章发布时间以及面包屑导航这些有用信息。a.标题title的采集

打开源文件搜索标题查看有什么规律。本例如下

也就是说分娩待产包清单http://www.dcbz m.co m这个网站所有文章的标题都是这样的规律于是标题的提取方法就有了如下所示

b.发布时间pubTime的采集

同样根据源文件中"发布日期2014-09-1217:55:46"所处的位置查看规律并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00注意中间有个T。这里我用了替换功能。很重要哦

c.标签tag的采集

这个页面有三个标签

在源文件找到这段代码所处位置

发现规律做如下设置

d.为避免篇幅其它项目的的采集就不在举例了道理都是一样的。

”数据处理“选项里有很多设置可以替换字符串截取字符串过滤HTML等可以省去很多工作。采集完以后测试结果如下

3.保存设置选中任务点右键“开始任务”就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看如下图所示

三.用EXCEL整合采集的数据

这里用借助excel做最后的site map索引文件的整合其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了本于本站页面不多所以就用EXCEL来简单说明一下吧。

可以借助EXC E替换功能格式化数据等功能进一步完善最终索引文件的制作。

1.把采集到的数据都复制到EXC E L中并删除不用的字段保留必须数据如下所示

2.结合百度站内搜索数据格式说明严格按照各标签的出现顺序增加相应的列或替换数据。

以第一行http://www.dcbzm.com/daichanbaozhun bei/114.html数据为例说明EXCEL各列如何制作。A列全部写成<url>

B列全部写成<loc>

C列 采集到的网址http://www.dcbzm.com/da icha nbaozhunbei/114.html

D列全部写成</loc>

E列 全部写成<lastmod>

F列 采集到的最后修改时间2014/9/12

G列 全部写成</last mod>

H列 固定写为<cha ngefreq>a lways</changefreq> 中间的a lwarys可以根据需要设置为hourly、dai ly、w eekly等I列 <pr ior ity>0.6</pr iority> . . .略. . .

看到这里明白了吧就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下

四.最后一步格式化XM L文件

把上面的 EXCEL 中的内容全部复制到文本编辑器中 内容的最前面写上<?xml version="1.0"encod ing="utf-8"?><urlset> 最后面写上</urlset>。

然后随便找一个在线XML格式化一下即可

OK大功告成

把内容拷贝出来保存为XML格式去百度站长平台提交吧

写在最后的话 由于各网站模板的不同我的采集规则肯定是不适用于你的也绝对没有百分之百可能拿来就用的采集规则。

这里只起一个抛砖引玉的作用希望朋友们举一反三多做测试写出符合自己网站的采集规则来完成自己网站百度站内搜索的制作。

创梦云 香港沙田、长沙联通2核1G仅需29元一个月 挂机宝7元一个月

商家介绍:创梦云是来自国内的主机销售商,成立于2018年4月30日,创梦云前期主要从事免备案虚拟主机产品销售,现在将提供5元挂机宝、特惠挂机宝、香港云服务器、美国云服务器、低价挂机宝等产品销售。主打高性价比高稳定性挂机宝、香港云服务器、美国云服务器、香港虚拟主机、美国虚拟主机。官方网站:http://cmy0.vnetdns.com本次促销产品:地区CPU内存硬盘带宽价格购买地址香港特价云服务器1...

老薛主机VPS年付345元,活动进行时。

老薛主机,虽然是第一次分享这个商家的信息,但是这个商家实际上也有存在有一些年头。看到商家有在进行夏季促销,比如我们很多网友可能有需要的香港VPS主机季度及以上可以半价优惠,如果有在选择不同主机商的香港机房的可以看看老薛主机商家的香港VPS。如果没有记错的话,早年这个商家是主营个人网站虚拟主机业务的,还算不错在异常激烈的市场中生存到现在,应该算是在众多商家中早期积累到一定的用户群的,主打小众个人网站...

Hostiger发布哥伦布日提供VPS主机首月七折优惠 月费2.79美元

Hostiger商家我们可能以前也是有见过的,以前他们的域名是Hostigger,后来进行微调后包装成现在的。而且推出Columbus Day哥伦布日优惠活动,提供全场的VPS主机首月7折月付2.79美元起的优惠。这里我们普及一下基础知识,Columbus Day ,即为每年10月12日,是一些美洲国家的节日,纪念克里斯托弗·哥伦布在北美登陆,为美国的联邦假日。Hostiger 商家是一个成立于2...

百度站内搜索为你推荐
weipin唯品会的唯品钱包里的钱怎么用照片转手绘如何把真人图片用photoshop做成手绘图片唱吧电脑版官方下载唱吧有电脑版吗神雕侠侣礼包大全神雕侠侣手游版四重大礼包怎么得到啊?qq空间打扮QQ空间怎么打扮如何打扮创维云电视功能创维电视怎么用,我买了个创维云电视,现在不知道怎么用手机往电视上传照片,谁能解答以下,安装迅雷看看播放器迅雷看看播放器下了安装不了机械键盘轴机械键盘什么轴好,机械键盘轴有几种网站优化方案网站建设及优化的方案blogcn南京明城墙(太平门一带某些地区)的城砖上为什么会有一些小洞(每块砖两个洞洞……)?
godaddy域名注册 哈尔滨服务器租用 美国linux主机 出租服务器 香港bgp机房 a2hosting idc评测网 42u标准机柜尺寸 香港新世界电讯 typecho 圣诞节促销 免费个人网站申请 免空 免费全能主机 佛山高防服务器 yundun 防cc攻击 阿里云手机官网 实惠 godaddyssl 更多