采集[论文]手把手教你制作百度站内搜索的sitemap数据文件

百度站内搜索  时间:2021-02-11  阅读:()

随着百度站内搜索的全面开放本人也打算尝尝鲜 因为号称可以提交数据给百度从而增加收录量。然而在提交数据的时候发现所用到的sitemap与以往的有所不同在网上找来找去也没有相应的软件来自动生成完全符合要求的sitemap索引文件。只有自己动手DIY了。研究了一下午终于成功了今天把制作的具体流程给大家分享一下希望对有需要的朋友能有所帮助

一.结合百度站内搜索的数据格式说明这里列出一个单个URL的样式给大家看一下<?xml version="1.0"encoding="utf-8"?>

<urlset>

<url>

<loc>http://www.dcbzm.com/da icha nbaozhunbei/114.html</loc>

<lastmod>2014-09-12</lastmod>

<changefreq>always</changefreq>

<pr iority>0.7</p rior ity>

<data>

<display>

<tit le>孕妇待产包准备攻略,方便又齐全</title>

<tag>分娩待产包</tag>

<pubTime>2014-09-12T17:55:46</pubTime>

<breadCru mb title="首页" url="http://www.dcbzm.com"/>

<breadCrumb title="待产包准备" url="http://www.dcbzm.com/category/daichanbaozhunbei"/>

</display>

</data>

</url>

<url>

. . .略. . .

</url>

</urlset>

我们要做的这个sitemap文件就是把自己网站里的所有内页都做成如上格式 写在一个个的<url>标签中具体每一项的意思就不多解释了都很简单 实在不行可以去百度站长平台了解一下说的很清楚。如果网站内页成千上网那么一项一项来手工写肯定是不现实的。

了解这个XML文件的格式剩下的就开始行动了这里借肋于火车头采集器来完成页面的采集工作。

二.开始用火车头采集器来进行采集

采集的原理是先把站内的所有网址都抓取出来然后根据自己网站模板的特点来把每个网址所要采的页面标题title关键字tag发布时间pubTime面包屑导航breadCru mb等信息抓取出来(changefreq,priority等比较常规的标签由于大部分情况下数值都一样不用抓取也无法从页面中抓取设为为相同数值即可)给下一步做准备。O K这里就以待产包专卖网http://www.dc bz m.co m这个网站为例说一下怎么用火车头采集器抓取这个网站用的是word press模板做的不同网站大同小异但原理都是一样的。因为这不是一篇火车头采集器的使用教程为避免篇幅过长只做简单说明重要的地方会做详细解释如果想了解更可以去查看软件的使用帮助。

1.采集所有的网址a.新建一个名为“待产包专卖网采集”的任务 添加起始网址 这里填写 html版网站地图的URL:http://www.dcbzm.com/sitemap.html。

这是我用wordpress插件生成的网站地图本站所有的UR L都在这个源文件里面所以就从网站地图做起始网址。

PS:如果没有网站地图的就要从网站导航的分类目录开始一级一级向内抓取火车头采集器支持无限多级页面的网址抓取所以只要规则写的对就可以从首页做为起始网址把所有页页的网址都给抓取出。b.观察http://www.dc bz m.co m/s ite map.ht ml源文件发现所有文章的超链接都在<u l>标签中所以添加多级网址采集规则如下设置

c.填写完以后 点击“测试网址采集”发现本站所有的URL都给采集到了

2.采集页面内容信息

网址有了就要编写采集内容规则了。因为页面文章的模板都是一样的所以只要拿一个页面来进行测试就行

我们需要的是页面标题关键字文章发布时间以及面包屑导航这些有用信息。a.标题title的采集

打开源文件搜索标题查看有什么规律。本例如下

也就是说分娩待产包清单http://www.dcbz m.co m这个网站所有文章的标题都是这样的规律于是标题的提取方法就有了如下所示

b.发布时间pubTime的采集

同样根据源文件中"发布日期2014-09-1217:55:46"所处的位置查看规律并作为下设置。唯一要注意的是pubTime格式必须为2013-02-02T12:00:00注意中间有个T。这里我用了替换功能。很重要哦

c.标签tag的采集

这个页面有三个标签

在源文件找到这段代码所处位置

发现规律做如下设置

d.为避免篇幅其它项目的的采集就不在举例了道理都是一样的。

”数据处理“选项里有很多设置可以替换字符串截取字符串过滤HTML等可以省去很多工作。采集完以后测试结果如下

3.保存设置选中任务点右键“开始任务”就会把之前些采集到所有网址所对应的采集内写入数据库。然后再对任务点右键“本地编辑任务采集数据”来查看如下图所示

三.用EXCEL整合采集的数据

这里用借助excel做最后的site map索引文件的整合其实有了上面的采集数据完全可以写个小程序来实现的。懒得弄了本于本站页面不多所以就用EXCEL来简单说明一下吧。

可以借助EXC E替换功能格式化数据等功能进一步完善最终索引文件的制作。

1.把采集到的数据都复制到EXC E L中并删除不用的字段保留必须数据如下所示

2.结合百度站内搜索数据格式说明严格按照各标签的出现顺序增加相应的列或替换数据。

以第一行http://www.dcbzm.com/daichanbaozhun bei/114.html数据为例说明EXCEL各列如何制作。A列全部写成<url>

B列全部写成<loc>

C列 采集到的网址http://www.dcbzm.com/da icha nbaozhunbei/114.html

D列全部写成</loc>

E列 全部写成<lastmod>

F列 采集到的最后修改时间2014/9/12

G列 全部写成</last mod>

H列 固定写为<cha ngefreq>a lways</changefreq> 中间的a lwarys可以根据需要设置为hourly、dai ly、w eekly等I列 <pr ior ity>0.6</pr iority> . . .略. . .

看到这里明白了吧就是通过这样的形式拼凑出所需要要的XML格试。最后效果如下

四.最后一步格式化XM L文件

把上面的 EXCEL 中的内容全部复制到文本编辑器中 内容的最前面写上<?xml version="1.0"encod ing="utf-8"?><urlset> 最后面写上</urlset>。

然后随便找一个在线XML格式化一下即可

OK大功告成

把内容拷贝出来保存为XML格式去百度站长平台提交吧

写在最后的话 由于各网站模板的不同我的采集规则肯定是不适用于你的也绝对没有百分之百可能拿来就用的采集规则。

这里只起一个抛砖引玉的作用希望朋友们举一反三多做测试写出符合自己网站的采集规则来完成自己网站百度站内搜索的制作。

王小玉网-美国洛杉矶2核4G 20元/月,香港日本CN2 2核2G/119元/季,美国300G高防/80元/月!

 活动方案:美国洛杉矶 E5 2696V2 2核4G20M带宽100G流量20元/月美国洛杉矶E5 2696V2 2核4G100M带宽1000G流量99元/季香港CN2 E5 2660V2 2核2G30M CN2500G流量119元/季日本CN2E5 2660 2核2G30M CN2 500G流量119元/季美国300G高防 真实防御E5 2696V2 2核2G30M...

spinservers:圣何塞10Gbps带宽服务器月付$109起,可升级1Gbps无限流量

spinservers是Majestic Hosting Solutions LLC旗下站点,主营国外服务器租用和Hybrid Dedicated等,数据中心在美国达拉斯和圣何塞机房。目前,商家针对圣何塞部分独立服务器进行促销优惠,使用优惠码后Dual Intel Xeon E5-2650L V3(24核48线程)+64GB内存服务器每月仅109美元起,提供10Gbps端口带宽,可以升级至1Gbp...

NameCheap 2021年新年首次活动 域名 域名邮局 SSL证书等

NameCheap商家如今发布促销活动也是有不小套路的,比如会在提前一周+的时间告诉你他们未来的活,比如这次2021年的首次活动就有在一周之前看到,但是这不等到他们中午一点左右的时候才有正式开始,而且我确实是有需要注册域名,等着看看是否有真的折扣,但是实际上.COM域名力度也就一般需要51元左右,其他地方也就55元左右。当然,这次新年的首次活动不管如何肯定是比平时便宜一点点的。有新注册域名、企业域...

百度站内搜索为你推荐
可以发外链的论坛给几个可以发外链的论坛,还有分类信息网,不要有限制的哪种,收录不收录无所谓weipin唯品会的唯品币是干什么用的?iphone5解锁iphone5密码忘了怎么解锁站长故事部队里什么是站长?最低是什么级别?都有哪些级别啊?依赖注入依赖注入是什么意思?ios系统ios是什么意思 ios系统是什么机械键盘轴机械键盘什么轴好,机械键盘轴有几种云挂机云软件挂机赚钱是骗子怎么上传音乐如何将电脑上的音乐传到MP3上微信电话本怎么用微信电话本在哪里 微信电话本怎么打开
万网域名 主机测评网 美国主机评论 账号泄露 英语简历模板word 国内加速器 丹弗 圣诞促销 网站卫士 昆明蜗牛家 上海联通宽带测速 ca187 免费私人服务器 彩虹云 万网空间管理 1元域名 shuang12 国外的代理服务器 学生服务器 服务器硬件配置 更多