Sctou.com,欢迎访问
搜索引擎工作原理
收录流程
1、提交url是一个被动且费时间的行为。
2、建立外链外链的数量、质量及相关性左右着录入时间是主动的。
页面收录方式
页面收录使用的策略 目的是从互联网筛选出相对重要的信息。
若使用相同抓取策略在同一站中抓取页面资源更具效率那么则会再网站上停留更长的时间收录的页面数自然也就爱更多。
广度优先。
优点优先抓取重要的页面。
应对策略将重要信息设计在较浅层次的页面上。
深度优先。
优点页面需求的长尾抓取更多冷门、隐藏的页面满足更多用户的需求。
应对策略重要信息放置在多层次的页面上。
用户提交。
优点大大提高页面收录效率、数量和收录页面的质量。
如何避免重复收录页面重复、 内容重复
网站中的重复信息转载内容、镜像内容。
重复信息的影响占用硬盘、延长用户搜素时间
权重原创>转载>镜像几乎完全被忽略
转载页面
比较多个被划分为N个区域页面的M个区域。若M>A 某阀值则互为转载。
通过比较最后修改时间、页面权重等因素判断哪个是原创。
镜像页面
比较多个被划分为N个区域的页面若N个区域内容完全一样则认为这些页面互为镜像页面。
判断原创如转载一样。
镜像网站
狭义的镜像网站是指内容完全相同的网站。
形成原因 1、多个域名或IP指向同一服务器的同一个物理目录
2、整个网站内容被复制到使用不同域名或IP的服务器上。
识别源网站是通过判断这些网站的首页以及首页直接链接的页面是否互为镜像页面。再综合多项因素如网站权重值、建立时间等识别。
镜像网站只收录极少页面甚至不收录页面。
页面维护方式
为让搜索引擎适应网站的不断变化和缺录。
定期抓取
周期性针对全部已收录页面进行维护。
页面权重的再分配也是与页面维护同步进行。
适用于页面较少 内容更新慢的网站。
缺点 由于维护周期长是的不能及时向用户反映更新期间页面的变化情况。
增量抓取
对已抓取的页面进行定时监控实现对页面的更新及维护。 不现实
基于80/20法则搜索引擎只针对某些重要页面网站中部分重要页面进行定时监控即可获取网站中相对重要的信息。
优点对重要页面的内容更新会及时发现新内容、新链接、并删除不存在的信息。分类定位抓取
根据页面的类别或性质而制定相应更新周期的页面监控方式。
新闻资讯周期小于资源下载的周期。
大型门户网站内容更新速度比小型快。
优点大大提高页面抓取的灵活性和实时性。
补充各种抓取方式组合抓取页面。
页面存储
搜索引擎能否在抓取页面的过程中获取到更多有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以搜索引擎除了存储原始页面外还会附加一系列的信息如文件类型、文件大小、最后修改时间、 rul、 ip地址、抓取时间等再把这些作为开展某项工作的依据。
网页分析
对原始页面进行一系列的分析、处理以迎合用户信息查询的习惯。建立关键字索引与反向索引分配权值。
网页索引
为提高页面检索的效率而对页面url建立索引。
网页分析
正文信息提取
过滤非正文信息HTML标签、 JS标签、 PH P标签。
分词/切词
通过对过滤出的正文内容进行切分该行为就是分词/切词从而形成与用户查询条件相匹配的以关键字为单位的信息列表。
分词算法 1、字符串匹配分词
2、统计分词。
3、关键字索引。记录了该关键字所在的网页编号、关键字编号、关键字出现次数以及关键字在文档中的位置信息。
4、关键字重组。建立以关键字对应多个网页的方向索引。
页面排序
页面相关性
1、 关键字匹配度
缺点易被网站所有者操控。还需要结合关键字密度、关键字分布及关键字的权重标签等多方面来决定。
2、 关键字密度
关键字密度是关键字词频与网页总词量的比例。不同密度对应不同密度值。
3、 关键字分布
依据关键字位置对应不同的分布值。
4、 关键字的权重标签
链接权重
入度与出度及其权值分配。
1、 内部链接
2、 外部链接
3、 默认权重分配
用户行为
点击率
关键字查询
查询流程
用户行为
1、搜素。统计词汇热度、发现新词汇。
2、 点击
3、 缓存机制。对查询最多的前20%的关键字进行缓存。
RAKsmart发布了9月份优惠促销活动,从9月1日~9月30日期间,爆款美国服务器每日限量抢购最低$30.62-$46/月起,洛杉矶/圣何塞/香港/日本站群大量补货特价销售,美国1-10Gbps大带宽不限流量服务器低价热卖等。RAKsmart是一家华人运营的国外主机商,提供的产品包括独立服务器租用和VPS等,可选数据中心包括美国加州圣何塞、洛杉矶、中国香港、韩国、日本、荷兰等国家和地区数据中心(...
Digital-VM商家目前也在凑热闹的发布六月份的活动,他们家的机房蛮多的有提供8个数据中心,包括日本、洛杉矶、新加坡等。这次六月份的促销活动全场VPS主机六折优惠。Digital-VM商家还是有一点点特点的,有提供1Gbps和10Gbps带宽的VPS主机,如果有需要大带宽的VPS主机可以看看。第一、商家优惠码优惠码:June40全场主机六折优惠,不过仅可以月付、季付。第二、商家VPS主机套餐1...
我们在选择虚拟主机和云服务器的时候,是不是经常有看到有的线路是BGP线路,比如前几天有看到服务商有国际BGP线路和国内BGP线路。这个BGP线路和其他服务线路有什么不同呢?所谓的BGP线路机房,就是在不同的运营商之间通过技术手段时间各个网络的兼容速度最佳,但是IP地址还是一个。正常情况下,我们看到的某个服务商提供的IP地址,在电信和联通移动速度是不同的,有的电信速度不错,有的是移动速度好。但是如果...