Sctou.com,欢迎访问
搜索引擎工作原理
收录流程
1、提交url是一个被动且费时间的行为。
2、建立外链外链的数量、质量及相关性左右着录入时间是主动的。
页面收录方式
页面收录使用的策略 目的是从互联网筛选出相对重要的信息。
若使用相同抓取策略在同一站中抓取页面资源更具效率那么则会再网站上停留更长的时间收录的页面数自然也就爱更多。
广度优先。
优点优先抓取重要的页面。
应对策略将重要信息设计在较浅层次的页面上。
深度优先。
优点页面需求的长尾抓取更多冷门、隐藏的页面满足更多用户的需求。
应对策略重要信息放置在多层次的页面上。
用户提交。
优点大大提高页面收录效率、数量和收录页面的质量。
如何避免重复收录页面重复、 内容重复
网站中的重复信息转载内容、镜像内容。
重复信息的影响占用硬盘、延长用户搜素时间
权重原创>转载>镜像几乎完全被忽略
转载页面
比较多个被划分为N个区域页面的M个区域。若M>A 某阀值则互为转载。
通过比较最后修改时间、页面权重等因素判断哪个是原创。
镜像页面
比较多个被划分为N个区域的页面若N个区域内容完全一样则认为这些页面互为镜像页面。
判断原创如转载一样。
镜像网站
狭义的镜像网站是指内容完全相同的网站。
形成原因 1、多个域名或IP指向同一服务器的同一个物理目录
2、整个网站内容被复制到使用不同域名或IP的服务器上。
识别源网站是通过判断这些网站的首页以及首页直接链接的页面是否互为镜像页面。再综合多项因素如网站权重值、建立时间等识别。
镜像网站只收录极少页面甚至不收录页面。
页面维护方式
为让搜索引擎适应网站的不断变化和缺录。
定期抓取
周期性针对全部已收录页面进行维护。
页面权重的再分配也是与页面维护同步进行。
适用于页面较少 内容更新慢的网站。
缺点 由于维护周期长是的不能及时向用户反映更新期间页面的变化情况。
增量抓取
对已抓取的页面进行定时监控实现对页面的更新及维护。 不现实
基于80/20法则搜索引擎只针对某些重要页面网站中部分重要页面进行定时监控即可获取网站中相对重要的信息。
优点对重要页面的内容更新会及时发现新内容、新链接、并删除不存在的信息。分类定位抓取
根据页面的类别或性质而制定相应更新周期的页面监控方式。
新闻资讯周期小于资源下载的周期。
大型门户网站内容更新速度比小型快。
优点大大提高页面抓取的灵活性和实时性。
补充各种抓取方式组合抓取页面。
页面存储
搜索引擎能否在抓取页面的过程中获取到更多有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以搜索引擎除了存储原始页面外还会附加一系列的信息如文件类型、文件大小、最后修改时间、 rul、 ip地址、抓取时间等再把这些作为开展某项工作的依据。
网页分析
对原始页面进行一系列的分析、处理以迎合用户信息查询的习惯。建立关键字索引与反向索引分配权值。
网页索引
为提高页面检索的效率而对页面url建立索引。
网页分析
正文信息提取
过滤非正文信息HTML标签、 JS标签、 PH P标签。
分词/切词
通过对过滤出的正文内容进行切分该行为就是分词/切词从而形成与用户查询条件相匹配的以关键字为单位的信息列表。
分词算法 1、字符串匹配分词
2、统计分词。
3、关键字索引。记录了该关键字所在的网页编号、关键字编号、关键字出现次数以及关键字在文档中的位置信息。
4、关键字重组。建立以关键字对应多个网页的方向索引。
页面排序
页面相关性
1、 关键字匹配度
缺点易被网站所有者操控。还需要结合关键字密度、关键字分布及关键字的权重标签等多方面来决定。
2、 关键字密度
关键字密度是关键字词频与网页总词量的比例。不同密度对应不同密度值。
3、 关键字分布
依据关键字位置对应不同的分布值。
4、 关键字的权重标签
链接权重
入度与出度及其权值分配。
1、 内部链接
2、 外部链接
3、 默认权重分配
用户行为
点击率
关键字查询
查询流程
用户行为
1、搜素。统计词汇热度、发现新词汇。
2、 点击
3、 缓存机制。对查询最多的前20%的关键字进行缓存。
收到好多消息,让我聊一下阿里云国际版本,作为一个阿里云死忠粉,之前用的服务器都是阿里云国内版的VPS主机,对于现在火热的阿里云国际版,这段时间了解了下,觉得还是有很多部分可以聊的,毕竟,实名制的服务器规则导致国际版无需实名这一特点被无限放大。以前也写过几篇综合性的阿里云国际版vps的分析,其中有一点得到很多人的认同,那句是阿里云不管国内版还是国际版的IO读写速度实在不敢恭维,相对意义上的,如果在这...
今天下午遇到一个网友聊到他昨天新注册的一个域名,今天在去使用的时候发现域名居然不见。开始怀疑他昨天是否付款扣费,以及是否有实名认证过,毕竟我们在国内域名注册平台注册域名是需要实名认证的,大概3-5天内如果不验证那是不可以使用的。但是如果注册完毕的域名找不到那也是奇怪。同时我也有怀疑他是不是忘记记错账户。毕竟我们有很多朋友在某个商家注册很多账户,有时候自己都忘记是用哪个账户的。但是我们去找账户也不办...
sparkedhost怎么样?sparkedhost主机。Sparkedhost于2017年7月注册在美国康涅狄格州,2018年收购了ClynexHost,2019年8月从Taltum Solutions SL收购了The Beast Hosting,同年10月从Reilly Bauer收购了OptNode Hosting。sparkedhost当前的业务主要为:为游戏“我的世界”提供服务器、虚拟...