搜索引擎的概念什么是搜索引擎?搜索引擎是如何工作的?

搜索引擎的概念  时间:2021-05-31  阅读:()

搜索引擎的工作原理是什么及发展历史

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

第一代:分类目录时代(人工时代) 不知道大家时候在自己的搜索引擎首页是否有设置过导航网站这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一代的代表。

我们可以从这个导航网站这个网站里面看到,里面几乎都是一些分类网址,几乎在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一代。

2第二代:文本检索时代(海量自动获取与排序清单) 到了这一代,搜索引擎查询信息的方法则是通过用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。

这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。

通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,将相关度高的则返回给用户。

采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。

这就是搜索引擎第二代。

3第三代:整合分析时代(立体搜索与结果整合) 这一代的搜索引擎所使用的方法大概是和我们今天的网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。

然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。

这种模式的首先使用者是google,google不仅为首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。

后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。

大多数的主流搜索引擎都在使用分析链接技术算法。

这就是第三代搜索引擎 将用户输入关键字,反馈回来的海量信息,智能整合成一个门户网站式的界面,让用户感觉每个关键字,都是一个完整的信息世界。

而不是第二代一样返回一个清单,整个清单夹杂着大量用户不关心、且没有分类的链接。

第三代搜索引擎的典型特征就是:智慧整合第二代返回的信息为立体的界面。

让用户能轻易地一眼进入到最相关的分类区域去获取信息。

4第四代:用户中心时代(以移动互联网为标志的个人需求精准搜索) 第四代,也就是我们所用的搜索引擎技术也是互联网上面用的最普遍的。

主要是以用户为中心。

当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。

例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就是大大的不一样。

甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而返回的结果不同的所有主流搜索引擎,都在致力于解决同一个问题:怎样才能从用户所输入的一个简短的关键词来判断用户的真正查询请求。

这一代搜索引擎主要是以用户为中心。

这就是第四代搜索引擎。

引擎的概念是什么

引擎即发动机. 由英文 "engine" 音绎而成. 引擎提供机械动力, 物理学上的动能. 引擎用途极广. 从微形的汽/ 柴油发电机至飞机到火箭上的喷射引擎, 都可见应用不同能源, 不同设计形式的引擎.

什么是搜索引擎?你是如何在Internet上搜索图片和文字资料的? 希望能给一个简单明了的答案

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

图片搜索引擎是全新的搜索引擎,目前国内有安图搜。

基于图像形式特征的抽取:由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。

这是一种基于图像特征层次的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索)。

产生的结果也是最接近用户要求的。

但目前这种较成熟的检索技术主要应用于图像数据库的检索,在网上图像搜索引擎中应用这种检索技术还具有一定的困难。

工作原理 抓取网页   每个独立的搜索引擎都有自己的网页抓取程序(spider)。

Spider顺着网页中的超链接,连续地抓取网页。

被抓取的网页被称之为网页快照。

由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页   搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。

其中,最重要的就是提取关键词,建立索引文件。

其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

提供检索服务   用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎的含义和分类

搜索引擎,英文为search engine,是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。

目前流行的搜索引擎有两大类:分类目录式搜索引擎和关键词全文检索式搜索引擎。

分类目录式搜索引擎将互联网信息按照一定的标准进行收集和分类,并编入相应目录, 以层级和逐次分项的方式管理目录,查找信息可以按照分类目录一层层进入,最终找到所要的信息。

分类目录式搜索引擎以yahoo 搜索引擎为代表。

关键词全文检索式搜索引擎利用其内部的搜索机器人spider (蜘蛛)程序,自动搜索互联网上大大小小的网站内容,按照网页相关性原理在每一个关键词和所有相关的网页之间建立一个对应关系,储存在其网络服务器的数据库中,用户只要输入关键词就可以找到符合该关键词特征的所有被索引的网页,并以超级链接的方式对搜索结果列表,有简单介绍,点击相应的链接就可以进入相应的网络资源网站,从而找到所需信息。

这样搜索到的结果通常数以百万计,但是相关性越高的信息,在搜索结果列表中的位置越靠前。

关键词全文检索式搜索引擎的代表是google搜索引擎。

国内搜索引擎广告市场包括固定排名广告、竞价排名广告和地址栏搜索广告三类。

固定排名广告是指在用户进行关键词搜索时,广告客户的网站将出现在关键词搜索结果 页面中的固定位置,广告客户按照预先确定的价格给搜索引擎运营商支付广告费用。

竞价排名广告是近几年风靡世界的网络推广服务。

竞价排名按照点击付费,不点击不收费,是一种真正按照广告效果收费的网络推广方式。

地址栏搜索广告属于第三代中文上网方式,用户无需记忆复杂的域名,直接在浏览器地址栏中输入中文名字,就能直达企业网站或者找到企业、产品信息,为企业带来更多的商业机会。

目前国内主要的地址栏搜索包括网络实名和通用网址(由cinnic提供)。

目前,3721公司的"网络实名"地址栏搜索基本上覆盖了80%以上的中国互联网用户(iresearch数据)。

地址栏搜索的致命缺点是受到网络浏览器的限制,如果用户使用的浏览器没有安装相应的网络插件则不能实现地址栏搜索。

所以从本质上说,地址栏搜索不是真正意义上的搜索引擎,只能说是搜索引擎技术的一种应用形式。

搜索引擎是什么意思啊

搜索引擎泛指搜索类的网站。

了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。

■ 全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。

搜索引擎的自动信息搜集功能分两种。

一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

........................................................................................ ■ 目录索引 与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。

用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。

而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!这样的超级索引,登录更是困难。

(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧) 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。

更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。

如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。

如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。

原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。

而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。

在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

什么是搜索引擎?搜索引擎是如何工作的?

获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。

按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。

全文搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。

Google、百度都是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。

另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”。

全文搜索引擎和分类目录在使用上各有长短。

全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。

为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索“所有网站”或“全部网站”,比如Google的全文搜索( /%7Efree/search1.htm)。

二、搜索引擎的工作原理 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。

它为保证采集的资料最新,还会回访已抓取过的网页。

网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。

我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。

不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。

分类目录一般都有专门的编辑人员,负责收集网站的信息。

随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。

如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。

所有这些收录的站点同样被存放在一个“索引数据库”中。

用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。

如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。

需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。

分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。

当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。

所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。

而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。

这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。

大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。

但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。

我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。

而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。

你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。

om/intl/zh-CN/);把对分类目录的查询称为搜索“分类目录”或搜索“分类网站”

UCloud:全球大促降价,云服务器全网最低价,1核1G快杰云服务器47元/年

ucloud:全球大促活动降价了!这次云服务器全网最低价,也算是让利用户了,UCloud商家调低了之前的促销活动价格,并且新增了1核1G内存配置快杰型云服务器,价格是47元/年(也可选2元首月),这是全网同配置最便宜的云服务器了!UCloud全球大促活动促销机型有快杰型云服务器和通用型云服务器,促销机房国内海外都有,覆盖全球20个城市,具体有北京、上海、广州、香港、 台北、日本东京、越南胡志明市、...

提速啦(24元/月)河南BGP云服务器活动 买一年送一年4核 4G 5M

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...

青果网络618:洛杉矶CN2 GIA/东京CN2套餐年付199元起,国内高防独服套餐66折

青果网络怎么样?青果网络隶属于泉州市青果网络科技有限公司,青果网络商家成立于2015年4月1日,拥有工信部颁发的全网IDC/ISP/IP-VPN资质,是国内为数不多具有IDC/ISP双资质的综合型云计算服务商。青果网络是APNIC和CNNIC地址分配联盟成员,泉州市互联网协会会员单位,信誉非常有保障。目前,青果网络商家正式开启了618云特惠活动,针对国内外机房都有相应的优惠。点击进入:青果网络官方...

搜索引擎的概念为你推荐
scheduleatfixedrate定时任务中的 Timer的schedule和scheduleAtFixedRate方法的区别?宝应中学宝应初级中学有哪些12种颜色水粉颜料调色过程十二种颜色12种颜色油画的基本12种颜色是什么腾讯技术腾讯是什么东西?assemblyinfoLOL的 X、L、CS 是什么意思云计划云计划创富平台怎么样?有谁知道。介绍一下。超级播放器一共有哪些播放器?网络备份win7中如何备份网络设置免费下载空间怎么下载免费的空间播放器
双线vps 免费申请网站域名 淘宝二级域名 godaddy优惠码 表格样式 双12活动 NetSpeeder 警告本网站 轻量 eq2 免费smtp服务器 大容量存储器 谁的qq空间最好看 南通服务器 万网主机管理 阿里云邮箱个人版 windowssever2008 ncp weblogic部署 cc加速器 更多