简单搜索怎样搜索好友

简单搜索  时间:2021-12-18  阅读:()

Everything怎么用 / 如何快速搜索文件

1、首先下载everything中文版。

  2、安装好everything中文版后我们可以看到很简单的软件界面,别小看他,功能很好用。

  3、我们在搜索框输入自己想要查找的内容,几乎我们刚输入完搜索内容就出现了结果,快到无想象。

  4、如果我们经常搜索同一个内容,那么我们还可以在everything中文版中点击书签,选择添加到书签,下次就可以直接点击书签搜索,从而提高工作效率了。

  5、怎么能让everything中文版使用起来更加方便呢,比如不想让它的图标出现在系统托盘中,又想快速的调出使用,我们点击工具-选项。

  6、在Everything选项中我们勾选后台运行,取消显示托盘图标。

  7、那么我们怎么快速调出everything呢?在左侧选择快捷键,然后在右侧根据自己习惯来设置快捷键就好了。

这样我们平时关闭everything,保持电脑界面清爽,等使用的时候按快捷键就可以使用了。

如何利用网上搜索技巧实现快速搜索?

1.使用逻辑词辅助查找 比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND(和)、OR(或)、NOT(否,有些是AND NOT)及NEAR(两个单词的靠近程度),恰当应用它们可以使结果非常精确,另外,也可以使用括号将搜索词分别组合,如在/)或Hotbot(/)。

7.注意细节 在上进行查询时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,如果您正在搜索人名或地名等关键词,应该正确使用它们的大小写字母形式。

8.利用搜索引擎的特性进行查找 不同的搜索引擎有一些专用的特性,应用它们可以使查询事半功倍,比如:若想知道某个新闻组上最近一段时间发表的文章,可以在Dejanews的查找框中输入"~g 组名",例如"~p.lang.java.programmer"。

9.使用多元搜索引擎 多元搜索引擎是一种只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站,如Searchspaniel(/)就可以同时对200多个搜索引擎进行查询。

10.利用选项界定查询 目前越来越多的搜索引擎开始提供更多的查询选项,利用这些选项人们可以轻松地构造比较复杂的搜索模式,进行更为精确的查询,并且能更好地控制查询结果的显示。

11.尽可能将搜索范围限制在特定的领域里 比如:在 Yahoo 中文网站中,你要查找的是与电脑相关的知识,那么你没有必要让搜索引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。

你可以进入“电脑与因特网”这一类,选中“检索此目录下的网站”。

然后再开始搜索。

12.使用更特定的词汇 比如,不用“服装”,而用“西服”;不用“ flower ”而用“ rose ”。

但要尽可能删去一些同义词或近义词。

13.指定关键词出现的字段 在关键词前加t:,搜索引擎将仅在网站名称中查询,即只显示在网站名称中包含关键字的网站。

在关键词前加u:,搜索引擎将仅在网址(URL)中查询。

14.限制查询范围 范围限制的能力越强,则越能准确地找到需要的信息。

搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围以及其他特殊范围。

一些搜索引擎,提供了许多特殊范围的限定,如域名后缀、等)、文件类型(文本、图形、声音等)。

这些范围限制、实现的方法各不相同:有些是通过在关键词前加特殊的字符,有些是通过下拉式菜单。

15.尽量少用空格 在输入汉字作关键词的时候,不要在汉字后追加不必要的空格,因为空格将被认作特殊操作符,其作用与AND一样。

比如,你输入了这样的关键词“电 脑”,那么它不会被当作一个完整词“电脑”去查询,由于中间有空格,会被认为是需要查出所有同时包含“电”“脑”两个字的文档,这个范围就要比“电脑”作关键词的查询结果大多了,更重要的是它偏离了本来的含义。

16.修改IE浏览器的默认搜索引擎 在IE4.0/IE5.0的工具栏上,点击“搜索”图标,IE就会调用缺省的搜索引擎Excite为你检索。

要想改变缺省的搜索引擎,你必须改动Win98的注册表。

IE4.0修改方法是:关闭IE,打开注册表编辑器,找到[HKEY_CURRENT_USERSoftwareMicrosoft ExplorerMain],在右侧窗格中双击“查找”,输入要改变的默认搜索引擎网址,例如把缺省搜索引擎改为google,此时就键入/。

IE5.0/6.0修改方法是:打开注册表编辑器,找到[HKEY_LOCAL_MACHINESOFTWAREMicrosoft ExplorerSearch],在右侧窗格中修改CustomizeSearch和SearchAssistant的内容,输入要改变的默认搜索引擎网址。

17.使用词组提速搜索 如果只给出一个单词进行搜索,那么将发现数以千计甚至以百万计的匹配网页。

然而如果再加上一个单词,那么搜索结果会更加切题。

在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号,这种与逻辑技术大大地缩小了命中范围,从而加快了搜索。

幸运的是,所有主要的搜索引擎都使用同样有语法。

一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。

例如在搜索说明中,有“this exact phrase(这个确切词组)”这个词组,那么搜索引擎只搜索包含“this exact phrase(这个确切词组)”的网页。

18.如何运用词组选择 一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。

但是,运用词组搜索涉及到如何使用一个词组来表达某一具体问题。

有时简单地输入一个问题作为词组就能奏效,尤其是在Altavista这个站点上,因为它采用了“Ask Jeeves”引擎技术,该技术就常见问题给出预置的答案。

在Altavista上输入“ Why is the sky blue(为什么天是蓝的)”,就会在“Ask Jeeves"部分找到答案,并给出若干网页回答这个问题。

然而简单明了的提问方法只对一部分搜索奏效。

其他词组也可以作为搜索条件,尤其这些词组中有一个词十分独特或者该词组是几个词独特的组合。

试一试用人名、产品名、甚至是嵌入程序中的字符串去搜索。

19.巧妙利用错误信息 将全部或部分错误信息作为词组进行搜索。

比如:当夏时制时间变化时,Netscape Navigator (浏览器)会产生一条错误信息,该信息包含词组“book marks have changed on disk(磁盘书签已变动)”。

在google或HotBot站点上输入该词组,就会找到对该问题的解释以及如何处理。

20.最容易忽视的搜索方法 有时词组搜索太精确或者一个词组无法准确表达所需信息。

那么可以直接到信息源,这种技术“简单得似乎不值一提”,但却很有效。

根本不用搜索引擎,直接到提供某种信息组织的站点去。

很多时候我们可以用公式“www.公司名”去猜测某一组织的站点。

如果猜不中,那么到Yahoo去,或用搜索引擎。

例如,要找Dell公司现有附件的说明书,直接去该站点,想知道Oracle公司有什么新闻,试一试,然后再去新闻栏看一看。

人们在搜索引擎中得到很多无用信息,却忘了试一试该方法。

这种技术还可用于其他搜索目的,并不一定与公司有关。

政府机构、职业协会、教育机构也可以提供很好的信息资源。

有关人口统计请去www.census.gov,还能去看看最近的会议清单。

21.从页面上部或底部寻找作者姓名、组织机构名称或公司名称 如果是个人页面,那么是否有作者的简介,看看他的受教育程度、职位、所属单位等;如果是一个组织机构或公司,是否有详细的介绍页面,其历史怎样?发布这些信息的目的如何?这些个人或单位你是否听说过?是否是你所熟悉的?信誉是否良好?等这些都有助于让你判读出其页面内容的可信程度。

22.从URL上可以得到一些该网站的线索 比如:凡带“ ~ ”符号的大都是个人主页。

从域名的后缀上也可以得到一些大概的线索: .edu 是教育类网站,既可能是严肃的学术研究,也可能是学生随意制作的主页。

.gov 或 是政府网站,一般比较权威、可靠,不会随意发布不准确的信息。

或 是商业网站,最常见。

在介绍自己的产品时往往会夸大其辞,所以要注意“批判”性地接受。

网络服务公司,为商业或个人用户提供服务。

一般是非赢利性组织,其观点可能带有倾向性。

23.点到该站点的主页上,看一下该组织的相关资料 如果页面上没有其主页的链接,可以直接访问域名前部的地址,那往往就是该网站的首页。

如: /staticpages/builder/builder_schedule/asp.html 这一大串网址,你只需要把地址中“/staticpages”以后的所有字母都删去,只留下 ,然后敲回车,往往就能看到该网址的首页。

常用的搜索引擎都有哪些基本类型?

索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。

搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。

人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。

这其实是最原始的方式,只适用于因特网信息并不多的时候。

随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。

这就是现在搜索引擎的原型。

随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。

现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。

以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。

然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。

例如,搜索“电脑”这个词汇,就可能有数百万页的结果。

这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。

这就是使搜索引擎搜索结果多而杂的原因。

而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。

Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。

这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。

我们可以从plete search index)可以使查找任何数据都变得容易。

根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。

然而1997年的Web就迥然不同。

近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。

用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。

实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。

导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。

用户仍然只希望看前面几十个搜索结果。

因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。

由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。

高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。

令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。

尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。

Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。

1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。

1993年,只有1.5%的Web服务是来自域名。

到1997年,超过了60%。

同时,搜索引擎从学术领域走进商业。

到现在大多数搜索引擎被公司所有,很少技公开术细节。

这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。

Google的主要目标是推动学术领域在此方面的发展,和对它的了解。

另一个设计目标是给大家一个实用的系统。

应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。

例如,每天有几千万个研究。

然而,得到这些数据却非常困难,主要因为它们没有商业价值。

我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。

为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。

设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。

系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。

我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。

2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。

第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。

第二点,Google利用超链接改进搜索结果。

2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。

我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。

这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。

因此在web中,PageRank能够优化关键词查询的结果。

对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。

对于Google主系统中的全文搜索,PageRank也帮了不少忙。

2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。

PageRank发展了这种思想,网页间的链接是不平等的。

PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。

参数d是制动因子,使结果在0,1之间。

通常d等于0.85。

在下一节将详细介绍d。

C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。

PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。

中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。

还有一些技术细节超出了本文论述的范围。

2.1.2直觉判断 PageRank被看作用户行为的模型。

我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。

随机访问一个网页的可能性就是它的PageRank值。

制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。

对单个网页或一组网页,一个重要的变量加入到制动因子d中。

这允许个人可以故意地误导系统,以得到较高的PageRank值。

我们还有其它的PageRank算法,见98页。

另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。

直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。

一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。

如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。

PageRank处理了这两方面因素,并通过网络链接递归地传递。

& nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。

大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。

另外,把它和链接所指向的网页联系起来。

这有几点好处。

第一,通常链接描述文字比网页本身更精确地描述该网页。

第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。

有可能使返回的网页不能被抓到。

注意哪些抓不到的网页将会带来一些问题。

在返回给用户前检测不了它们的有效性。

这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。

然而这种结果可以被挑出来的,所以此类的问题很少发生。

链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。

我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。

有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。

现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。

2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。

第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。

第二,Google跟踪一些可视化外表细节,例如字号。

黑体大号字比其它文字更重要。

第三,知识库存储了原始的全文html网页。

3有关工作 Web检索研究的历史简短。

World Wide Web Worm()是最早的搜索引擎之一。

后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。

与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。

根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。

”虽然在搜索引擎的某些特点上做了大量工作。

具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。

最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。

在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。

3.1信息检索信息检索系统诞生在几年前,并发展迅速。

然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。

实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。

大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。

在TREC上工作良好的系统,在Web上却不一定产生好的结果。

例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。

在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。

例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。

网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。

我们强烈反对这种观点。

如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。

象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。

3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。

Web中的文档无论内在信息还是隐含信息都存在大量的异构性。

例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇([email]地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。

可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。

隐含信息包括来源的信誉,更新频率,质量,访问量和引用。

不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。

例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。

很明显,搜索引擎对这两类信息的处理是不同的。

Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。

灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。

这些问题还没有被传统的封闭的信息检索系统所提出来。

它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。

甚至有些公司为牟利专门操纵搜索引擎。

4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。

然后 ,详细描述重要的数据结构。

最后,主要应用:抓网页,索引,搜索将被严格地检查。

Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。

本节不讨论应用和数据结构,在后几节中讨论。

为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。

Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。

一个URL服务器负责向crawlers提供URL列表。

抓来的网页交给存储服务器storeserver。

然后,由存储服务器压缩网页并把它们存到知识库repository中。

每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。

由索引器和排序器负责建立索引index function。

索引器从知识库中读取文档,对其解压缩和分析。

每个文档被转换成一组词的出现情况,称作命中hits。

Hits纪录了词,词在文档中的位置,最接近的字号,大小写。

索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。

索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。

该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。

URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。

为链接描述文本编制索引,并与它所指向的docID关联起来。

同时建立由docID对组成的链接数据库。

用于计算所有文档的PageRank值。

用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。

这个操作要恰到好处,以便几乎不需要暂存空间。

排序器还给出docID和偏移量列表,建立反向索引。

一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。

这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。

4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。

虽然近几年CPU和输入输出速率迅速提高。

磁盘寻道仍然需要10ms。

任何时候Google系统的设计都尽可能地避免磁盘寻道。

这对数据结构的设计影响很大。

4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。

多文件系统之间的空间分配是自动完成的。

BigFiles包也处理已分配和未分配文件描述符。

由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。

4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。

每个网页用zlib(见RFC1950)压缩。

压缩技术的选择既要考虑速度又要考虑压缩率。

我们选择zlib的速度而不是压缩率很高的bzip。

知识库用bzip的压缩率接近4:1。

而用zlib的压缩率是3:1。

文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。

访问知识库不需要其它的数据结构。

这有助于数据一致性和升级。

用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。

4.2.3文件索引文件索引保存了有关文档的一些信息。

索引以docID的顺序排列,定宽ISAM(Index sequential ess mode)。

每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。

如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。

否则指针指向包含这个URL的URL列表。

这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。

还有一个文件用于把URL转换成docID。

它是URL校验和与相应docID的列表,按校验和排序。

要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。

通过对这个文件进行合并,可以把一批URL转换成对应的docID。

URL分析器用这项技术把URL转换成docID。

这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据集合将花费一个多月的时间。

4.2.4词典词典有几种不同的形式。

和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。

现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。

现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。

它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。

不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。

4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。

Hit list占很大空间,用在正向和反向索引中。

因此,它的表示形式越有效越好。

我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。

Hit的详细信息见图3。

我们的紧凑编码每个hit用2字节。

有两种类型hit,特殊hit和普通hit。

特殊hit包含URL,标题,链接描述文字,meta tag。

普通hit包含其它每件事。

它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。

字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。

特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。

对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。

短语查询是有限的,对某些词没有足够多的anchor。

我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。

怎样搜索好友

简单条件搜索
简单条件搜索的功能,几乎与QQ自身的查找功能相似,这种搜索设置的方法很是简单。

你可以在主界面中,先选中“进行简单搜索”选项,这样“简单条件搜索”的设置框,就可以自动被激活了;此时,你可以在QQ、E-mail以及昵称三个选项处,任选其中一个作为搜索条件。

例如,要是选中“QQ”选项,那么你只要将对方好友的QQ号码,输入在其中,就能轻松搜索到指定的好友了,这个搜索条件具有唯一性。

要是选中“昵称”作为搜索条件的话,可能会搜索到许多昵称相同的QQ好友,此后你可以分别查看搜索出来的QQ好友资料信息,来选中最适合你要求的QQ好友,一般来说,这种方法搜索的精度不是很高。

要是使用“E-mail”选项作为搜索条件的话,那么凡是用指定邮件地址,注册的所有QQ号码,都可能被自动搜索得到,这种搜索方法的准确性,要比使用“昵称”来搜索更高一些。



复杂条件搜索
“网际搜Q”的主打功能,其实就是通过“复杂条件搜索”体现出来的,这种搜索属于比较模糊的查询方法,它能综合各种搜索要求,将符合自己要求的好友名单全部查找出来。

先选中“进行复杂搜索”选项,激活“复杂条件搜索”设置框;在这里,你必须对主要搜索条件的“地区”、“性别”以及“年龄”这三个选项,分别进行设置;要是将“性别”设置为“不详”的话,就表示指定QQ好友,在QQ客户端的“个人设定”中,没有输入自己的性别,如此一来,凡是在个人设定中,性别没有填写的QQ好友就会被自动搜索出来了。



此外你还可以选中“使用辅助条件进行全方位搜索”选项,来对学历、行业、生肖、工作状况、婚姻状况等多个辅助条件进行同时设置,从而将符合多个条件的QQ好友精选出来;呵呵,这个功能可是QQ自身的查找功能所无法实现的哟。

完成上面的搜索条件设置后,单击“下一步”按钮,你会发现符合所有条件的QQ好友名单,自动显示在图2界面中了。

要是符合条件的QQ好友很多的话,该程序会自动用多页来将他们全部显示出来,并按照申请QQ的时间先后顺序来排列。

星梦云-年中四川100G高防云主机月付仅60元,西南高防月付特价活动,,买到就是赚到!

官方网站:点击访问星梦云活动官网活动方案:机房CPU内存硬盘带宽IP防护流量原价活动价开通方式成都电信优化线路4vCPU4G40G+50G10Mbps1个100G不限流量210元/月 99元/月点击自助购买成都电信优化线路8vCPU8G40G+100G15Mbps1个100G不限流量370元/月 160元/月点击自助购买成都电信优化线路16vCPU16G40G+100G20Mb...

tmhhost(100元/季)自带windows系统,香港(三网)cn2 gia、日本cn2、韩国cn2、美国(三网)cn2 gia、美国cn2gia200G高防

tmhhost可谓是相当熟悉国内网络情况(资质方面:ISP\ICP\工商齐备),专业售卖海外高端优质线路的云服务器和独立服务器,包括了:香港的三网cn2 gia、日本 cn2、日本软银云服务器、韩国CN2、美国三网cn2 gia 云服务器、美国 cn2 gia +200G高防的。另外还有国内云服务器:镇江BGP 大连BGP数据盘和系统盘分开,自带windows系统,支持支付宝付款和微信,简直就是专...

爱用云互联租用服务器租美国、日本、美国、日本、购买2天内不满意可以退换,IP可免费更换!

爱用云互联怎么样?爱用云是一家成立于2018年的老牌商家旗下的服务器销售品牌,是正规持证IDC/ISP/IRCS商家,主要销售国内、中国香港、国外服务器产品,线路有腾讯云国外线路、自营香港CN2线路等,都是中国大陆直连线路,非常适合免备案建站业务需求和各种负载较高的项目,同时国内服务器也有多个BGP以及高防节点。专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端...

简单搜索为你推荐
去广告版快播广告怎么删除,运行快播的时候弹出来的,先是在右下角,一会又弹在左上角去了。 半透明,无法关闭,无法点txt转jar格式转换器TXT文件怎么转换成JAR文件?都市摩天楼修改器GTA VC的一个任务怎么过?蝴蝶外挂简单游软件是真的吗垃圾短信智能盾怎样解决诈骗电话垃圾短信呼入越牛新闻app官方下载现在新浪微博真的可以赚钱吗,怎么样才能通过新浪微博赚钱?死神的圣约死神的每个番队都是干什么的炉石传说圣骑士皮肤魔兽20级了,炉石圣骑士皮肤没有猫咪能像液体一样缩在盒子里猫咪下面躺粘液是不是要下崽了爱趣商城喜多商城怎么样?
虚拟主机管理系统 域名估价 yaokan永久域名经常更换 vir virpus 国外idc 2017年黑色星期五 搜狗抢票助手 蜗牛魔方 shopex主机 上海电信测速 web应用服务器 成都主机托管 贵州电信 windowsserver2008 百度新闻源申请 免费网站加速 达拉斯 回程 更多