lucenelucene,solr有什么区别

lucene  时间:2021-08-16  阅读:()

lucene nutch solr及hadoop的区别和联系

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。

nutch和solr原来都是lucene下的子项目。

但后来nutch独立成为独立项目。

nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下。

nutch主要完成抓取,提取内容等工作。

solr则是基于lucene的搜索界面。

提供XML/HTTP 和 JSON/Python/Ruby API,提供搜索入口,点击高亮,缓存,备份和管理界面。

hadoop原来是nutch下的分布式任务子项目,现在也成为apache下的顶级项目。

nutch可以利用hadoop进行分布式多任务抓取和分析存储工作。

所以,lucene,nutch,solr,hadoop一起工作,是能完成一个中型的搜索引擎工作的。

Lucene的使用

Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。

他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。

Lucene的发展历程:早先发布在作者自己的,后来发布在e,2001年年底成为APACHE基金会jakarta的一个子项目:/lucene/ 已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有: Jive:WEB论坛系统; Eyebrows:邮件列表HTML归档/浏览/查询系统,本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一,而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。

Cocoon:基于XML的web发布框架,全文检索部分使用了Lucene Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene 对于中文用户来说,最关心的问题是其是否支持中文的全文检索。

但通过后面对于Lucene的结构的介绍,你会了解到由于Lucene良好架构设计,对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。

全文检索的实现机制 Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。

总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。

比较一下Lucene和数据库:

lucene 怎么实现去词根词缀

Lucene下引入ICTCLAS进行中文分词的实现方法 /cy163/archive/2008/06/07/1215499.html 如何DIY一个Analyzer 咱们写一个Analyzer,要求有一下功能 (1) 可以处理中文和英文,对于中文实现的是单字切分,对于英文实现的是以空格切分. (2) 对于英文部分要进行小写化. (3) 具有过滤功能,可以人工设定Words列表.如果不是人工设定,系统会给出默认的Words列表. (4) 使用P-stemming算法对于英文部分进行词缀处理.

lucene,solr有什么区别

Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎. Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。

同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

它对外提供类似于Web-service的API接口。

用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Solr Get操作提出查找请求,并得到XML格式的返回结果; Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。

Lucene本质上是搜索库,不是独立的应用程序,而Solr是。

Lucene专注于搜索底层的建设,而Solr专注于企业应用。

Lucene不负责支撑搜索服务所必须的管理,而Solr负责。

所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

IntoVPS:按小时计费KVM月费5美元起($0.0075/小时),6个机房可选

IntoVPS是成立于2004年的Hosterion SRL旗下于2009年推出的无管理型VPS主机品牌,商家提供基于OpenStack构建的VPS产品,支持小时计费是他的一大特色,VPS可选数据中心包括美国弗里蒙特、达拉斯、英国伦敦、荷兰和罗马尼亚等6个地区机房。商家VPS主机基于KVM架构,最低每小时0.0075美元起($5/月)。下面列出几款VPS主机配置信息。CPU:1core内存:2GB...

青云互联:洛杉矶CN2弹性云限时七折,Cera机房三网CN2gia回程,13.3元/月起

青云互联怎么样?青云互联是一家成立于2020年6月份的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、香港服务器、美国云服务器,让您的网站高速、稳定运行。目前,美国洛杉矶cn2弹性云限时七折,美国cera机房三网CN2gia回程 13.3元/月起,可选Windows/可自定义配置。点击进入:青云互联官网青云互联优惠码:七折优惠码:dVRKp2tP (续...

六一云互联(41元)美国(24元)/香港/湖北/免费CDN/免费VPS

六一云互联六一云互联为西安六一网络科技有限公司的旗下产品。是一个正规持有IDC/ISP/CDN的国内公司,成立于2018年,主要销售海外高防高速大带宽云服务器/CDN,并以高质量.稳定性.售后相应快.支持退款等特点受很多用户的支持!近期公司也推出了很多给力的抽奖和折扣活动如:新用户免费抽奖,最大可获得500元,湖北新购六折续费八折折上折,全场八折等等最新活动:1.湖北100G高防:新购六折续费八折...

lucene为你推荐
hd4600CPU集成高性能HD4600核心显卡,好不好qq实名注册请问手机QQ上实名认证怎么弄?战棋类有谁介绍几个战棋类的游戏?高质量图片ps 合成图片,怎样才算高质量的?从那些方面判定照片的质量visio使用教程如何使用visio2013如何绘制UML图系统登录界面电脑用户登录界面,输入密码登不进去了,怎么解决,急rs485协议RS232/RS485串行通信协议的解释第五人格抄袭第五人格逃生模式与猫和老鼠如出一辙,这是否存在抄袭?免杀远控远控+免杀,到底是怎么一回事?比特币官方客户端bitcoin cash(BCC)是什么
域名中介 域名抢注工具 ipage 韩国俄罗斯 52测评网 工信部icp备案号 中国电信测网速 hdd 江苏双线服务器 超级服务器 www789 丽萨 主机管理系统 lamp架构 攻击服务器 国内空间 cdn服务 镇江高防服务器 asp.net虚拟主机 卡巴斯基免费版下载 更多