当前几个主要的Lucene中文分词器的比词 词 ZZ
1.基本介词词paoding Lucene中文分词“庖丁解牛”Paoding Analysisimdict imdict智能词典词所词采词用词的词智词能词词中文词分词词程词序词
2.词词者及词词活词词度词词paoding qieqie.wang google code上最后一次代词提词交词词 2008-06-12 svn版本号132
mmseg4j chenlb2008 google code中2009-08-03 昨天 版本号57 log词 mmseg4j-
1.7词建分支ik linliangyi2005 google code中2009-07-31版本号41
3.用词词自定词词词词词
imdict 词词原不支持用词版自定词词词。词但词 词 词 ICTCLAS支持。支持用词词自定词词 stopwords
4.速度基于官方介词词非词词自己词词词词paoding 在PIII 1G内存个人机器上 1秒可准确分词100
词字imdict 483.64(字词/秒) 259517(词字/秒)
5.算法和代词词词度词
imdict 词词 6.7M词个词 词词是词必词 词的词词词 src目词 152k 20个java文件 2399行。使用ICTCLAS HHMM词词词科夫模型 “利用大量词料词 词的词 词词来词 词词词词词词词的词词和词跳词词概率从而根据词些词词词词果词词整词个词词词句词子词词算词最词似词然词 (likelihood)的切分”mmseg4j svn src目词一词共词 132k 23个java文件 2089行。MMSeg算法有点词。词
6.文档
太好理解。
7.其它
imdict 词入词了词 lucene trunk 原版ictclas在各词词词词中都词有词不词 词的词表词 词词有词词词的理词基词词词不词是词个词人词词山寨词。词缺词点词 词词词不词支词持词用词词词词。词
) 但是词不词成词熟词 词 词有词很词ik 词词Lucene全文词索词词化词的词词词分词析词器词 IKQueryParser
8.词词
个人词得词 词可词以词在词 mmseg4j和paoding 中词一词个词 。词 词于词 词两词个词分词 词效词果的词比词词可词以词参词考词词http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html
或者自己再包装一下 将paoding的词词更词新词 词词做词一词个词 词独词的词模词 词词词词然词后就可以在所有基于词词的词分词词算词法词之词词无词词切词词了词。词p s 词不词同词 的词 fi e l d 使用不同的分词器词是词一词个词可词以词考词 词的词方词法词 。词比词如tag字段就词词使词用词一词个词最词词词的词分词词器词词按词空词格词分词词就词可词以词词了。词
==============================以上部分词网词上词 词=词==========================
==
Paoding的具体使用
最新版本JAR包在Lucene3.0下会词词词直词接词使词用词 Lucene2.9.4即可。另外其词词词也词可词以直接使用源词词词。词
字典的添加添加新字典需词除词 dic文件词下词 .compiled文件重新词词。词
今天遇到一个网友,他之前一直在用阿里云虚拟主机,我们知道虚拟主机绑定域名是直接在面板上绑定的。这里由于他的网站项目流量比较大,虚拟主机是不够的,而且我看他虚拟主机已经有升级过。这里要说的是,用过阿里云虚拟主机的朋友可能会比较一下价格,实际上虚拟主机价格比云服务器还贵。所以,基于成本和性能的考虑,建议他选择云服务器。毕竟他的备案都接入在阿里云。这里在选择阿里云服务器后,他就蒙圈不知道如何绑定域名。这...
艾云怎么样?艾云是一家去年年底成立的国人主机商家,商家主要销售基于KVM虚拟架构的VPS服务,机房目前有美国洛杉矶、圣何塞和英国伦敦,目前商家推出了一些年付特价套餐,性价比非常高,洛杉矶套餐低至85元每年,给500M带宽,可解奈飞,另外圣何塞也有特价机器;1核/1G/20G SSD/3T/2.5Gbps,有需要的朋友以入手。点击进入:艾云官方网站艾云vps促销套餐:KVM虚拟架构,自带20G的防御...
关于Linode,这是一家运营超过18年的VPS云主机商家,产品支持随时删除(按小时计费),可选包括美国、英国、新加坡、日本、印度、加拿大、德国等全球十多个数据中心,最低每月费用5美元($0.0075/小时)起。目前,注册Linode的新用户添加付款方式后可以获得100美元赠送,有效期为60天,让更多新朋友可以体验Linode的产品和服务。Linode的云主机产品分为几类,下面分别列出几款套餐配置...