一些分词常用工具
分词用到的一些方法和工具
NLTK的一些分词方法
这些对象均来源于nltk.tokenize库
1.word_tokenize
导入nltk的tokenize库后 tokens=nltk.word_tokenize(sentence)语句进行分词操作 sentence为待处理的字符串。返回一个列表。该方法要求被处理的字符串本身各个词语间有空格能处理如don’ t,they’ l l等缩写词的情况。
2.TweetTokenizer 分两种 1.不带参数token=
TweetTokenizer().tokenize(sentence)处理输入"This is a cooool
#dummysmi ley: :-) :-P<3 and somearrows<> -><--"
输出['This',' is','a','cooool','#dummysmi ley',' :',' :-)',' :-P','<3','and','some','arrows','<','>','->','<--']能够拆分无效用的标点符号。 2.带参数token=
TweetTokenize(strip_handles=True,reduce_len=True)输入@remy:This iswaaaaayyyytoo much foryou! ! ! ! ! !
输出[' :','This',' is','waaayyy','too','much','for','you',
' !',' !',' !']
当一个词中相同字符连续出现3次以上就只保留3个。
3.MWETokenizer tokenizer=MWETokenizer([('a',
' l ittle'), ('a',' l ittle','bit'),
('a',' lot')])
输入tokenizer.tokenize(' Ina l ittleora l ittlebitora lot inspiteof' .spl it())输出[' In','a_l ittle','or','a_l ittle_bit','or',
'a_lot',‘in’' in_spite_of']
可见该方法可对已先保留的一些短语或者组合进行重组对一些专有词可以先进行保留如F-16最后重组已保留 ‘-’
4.RegexpTokenizer
使用到正则表达式进行分词如对一些金钱表示或者其他非空白序列。tokenizer=RegexpTokenizer('\w+|\$[\d\.]+|\S+')
输入"Good muffinscost$3.88\nin NewYork. Pleasebuyme\ntwoofthem.\n\nThanks."
输出['Good','muffins','cost',
'$3.88',' in','New','York',
' .',
'Please','buy','me','two','of','them',' .','Thanks',
' .']
5.Twitter-awaretokenizer
按空格进行分词 同时针对推文一些特性去除@用户名保留表情等一些特殊符号。
输入"This isacooool#dummysmi ley: :-) :-P<3and somearrows<> -><--"
输出['This',' is','a','cooool','#dummysmi ley',' :',' :-)',' :-P','<3','and','some','arrows','<','>','->','<--']
6.StanfordTokenizer
按空格进行分词对于$4.28之类的将符号与数字分开。 输入"Goodmuffins cost$3.88\nin NewYork. Please buy me\ntwoof them.\nThanks."
输出['Good','muffins','cost',
'$','3.88',' in','New',
'York',' .','Please','buy',
'me','two','of','them',
' .','Thanks',' .']
Hostodo近日发布了美国独立日优惠促销活动,主要推送了四款特价优惠便宜的VPS云服务器产品,基于KVM虚拟架构,NVMe阵列,1Gbps带宽,默认分配一个IPv4+/64 IPv6,采用solusvm管理,赠送收费版DirectAdmin授权,服务有效期内均有效,大致约为7折优惠,独立日活动时间不定,活动机型售罄为止,有需要的朋友可以尝试一下。Hostodo怎么样?Hostodo服务器好不好?...
妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...
妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款到网站余额,超过2天...