分词计算机科学与技术毕业论文——汉语分词技术分析

分词技术  时间:2021-02-09  阅读:()

兰州商学院

本科生毕业论文设计

论文设计题目 汉语分词技术初探学 院、 系 信息工程学院计算机科学与技术系专 业(方 向)  计算机科学与技术

201 1年5月18日

声 明

本人郑重声明所呈交的毕业论文设计是本人在导师的指导下取得的成果。对本论文设计的研究做出重要贡献的个人和集体均已在文中以明确方式标明。 因本毕业论文设计引起的法律结果完全由本人承担。

本毕业论文设计成果归兰州商学院所有。

特此声明

毕业论文设计作者签名

年 月 日

汉语分词技术初探

摘 要

所谓汉语分词就是将中文语句中的词汇切分出来的过程。 由于汉语的书写习惯汉语语句中词与词之间的标志是隐含的英文的单词与单词之间有空格所以不存在分词问题。而中文的每一句中词与词之问是没有空格的 因而必须采用某种技术将其分开。

分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微但作为计算机自然语言处理的第一步它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。

本文讨论了中文分词的概念、 目标及其所面临的一些基本问题详细介绍了三种基本中文分词算法并对中文分词词典的索引及常用词典结构进行了介绍最后说了正向最大算法的实现及测试结果。

[关键词]中文分词最大匹配 分词词典 自然语言处理

I

ABSTRACT

Chinese word segmentation  is to cut the sentence in the Vocabulary sub —out process  Sincethe writing habits of Chinese  Chinese sentence symbol between words is impl ied  the Engl ishwords have the spaces between the words  So there is easy to separate  The Chinese word foreach sentence  there is no space between words  and therefore must be some kind of technologyto separate sentence  Chinese sentence segmentation algorithm from the 20th century  since the

80’ Shas been a research focus  due to the complexity of the Chinese language has been in astage of development 

Segmentation of natural language processing technology as the basic l ink  but also one of the keyl inks  and its direct impact on the qual ity of the subsequent processing steps results  Chineseword segmentation the first step in natural language processing  and its importance can not beignored 

[Key Words]Chinese Word Segmentation  Maximum match  Segmentation Dictionary 

Chinese Information Processing

I I

目 录

一、引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

二、 中文分词简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

一中文分词的概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

1 、什么是中文分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

2、 中文分词的应用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

二中文分词的目标. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5

1 、准确性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

2、运行效率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

3、通用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

4、适用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

三中文分词的基本问题. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

1 、分词规范. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8

2、歧义识别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

3、未登录词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 1

三、基本中文分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

一中文分词算法介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

1 、基于字符串匹配的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

2、基于理解的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

3、基于统计的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

二根据具体应用使用合适的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

1 、混合分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

2、基于字的切分法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

四、 中文分词词典. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

一词典的索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

1 、 Hash索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

2、 Trie树. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

二常用词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

1 、有序线性词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

2、基于整词二分的分词词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

3、基于TRIE索引树的分词词典机制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20

五、正向最大匹配算法的实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

一正向最大匹配算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

二采用正向最大算法的分词程序设计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24

六、结论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35

参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36

致 谢. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

I I I

汉语分词技术初探

一、引言

在自然语言处理中词是最小的能够独立活动的有意义的语言成分。我们知道在英文文本中单词之间是以空格作为自然分界符的。 中文和英文比起来有其自身的特点就是中文以字为基本书写单位句子和段落通过分界符来划界但是词语之间没有一个形式上分界符。也就是说从形式上看 中文没有“词”这个单位。

因此进行中文的自然语言处理通常都是先将中文文本中的字序列切分为合理的词序列然后再在此基础上进行其它分析处理。将中文连续的字序列按照一定的规则重新组合成词序列的过程就叫做中文分词。

作为中文信息处理基础的中文分词技术 己经被广泛应用于中文信息领域的信息检索、 自动摘要、 中文校对、汉字的智能输入、汉字简繁体转换、机器翻译、语音合成等技术中。 自 20世纪80年代初 中文信息处理领域提出自动分词以来相关方面的众多专家学者、科研院所、业机构为之付出了不懈的努力取得了一些重要的进展和一些实用性的成果提出了许多中文分词方法有些成熟的技术已经应用于产品当中。但这些分词方法或多或少都存在着不足之处 比如对于检索系统 由于近年来信息的多元化、复杂化对信息处理技术的研究、发展、应用提出了新的挑战跨越了单纯文本的检索例如问答系统必须对关键字进行语义分析与处理。这就要求信息处理技术必须跟上信息发展的速度在速度与性能方面具备更高的指标。

要让计算机能够自动地处理信息就必须借助分词技术让计算机理解自

1

然语言。分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。其中 中文分词由于中文结构的特点与西方国家文字相比更难于处理。汉语的词汇与词汇之间没有显式的边界汉语的分词需要通过计算机对文字内容的分析来达到切分词汇的目的。 中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统 [2]的准确率和工作效率 才能使自然语言处理系统稳定高效地工作。

本文的主要目标是通过对目前中文分词关键技术的研究设计并实现最大正向匹配算法。本文的主要研究内容为

(1)分析了当前中文分词的研究背景介绍了中文分词的研究意义。

(2)对中文分词技术进行了简介简单介绍了中文分词、 中文分词的应用、 中文分词系统的目标、 中文分词的基本问题。

(3)研究了三类基本的分词算法基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法。举例说明了实际应用中如何使用合适的分词算法。

(4)介绍了目前中文分词技术中常用的索引方法和词典机制。

(5)对正向最大匹配算法进行了实现与测试。

相对于研究内容本文的结构安排为

第一章 引言。本章首先介绍了本文的研究背景和研究意义然后介绍了本文的主要工作和论文的结构安排。

第二章中文分词简介。本章首先介绍了中文分词的基本概念、 中文分词的应用接着介绍了中文分词系统的目标、 中文分词的基本问题等。

2

第三章基本中文分词算法。本章首先介绍了常用的中文分词算法包括基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法然后举例说明了实际应用中如何使用合适的分词算法。

第四章中文分词词典。本章首先介绍了中文分词技术中的索引方法然后又介绍了目前中文分词技术中常用的词典机制。

第五章 正向最大匹配算法的实现。本章根据正向最大匹配算法的流程编写了采用正向最大匹配算法的分词程序并对程序进行介绍和测试。

第六章结论。此部分总结论文的所有工作分析论文中存在的不足和一些未解决的问题。

二、 中文分词简介

中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓分词就是把一个句子中的词汇按照使用时的意义切分出来。

一中文分词的概念

将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词 中文分词就是把中文的汉字序列分成有意义的词。分词只是中文信息处理的一部分分词本身并不是目的而是后续处理过程的必要阶段是中文信息处理的基础技术。

1 、什么是中文分词

分词就是利用计算机识别出文本中词汇的过程。在英文中词汇之间一般会有空格等比较明显的分隔符。而中文中是以字为基本书写单位只有段与段、句语句之间有分隔符而词汇之间没有分隔符。所以虽然

3

在英语中也存在分词问题但远没有中文分词那么复杂苦难。

比如 The table tennis bat is sold out 。 中文意思就是乒乓球拍卖完了。对于通过空格和标点来切分的英语例句一般不会产生歧义。但是在中文中“乒乓球拍卖完了”则因为乒乓球和乒乓球拍、卖与拍卖都是

词语而又没有明显分隔而产生了 “乒乓球/拍卖/完了”和“乒乓球拍/卖/完了”两种完全不同的意义。所以要让计算机完成上述过程相对于英语难度有质的不同。

中文分词的过程就是要把一句话中有意义的词汇都切分出来并给出所有正确结果。 由于中文词汇中间是有分隔符的所以对中文词组的正确识别就显得很重要。词是汉语中最小的有意义的独立单位但是这最小的单位却是没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互就必须让计算机能理解自然语言。只有当汉字串组成的句子被准确地转化为词之后才能继续进一步工作。 比如一个中英翻译系统如果连词汇都不能正确切分翻译得到的英文是不可能符合原义的。

2、 中文分词的应用

互联网绝大部分需要分词其中典型的实例有

1 汉字处理。这方面主要包括拼音输入法、 手写识别、简繁转换等。

2信息检索。如 Google、 Baidu 、 Yahoo等检索工具。

雅虎中文网页搜索技术部总监张勤认为 中文分词是中文搜索技术的基础只有做好了分词才能有好的搜索。可见掌握了优秀的分词技术就可以在中文搜索中占有一席之地。

众多优秀的搜索引擎都有自己的分词技术。如雅虎、百度都是使用

4

日本CN2、香港CTG(150元/月) E5 2650 16G内存 20M CN2带宽 1T硬盘

提速啦简单介绍下提速啦 是成立于2012年的IDC老兵 长期以来是很多入门级IDC用户的必选商家 便宜 稳定 廉价 是你创业分销的不二之选,目前市场上很多的商家都是从提速啦拿货然后去分销的。提速啦最新物理机活动 爆炸便宜的香港CN2物理服务器 和 日本CN2物理服务器香港CTG E5 2650 16G内存 20M CN2带宽 1T硬盘 150元/月日本CN2 E5 2650 16G内存 20M C...

华为云(69元)828促销活动 2G1M云服务器

华为云818上云活动活动截止到8月31日。1、秒杀限时区优惠仅限一单!云服务器秒杀价低至0.59折,每日9点开抢秒杀抢购活动仅限早上9点开始,有限量库存的。2G1M云服务器低至首年69元。2、新用户折扣区优惠仅限一单!购云服务器享3折起加购主机安全及数据库。企业和个人的优惠力度和方案是不同的。比如还有.CN域名首年8元。华为云服务器CPU资源正常没有扣量。3、抽奖活动在8.4-8.31日期间注册并...

易探云(QQ音乐绿钻)北京/深圳云服务器8核8G10M带宽低至1332.07元/年起

易探云怎么样?易探云香港云服务器比较有优势,他家香港BGP+CN2口碑不错,速度也很稳定。尤其是今年他们动作很大,推出的香港云服务器有4个可用区价格低至18元起,试用过一个月的用户基本会续费,如果年付的话还可以享受8.5折或秒杀价格。今天,云服务器网(yuntue.com)小编推荐一下易探云国内云服务器优惠活动,北京和深圳这二个机房的云服务器2核2G5M带宽低至330.66元/年,还有高配云服务器...

分词技术为你推荐
易pc华硕易PC怎么样?性价比到底怎么样?邮箱打不开怎么办我的邮箱打不开怎么办1433端口如何打开SQL1433端口arm开发板arm开发板是干什么用的,是用在什么领域方面的蘑菇街美丽说蘑菇街美丽说唯品会天猫京东。女生买衣服,哪个好lockdowndios8.1能用gpp3to2吗?型号A1429bt封杀现在是全面封杀BT下载了吗?现在都找不到BT下载影片了机械键盘轴打游戏用机械键盘到底什么轴好?电子商务网站模板做电子商务网站用什么cms或者模版比较好?小米手柄小米手柄怎么用?
虚拟主机是什么 域名服务器上存放着internet主机的 仿牌空间 linode 2014年感恩节 腾讯云数据库 ev证书 免费ddos防火墙 牛人与腾讯客服对话 本网站在美国维护 刀片服务器的优势 东莞数据中心 hkt 香港新世界中心 空间登陆首页 网购分享 实惠 xuni 徐州电信 七十九刀 更多