分词计算机科学与技术毕业论文——汉语分词技术分析

分词技术  时间:2021-02-09  阅读:()

兰州商学院

本科生毕业论文设计

论文设计题目 汉语分词技术初探学 院、 系 信息工程学院计算机科学与技术系专 业(方 向)  计算机科学与技术

201 1年5月18日

声 明

本人郑重声明所呈交的毕业论文设计是本人在导师的指导下取得的成果。对本论文设计的研究做出重要贡献的个人和集体均已在文中以明确方式标明。 因本毕业论文设计引起的法律结果完全由本人承担。

本毕业论文设计成果归兰州商学院所有。

特此声明

毕业论文设计作者签名

年 月 日

汉语分词技术初探

摘 要

所谓汉语分词就是将中文语句中的词汇切分出来的过程。 由于汉语的书写习惯汉语语句中词与词之间的标志是隐含的英文的单词与单词之间有空格所以不存在分词问题。而中文的每一句中词与词之问是没有空格的 因而必须采用某种技术将其分开。

分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微但作为计算机自然语言处理的第一步它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。

本文讨论了中文分词的概念、 目标及其所面临的一些基本问题详细介绍了三种基本中文分词算法并对中文分词词典的索引及常用词典结构进行了介绍最后说了正向最大算法的实现及测试结果。

[关键词]中文分词最大匹配 分词词典 自然语言处理

I

ABSTRACT

Chinese word segmentation  is to cut the sentence in the Vocabulary sub —out process  Sincethe writing habits of Chinese  Chinese sentence symbol between words is impl ied  the Engl ishwords have the spaces between the words  So there is easy to separate  The Chinese word foreach sentence  there is no space between words  and therefore must be some kind of technologyto separate sentence  Chinese sentence segmentation algorithm from the 20th century  since the

80’ Shas been a research focus  due to the complexity of the Chinese language has been in astage of development 

Segmentation of natural language processing technology as the basic l ink  but also one of the keyl inks  and its direct impact on the qual ity of the subsequent processing steps results  Chineseword segmentation the first step in natural language processing  and its importance can not beignored 

[Key Words]Chinese Word Segmentation  Maximum match  Segmentation Dictionary 

Chinese Information Processing

I I

目 录

一、引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

二、 中文分词简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

一中文分词的概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

1 、什么是中文分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

2、 中文分词的应用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

二中文分词的目标. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5

1 、准确性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

2、运行效率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

3、通用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

4、适用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

三中文分词的基本问题. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

1 、分词规范. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8

2、歧义识别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

3、未登录词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 1

三、基本中文分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

一中文分词算法介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

1 、基于字符串匹配的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

2、基于理解的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

3、基于统计的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

二根据具体应用使用合适的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

1 、混合分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

2、基于字的切分法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

四、 中文分词词典. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

一词典的索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

1 、 Hash索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

2、 Trie树. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

二常用词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

1 、有序线性词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

2、基于整词二分的分词词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

3、基于TRIE索引树的分词词典机制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20

五、正向最大匹配算法的实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

一正向最大匹配算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

二采用正向最大算法的分词程序设计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24

六、结论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35

参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36

致 谢. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

I I I

汉语分词技术初探

一、引言

在自然语言处理中词是最小的能够独立活动的有意义的语言成分。我们知道在英文文本中单词之间是以空格作为自然分界符的。 中文和英文比起来有其自身的特点就是中文以字为基本书写单位句子和段落通过分界符来划界但是词语之间没有一个形式上分界符。也就是说从形式上看 中文没有“词”这个单位。

因此进行中文的自然语言处理通常都是先将中文文本中的字序列切分为合理的词序列然后再在此基础上进行其它分析处理。将中文连续的字序列按照一定的规则重新组合成词序列的过程就叫做中文分词。

作为中文信息处理基础的中文分词技术 己经被广泛应用于中文信息领域的信息检索、 自动摘要、 中文校对、汉字的智能输入、汉字简繁体转换、机器翻译、语音合成等技术中。 自 20世纪80年代初 中文信息处理领域提出自动分词以来相关方面的众多专家学者、科研院所、业机构为之付出了不懈的努力取得了一些重要的进展和一些实用性的成果提出了许多中文分词方法有些成熟的技术已经应用于产品当中。但这些分词方法或多或少都存在着不足之处 比如对于检索系统 由于近年来信息的多元化、复杂化对信息处理技术的研究、发展、应用提出了新的挑战跨越了单纯文本的检索例如问答系统必须对关键字进行语义分析与处理。这就要求信息处理技术必须跟上信息发展的速度在速度与性能方面具备更高的指标。

要让计算机能够自动地处理信息就必须借助分词技术让计算机理解自

1

然语言。分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。其中 中文分词由于中文结构的特点与西方国家文字相比更难于处理。汉语的词汇与词汇之间没有显式的边界汉语的分词需要通过计算机对文字内容的分析来达到切分词汇的目的。 中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统 [2]的准确率和工作效率 才能使自然语言处理系统稳定高效地工作。

本文的主要目标是通过对目前中文分词关键技术的研究设计并实现最大正向匹配算法。本文的主要研究内容为

(1)分析了当前中文分词的研究背景介绍了中文分词的研究意义。

(2)对中文分词技术进行了简介简单介绍了中文分词、 中文分词的应用、 中文分词系统的目标、 中文分词的基本问题。

(3)研究了三类基本的分词算法基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法。举例说明了实际应用中如何使用合适的分词算法。

(4)介绍了目前中文分词技术中常用的索引方法和词典机制。

(5)对正向最大匹配算法进行了实现与测试。

相对于研究内容本文的结构安排为

第一章 引言。本章首先介绍了本文的研究背景和研究意义然后介绍了本文的主要工作和论文的结构安排。

第二章中文分词简介。本章首先介绍了中文分词的基本概念、 中文分词的应用接着介绍了中文分词系统的目标、 中文分词的基本问题等。

2

第三章基本中文分词算法。本章首先介绍了常用的中文分词算法包括基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法然后举例说明了实际应用中如何使用合适的分词算法。

第四章中文分词词典。本章首先介绍了中文分词技术中的索引方法然后又介绍了目前中文分词技术中常用的词典机制。

第五章 正向最大匹配算法的实现。本章根据正向最大匹配算法的流程编写了采用正向最大匹配算法的分词程序并对程序进行介绍和测试。

第六章结论。此部分总结论文的所有工作分析论文中存在的不足和一些未解决的问题。

二、 中文分词简介

中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓分词就是把一个句子中的词汇按照使用时的意义切分出来。

一中文分词的概念

将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词 中文分词就是把中文的汉字序列分成有意义的词。分词只是中文信息处理的一部分分词本身并不是目的而是后续处理过程的必要阶段是中文信息处理的基础技术。

1 、什么是中文分词

分词就是利用计算机识别出文本中词汇的过程。在英文中词汇之间一般会有空格等比较明显的分隔符。而中文中是以字为基本书写单位只有段与段、句语句之间有分隔符而词汇之间没有分隔符。所以虽然

3

在英语中也存在分词问题但远没有中文分词那么复杂苦难。

比如 The table tennis bat is sold out 。 中文意思就是乒乓球拍卖完了。对于通过空格和标点来切分的英语例句一般不会产生歧义。但是在中文中“乒乓球拍卖完了”则因为乒乓球和乒乓球拍、卖与拍卖都是

词语而又没有明显分隔而产生了 “乒乓球/拍卖/完了”和“乒乓球拍/卖/完了”两种完全不同的意义。所以要让计算机完成上述过程相对于英语难度有质的不同。

中文分词的过程就是要把一句话中有意义的词汇都切分出来并给出所有正确结果。 由于中文词汇中间是有分隔符的所以对中文词组的正确识别就显得很重要。词是汉语中最小的有意义的独立单位但是这最小的单位却是没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互就必须让计算机能理解自然语言。只有当汉字串组成的句子被准确地转化为词之后才能继续进一步工作。 比如一个中英翻译系统如果连词汇都不能正确切分翻译得到的英文是不可能符合原义的。

2、 中文分词的应用

互联网绝大部分需要分词其中典型的实例有

1 汉字处理。这方面主要包括拼音输入法、 手写识别、简繁转换等。

2信息检索。如 Google、 Baidu 、 Yahoo等检索工具。

雅虎中文网页搜索技术部总监张勤认为 中文分词是中文搜索技术的基础只有做好了分词才能有好的搜索。可见掌握了优秀的分词技术就可以在中文搜索中占有一席之地。

众多优秀的搜索引擎都有自己的分词技术。如雅虎、百度都是使用

4

JustHost,最新高性价比超便宜俄罗斯CN2 VPS云服务器终身8折优惠,最低仅8元/月起,200Mbps带宽不限流量,五大机房自助自由切换,免费更换IP,俄罗斯cn2vps怎么样,justhost云服务器速度及综合性能详细测评报告

主机参考最新消息:JustHost怎么样?JustHost服务器好不好?JustHost好不好?JustHost是一家成立于2006年的俄罗斯服务器提供商,支持支付宝付款,服务器价格便宜,200Mbps大带宽不限流量,支持免费更换5次IP,支持控制面板自由切换机房,目前JustHost有俄罗斯5个机房可以自由切换选择,最重要的还是价格真的特别便宜,最低只需要87卢布/月,约8.5元/月起!just...

酷番云-618云上秒杀,香港1核2M 29/月,高防服务器20M 147/月 50M 450/月,续费同价!

官方网站:点击访问酷番云官网活动方案:优惠方案一(限时秒杀专场)有需要海外的可以看看,比较划算29月,建议年付划算,月付续费不同价,这个专区。国内节点可以看看,性能高IO为主, 比较少见。平常一般就100IO 左右。优惠方案二(高防专场)高防专区主要以高防为主,节点有宿迁,绍兴,成都,宁波等,节点挺多,都支持防火墙自助控制。续费同价以下专场。 优惠方案三(精选物理机)西南地区节点比较划算,赠送5...

快云科技:夏季大促销,香港VPS7.5折特惠,CN2 GIA线路; 年付仅不到五折巨惠,续费永久同价

快云科技怎么样?快云科技是一家成立于2020年的新起国内主机商,资质齐全 持有IDC ICP ISP等正规商家。我们秉承着服务于客户服务于大众的理念运营,机器线路优价格低。目前已注册用户达到5000+!主营产品有:香港弹性云服务器,美国vps和日本vps,香港物理机,国内高防物理机以及美国日本高防物理机!产品特色:全配置均20M带宽,架构采用KVM虚拟化技术,全盘SSD硬盘,RAID10阵列, 国...

分词技术为你推荐
暴风影音怎么截图暴风影音怎么截屏啊?伪静态伪静态和真静态哪种静态方式好ps抠图技巧请教PS抠图技巧!!!办公协同软件求一款国内知名的OA办公软件,谁知道有哪些呢?中小企业信息化中小企业如何进行企业信息化规划vbscript教程请教一下高手们,这个VBS脚本难不难啊,我想学学这个,但是又不知道该从哪入手,希望高手指点指点??迅雷云点播账号求一个迅雷云点播vip的账号,只是看的,绝不动任何手脚。免费免费建站电脑上有真正免费的网站吗??怎么上传音乐怎样可以上传本地音乐到网上?发邮件怎么发发邮件怎么发?
中国十大域名注册商 万网域名空间 代理域名备案 winhost 国外服务器 国内永久免费云服务器 2014年感恩节 外国空间 网通服务器ip qq数据库 ibrs 湖南服务器托管 linux空间 nerds 东莞服务器 怎么建立邮箱 常州联通宽带 in域名 彩虹云 双线asp空间 更多