分词计算机科学与技术毕业论文——汉语分词技术分析

分词技术  时间:2021-02-09  阅读:()

兰州商学院

本科生毕业论文设计

论文设计题目 汉语分词技术初探学 院、 系 信息工程学院计算机科学与技术系专 业(方 向)  计算机科学与技术

201 1年5月18日

声 明

本人郑重声明所呈交的毕业论文设计是本人在导师的指导下取得的成果。对本论文设计的研究做出重要贡献的个人和集体均已在文中以明确方式标明。 因本毕业论文设计引起的法律结果完全由本人承担。

本毕业论文设计成果归兰州商学院所有。

特此声明

毕业论文设计作者签名

年 月 日

汉语分词技术初探

摘 要

所谓汉语分词就是将中文语句中的词汇切分出来的过程。 由于汉语的书写习惯汉语语句中词与词之间的标志是隐含的英文的单词与单词之间有空格所以不存在分词问题。而中文的每一句中词与词之问是没有空格的 因而必须采用某种技术将其分开。

分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微但作为计算机自然语言处理的第一步它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。

本文讨论了中文分词的概念、 目标及其所面临的一些基本问题详细介绍了三种基本中文分词算法并对中文分词词典的索引及常用词典结构进行了介绍最后说了正向最大算法的实现及测试结果。

[关键词]中文分词最大匹配 分词词典 自然语言处理

I

ABSTRACT

Chinese word segmentation  is to cut the sentence in the Vocabulary sub —out process  Sincethe writing habits of Chinese  Chinese sentence symbol between words is impl ied  the Engl ishwords have the spaces between the words  So there is easy to separate  The Chinese word foreach sentence  there is no space between words  and therefore must be some kind of technologyto separate sentence  Chinese sentence segmentation algorithm from the 20th century  since the

80’ Shas been a research focus  due to the complexity of the Chinese language has been in astage of development 

Segmentation of natural language processing technology as the basic l ink  but also one of the keyl inks  and its direct impact on the qual ity of the subsequent processing steps results  Chineseword segmentation the first step in natural language processing  and its importance can not beignored 

[Key Words]Chinese Word Segmentation  Maximum match  Segmentation Dictionary 

Chinese Information Processing

I I

目 录

一、引言. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1

二、 中文分词简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

一中文分词的概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

1 、什么是中文分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

2、 中文分词的应用. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4

二中文分词的目标. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5

1 、准确性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

2、运行效率. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

3、通用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6

4、适用性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

三中文分词的基本问题. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7

1 、分词规范. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8

2、歧义识别. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10

3、未登录词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 1

三、基本中文分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

一中文分词算法介绍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

1 、基于字符串匹配的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .12

2、基于理解的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

3、基于统计的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

二根据具体应用使用合适的分词算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

1 、混合分词. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

2、基于字的切分法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

四、 中文分词词典. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .17

一词典的索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

1 、 Hash索引. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

2、 Trie树. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18

二常用词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

1 、有序线性词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

2、基于整词二分的分词词典结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

3、基于TRIE索引树的分词词典机制. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .20

五、正向最大匹配算法的实现. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

一正向最大匹配算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .21

二采用正向最大算法的分词程序设计. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24

六、结论. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .35

参考文献. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .36

致 谢. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .37

I I I

汉语分词技术初探

一、引言

在自然语言处理中词是最小的能够独立活动的有意义的语言成分。我们知道在英文文本中单词之间是以空格作为自然分界符的。 中文和英文比起来有其自身的特点就是中文以字为基本书写单位句子和段落通过分界符来划界但是词语之间没有一个形式上分界符。也就是说从形式上看 中文没有“词”这个单位。

因此进行中文的自然语言处理通常都是先将中文文本中的字序列切分为合理的词序列然后再在此基础上进行其它分析处理。将中文连续的字序列按照一定的规则重新组合成词序列的过程就叫做中文分词。

作为中文信息处理基础的中文分词技术 己经被广泛应用于中文信息领域的信息检索、 自动摘要、 中文校对、汉字的智能输入、汉字简繁体转换、机器翻译、语音合成等技术中。 自 20世纪80年代初 中文信息处理领域提出自动分词以来相关方面的众多专家学者、科研院所、业机构为之付出了不懈的努力取得了一些重要的进展和一些实用性的成果提出了许多中文分词方法有些成熟的技术已经应用于产品当中。但这些分词方法或多或少都存在着不足之处 比如对于检索系统 由于近年来信息的多元化、复杂化对信息处理技术的研究、发展、应用提出了新的挑战跨越了单纯文本的检索例如问答系统必须对关键字进行语义分析与处理。这就要求信息处理技术必须跟上信息发展的速度在速度与性能方面具备更高的指标。

要让计算机能够自动地处理信息就必须借助分词技术让计算机理解自

1

然语言。分词技术作为自然语言处理的基础环节 同时也是关键环节之一它的质量好坏直接影响到后续处理步骤的效果。其中 中文分词由于中文结构的特点与西方国家文字相比更难于处理。汉语的词汇与词汇之间没有显式的边界汉语的分词需要通过计算机对文字内容的分析来达到切分词汇的目的。 中文分词已成为计算机处理汉语面临的首要基础性工作。只有提高中文分词系统 [2]的准确率和工作效率 才能使自然语言处理系统稳定高效地工作。

本文的主要目标是通过对目前中文分词关键技术的研究设计并实现最大正向匹配算法。本文的主要研究内容为

(1)分析了当前中文分词的研究背景介绍了中文分词的研究意义。

(2)对中文分词技术进行了简介简单介绍了中文分词、 中文分词的应用、 中文分词系统的目标、 中文分词的基本问题。

(3)研究了三类基本的分词算法基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法。举例说明了实际应用中如何使用合适的分词算法。

(4)介绍了目前中文分词技术中常用的索引方法和词典机制。

(5)对正向最大匹配算法进行了实现与测试。

相对于研究内容本文的结构安排为

第一章 引言。本章首先介绍了本文的研究背景和研究意义然后介绍了本文的主要工作和论文的结构安排。

第二章中文分词简介。本章首先介绍了中文分词的基本概念、 中文分词的应用接着介绍了中文分词系统的目标、 中文分词的基本问题等。

2

第三章基本中文分词算法。本章首先介绍了常用的中文分词算法包括基于字符串匹配的分词方法基于统计的分词方法基于知识理解的分词方法然后举例说明了实际应用中如何使用合适的分词算法。

第四章中文分词词典。本章首先介绍了中文分词技术中的索引方法然后又介绍了目前中文分词技术中常用的词典机制。

第五章 正向最大匹配算法的实现。本章根据正向最大匹配算法的流程编写了采用正向最大匹配算法的分词程序并对程序进行介绍和测试。

第六章结论。此部分总结论文的所有工作分析论文中存在的不足和一些未解决的问题。

二、 中文分词简介

中文分词是中文信息处理技术中最基础、最关键的一个环节。所谓分词就是把一个句子中的词汇按照使用时的意义切分出来。

一中文分词的概念

将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词 中文分词就是把中文的汉字序列分成有意义的词。分词只是中文信息处理的一部分分词本身并不是目的而是后续处理过程的必要阶段是中文信息处理的基础技术。

1 、什么是中文分词

分词就是利用计算机识别出文本中词汇的过程。在英文中词汇之间一般会有空格等比较明显的分隔符。而中文中是以字为基本书写单位只有段与段、句语句之间有分隔符而词汇之间没有分隔符。所以虽然

3

在英语中也存在分词问题但远没有中文分词那么复杂苦难。

比如 The table tennis bat is sold out 。 中文意思就是乒乓球拍卖完了。对于通过空格和标点来切分的英语例句一般不会产生歧义。但是在中文中“乒乓球拍卖完了”则因为乒乓球和乒乓球拍、卖与拍卖都是

词语而又没有明显分隔而产生了 “乒乓球/拍卖/完了”和“乒乓球拍/卖/完了”两种完全不同的意义。所以要让计算机完成上述过程相对于英语难度有质的不同。

中文分词的过程就是要把一句话中有意义的词汇都切分出来并给出所有正确结果。 由于中文词汇中间是有分隔符的所以对中文词组的正确识别就显得很重要。词是汉语中最小的有意义的独立单位但是这最小的单位却是没有显式分割的。若要使计算机与人类达到自由无障碍的语言交互就必须让计算机能理解自然语言。只有当汉字串组成的句子被准确地转化为词之后才能继续进一步工作。 比如一个中英翻译系统如果连词汇都不能正确切分翻译得到的英文是不可能符合原义的。

2、 中文分词的应用

互联网绝大部分需要分词其中典型的实例有

1 汉字处理。这方面主要包括拼音输入法、 手写识别、简繁转换等。

2信息检索。如 Google、 Baidu 、 Yahoo等检索工具。

雅虎中文网页搜索技术部总监张勤认为 中文分词是中文搜索技术的基础只有做好了分词才能有好的搜索。可见掌握了优秀的分词技术就可以在中文搜索中占有一席之地。

众多优秀的搜索引擎都有自己的分词技术。如雅虎、百度都是使用

4

云如故枣庄高防(49元)大内存2H2G49元8H8G109元

云如故是一家成立于2018年的国内企业IDC服务商,由山东云如故网络科技有限公司运营,IDC ICP ISP CDN VPN IRCS等证件齐全!合法运营销售,主要从事自营高防独立服务器、物理机、VPS、云服务器,虚拟主机等产品销售,适合高防稳定等需求的用户,可用于建站、游戏、商城、steam、APP、小程序、软件、资料存储等等各种个人及企业级用途。机房可封UDP 海外 支持策略定制 双层硬件(傲...

Hostigger不限流量VPS年20美元

Hostigger 主机商在前面的文章中也有介绍过几次,这个商家运营时间是有一些年份,只不过在我们圈内好像之前出现的次数不多。最近这段时间商家有提供不限流量的VPS主机,逐渐的慢慢被人认识到。在前面的介绍到他们提供的机房还是比较多的,比如土耳其、美国等。今天看到Hostigger 商家居然改动挺大的,原来蛮好的域名居然这次连带官方域名都更换掉去掉一个G(Hostiger )。估摸着这个域名也是之前...

简单测评v5.net的美国cn2云服务器:电信双程cn2+联通AS9929+移动直连

v5.net一直做独立服务器这块儿的,自从推出云服务器(VPS)以来站长一直还没有关注过,在网友的提醒下弄了个6G内存、2核、100G SSD的美国云服务器来写测评,主机测评给大家趟雷,让你知道v5.net的美国云服务器效果怎么样。本次测评数据仅供参考,有兴趣的还是亲自测试吧! 官方网站:https://v5.net/cloud.html 从显示来看CPU是e5-2660(2.2GHz主频),...

分词技术为你推荐
赵雨润《星辰变》电影什么时候能开机拍呢?如何免费开通黄钻怎么免费开通黄钻支付宝查询余额我的支付宝如何查询余额网站运营刚创业的网站运营怎么做?如何建立一个网站要建立一个网站怎么弄啊?保护气球气球保护液可以用什么来代替?雅虎天盾我机器上有瑞星杀毒和防火墙 我用雅虎天盾来查杀木马怎样?二层交换机请教:二层交换机是干什么用的啊?云挂机云软件挂机赚钱是骗子怎么上传音乐怎么上传音乐
美国网站空间 厦门域名注册 BWH 腾讯云数据库 http500内部服务器错误 一点优惠网 数字域名 七夕快乐英文 北京双线 双十一秒杀 美国免费空间 免费cdn metalink lick 国外网页代理 稳定空间 广州主机托管 服务器托管价格 免费赚q币 htaccess 更多