中文信息处理Project:0124120杜浩January16,2005摘摘摘要要要本文提出一种自动生成英汉词典的方法.
该方法基于已对齐的双语语料库,针对查询英文单词,枚举其可能的中文释义,从中挖掘与该查询英文单词共生频率高,但自身衍生频率低的中文释义,生成词典.
本方法在《圣经恢复本-中英对照版》语料库上实验,成功提取了5668单词的中文释义,并达到了1级释义正确率60%和4级释义的正确率88%的评估结果.
1引引引言言言英汉词典,作为沟通中文和英语两种不同语言之间的桥梁,为中国与世界的交流做出了巨大贡献.
它的编制和生产已经产品化.
英汉词典编制的基础是中英文对于同一事物的两种不同表达.
设想世界上第一本英汉词典的编制,由一个即懂中文又懂英文,但不知道中英文单词对应关系的人,经过长期对两种语言的学习、对比,他总结出对应的规律,发现在表达有关铅笔的时候,例如"Thereisapencilonthedesk.
"、"Ihaveapencil.
"、"Thepencilisbeautiful.
",都含有"pencil"这一词.
于是得出结论,"pencil"很可能指得就是"铅笔".
于是,将这一对应关系写下来,作为词典中的一个词条.
无论是印刷版词典,或是当今广为使用的类似"金山词霸"这样的电子词典,目前为止都是人工编制的.
人经过对中英文的对比、总结,慢慢的发现词条之间的对应关系.
人工智能领域研究和发展的今天,我们可以尝试用计算机来做这一件事.
这可以看作机器翻译[1]的逆过程(一些早期的机器翻译算法,根据词典生成译文.
而本文是根据双语对照的译文,生成词典).
这一工作的基础,是大量的双语对齐语料库,用来给计算机"学习",恰好类似于第一个编英汉词典的人也需要学习大量对于同一事1物的双语表达.
引文[2]提出一种实现方案,在其实现步骤中,需要完成中文分词、释义词典过滤.
然而,中文分词需要用到汉语词典,与此同时并不是语言中所有的词出现在词典中,音译英文姓名、地名往往不存在汉语词典中,分词的结果会使这些词的翻译不准确.
另一方面,我们不妨假定词典生成这一工作从头做起,而不使用部分已释义的"释义词典".
本文给出一个行之有效的统计方法,自动生成英法词典.
此方法仅依赖对齐的双语语库,而不采用其它资源,在《圣经恢复本-中英文对照版》上取得良好的实验结果.
2英英英汉汉汉词词词典典典自自自动动动生生生成成成方方方法法法在这一节里,提出一种基于中英文对齐语料库的英汉词典自动生成的方法.
基于这样一个原始的思想:给出英文单词,在双语语料库中查出所有包含该词的句,从这些句的中文翻译中,寻找高频出现的公共词语,另一方面,从中取出在整个语料库中低频出现的,这些词语与该英文单词共生共灭,它们有较大的概率成为该单词的中文释义.
2.
1给给给定定定英英英文文文单单单词词词,,,挖挖挖掘掘掘中中中文文文翻翻翻译译译在叙述这一过程之前,我们假定对齐的双语语料库已采集好,共有n句,用集合M表示,M={(E1,C1),(E2,C2)En,Cn)}(1)其中(Ei,Ci)表示一句英文Ei对应它的中文句Ci.
给定查询单词w,第一步操作是创建候选释义集.
例如给出查询单词"China",认为它的可能的中文释义"中国"一定出现在包含"China"的那些句子的中文翻译里,于是,先采集出这些句.
令W是英文句中包含w的句集合,W={(E,C)|w∈E∧(E,C)∈M}(2)2显然,W∈M(3)下一步是从候选句中枚举所有的候选中文词.
如果一句中文包含m个汉字,如果认为中文词可以任意长,则可以从这一句中搜取出m(m+1)/2个不同位置和长度的子串.
由于O(m2)的中文词量,数据量过大,另一方面,根据我们平常的经验,在词典中出现的常用中文词长度不会太长,于是可以做一点假设,设定阈值k为候选中文词的最大长度.
给定一个中文句,将长度小于等于k的中文词枚举出来,做进一步考虑.
记fk(C)为枚举单句中文释义操作.
该操作将一个中文句C中一切长度分别为1,2,3,.
.
.
,k的中文子串截取,滤除包含标点符号的子串.
那么,对于英文单词w,其所有可能中文释义集合Fw定义为:Fw=(E,C)∈Wfk(C)(4)怎样从Fw中选出w的最可能的释义呢这里采取的方法是对每个词进行评分.
对于给定语料库M、给定英文查询词w、给定的候选中文释义c,定义:基频数nw:查询英文单词w在M的出现次数,基频数用来作为评分的参考.
共生频数nw,c:候选中文释义c在W的出现次数.
衍生频数nc:候选中文释义c在M的出现次数.
分别定义共生概率p(c),衍生概率q(c):p(c)=nw,cnw(5)q(c)=ncnw,c(6)如上分析可知,p值高表明出现w的句也出现c的概率大;q值低表明不出现w的句出现c的概率小.
评分的动机是,p高且q低的单词,应该打高分.
下面举一例,可以帮助体会这一点:一个对齐语料库M(n较大),如果查询词w是"pencil",经过搜寻,所有包含"pencil"的句,也即W集合,在如下列出(共3句):(Thereisapencilonthedesk,桌子上面有一只铅笔)(Ihaveapencil,我有一只铅笔)3(Thepencilisbeautiful,这只铅笔很漂亮)针对英语查询pencil,基频数npencil=3.
作为举例,考虑候选中文词的其中四个:"桌"、"只"、"笔"、"铅笔".
共生概率计算得:p(桌)=1/3,p(只)=1,p(笔)=1,p(铅笔)=1.
由于"桌"的共生概率很低,不大可能是pencil的中文释义.
其余三个词,"只",在其它句中有可能出现"一只猫"、"一只狗",于是q(只)会比较大,同样,q(笔)较大;而q(铅笔)几乎能维持在1,因为一个句子中,英文不出现pencil而中文出现"铅笔"几乎没有可能.
如此,"铅笔"的共生概率大,衍生概率小,"铅笔"在这四个候选中译词中,更可能是pencil的释义.
这正是我们所期望的.
于是,采用一个简单有效的评分函数S(c)S(c)=p(c)q(c)=n2w,cnc·nw(7)将c∈Fw,分别应用于评分函数S(c),得分高者,成为中文释义.
2.
2候候候选选选释释释义义义集集集的的的规规规模模模及及及其其其动动动态态态控控控制制制上述过程直接操作,时间复杂度相当高,给定w,候选释义词的采样次数:t=nj=1ki=1(|Cj|i+1)(8)其中|Cj|表示中文句Cj的句长,对一个中等规模的对齐语料,n=10000,取k=30,假定avg(|Cj|)=30,则t=9,000,000,对如此大规模语料做索引、排序、Hash都是相当大的开销.
事实上,可以从两个方面可以大大减轻时间空间开销,而几乎不影响性能:一、中文常用词,词长不超过4,不妨取k=4.
二、对于共生频率很低的中文候选词,可以在早期移除.
对于一个给定的英文词,大量的无关候选词的共生频数很低,这些词在早期,枚举出来之后不久,就可以移除.
例如:w="plant",基频数nw=47,将它的1966个中文候选词,按共生频数nw,c排序,共生频数分布如图1(a)所示,可见,只有少数的词的共生频数较高.
图1(b)是图1(a)前100个中文候选词的放大图.
前56个词,及其共生频数如表1.
发现,plant的真实释义"载"、"种"、"栽种"的频数分别是39、26、20,都排在前20名.
而共生频数较小的例如nw,c=8的那些词,"果"、4(a)(b)Figure1:.
"果子"、"和"、"居"几乎与plant毫不相干了,以致排在后面1000多名的共生频数为1的那些候选词,可以忽略不计.
统计规律发现,所有英文词对应的候选中文词,其中八成的中文候选词,共生频数都是1、2,而高共生频数的候选词相当少.
如果假定一个英文单词有两个不同的主要释义,例如,plant有"栽"和"种"两个意思,如果plant有nw=47次出现,其中有30将翻译成为"栽",17次翻译成为"种",则对于那些共生频数nw,c=L的英文词为有效词,作为词典元素,将其它词略去.
按照对每个有效词c的候选中文释义的评分S(c),取中文释义的高分者,生成词典.
在词典中,附加释义和释义的评分值,评分值一定程度上能反映同一英文单词各个释义的使用频率.
3实实实验验验及及及结结结果果果本节为上文提出方法在真实语料库上的实测结果,包括语料库选取、参数设定、抽样评估、生成词典评估四个部分.
3.
1语语语料料料库库库选选选取取取实验所用的中英双语对齐的语料库是《圣经恢复本》[3].
该语料库规模较大,中英对齐的互译句共有31090句.
中英文对齐良好,翻译质量较高,翻译风格前后统一,语料库示意句如下:.
.
.
.
.
.
6第99句:AndLamechtooktwowivesforhimself:ThenameoftherstwasAdah,andthenameofthesecondZillah.
第99句:拉麦娶了两个妻子,一个名叫亚大,另一个名叫洗拉.
第18910句:Andtheywillbuildhousesandinhabitthem,Andtheywillplantvineyardsandeattheirfruit.
第18910句:他们要建造房屋,居住其中;栽种葡萄园,吃其中的果子.
.
.
.
.
.
.
下面是语料库准备的细节,流程图如图2所示.
首先下载圣经恢复本双语对照版,是微软.
chm电子书格式,该格式可以视为一个整合的网站,需要折分.
"章节折分"操作将一个.
chm文件,折分成可阅读的标准网页.
html格式,这一步使用chm2web,结果将每一页分为一个独立的.
htm,每个之中大约包含50句对照.
接下来"句对抽取"自行分析.
htm格式,得出标准文本文件.
Figure2:.
另外,电影的中英文对照字幕,也可作为可用的大规模双语对齐语料库.
3.
2参参参数数数设设设定定定观察到中文词常用词以二、三、四字词为多,而此《圣经恢复本》中,成语使用不多,基中常用词以二、三字居多.
设k=3.
候选中文词上界rmax=5000和常界rnormal=3000,以保证在枚举候选词过程中,rnormal覆盖有效候选词,使其不因为共生概率而剔除,另外时间空间又可以接受.
词典生成过程中,基频数下界L=5,成功加入自动生成的词典中的英文词有5668词,每个词取得分最高的4个词义及其得分写入词典文件Dict.
TXT.
73.
3抽抽抽样样样翻翻翻译译译评评评估估估实验过程中,对给定的英文单词,所采用的评分函数S(c)对正确词义的区分度如何呢随机抽取1个单词peter,得分较高的候选中文释义如图3所示:由此可见Figure3:.
对于"Peter"一词,正确词义"彼得"得分最高,其它词义得分与它有一定差距.
对于"Peter"的自动翻译准确.
同样,随机抽取其它词,也可做出类似的评估,这里随机列举一些,详请参见生成词典文件Dict.
TXT.
Table3:生成词典随机抽样aectionatelyarmybirthprudent热切的0.
5军0.
214638出生0.
132031精明0.
425676切的和0.
375的军0.
148514出生地0.
125精明的0.
321429即到耶0.
25军队0.
129253生地0.
125精明人0.
228571的和祂0.
25军兵0.
123862生产0.
105263精0.
153.
4生生生成成成词词词典典典评评评估估估对本文所述自动生成词典方法在《圣经恢复本》中英双语对齐语料上的实验性能做评估.
人工评估有一定的主观性,在此对本文评判符合"中文释义中包含其真正正8确词义"的标准做一说明:译文不会被误解,则认为正确翻译.
例如,认为正确翻译的:wither枯wither枯干wither枯干了voice声voice声音voice的声音认为不正确翻译的:under日光之;(词义毫不相干)wither河枯;(多了名词"词"的意思)thunders听见雷;(多了动词"听"的意思)由《圣经恢复本》生成的词典含英文词5668词,每个词按照评分取高分的四个词义.
定义"自动生成的词典的r级翻译正确率":任取一个英文单词,其得分最高的r个中文释义中包含其真正正确词义的概率.
最近主机参考拿到了一台恒创科技的美国VPS云服务器测试机器,那具体恒创科技美国云服务器性能到底怎么样呢?主机参考进行了一番VPS测评,大家可以参考一下,总体来说还是非常不错的,是值得购买的。非常适用于稳定建站业务需求。恒创科技服务器怎么样?恒创科技服务器好不好?henghost怎么样?henghost值不值得购买?SonderCloud服务器好不好?恒创科技henghost值不值得购买?恒创科技是...
A2Hosting主机,A2Hosting怎么样?A2Hosting是UK2集团下属公司,成立于2003年的老牌国外主机商,产品包括虚拟主机、VPS和独立服务器等,数据中心提供包括美国、新加坡softlayer和荷兰三个地区机房。A2Hosting在国外是一家非常大非常有名气的终合型主机商,拥有几百万的客户,非常值得信赖,国外主机论坛对它家的虚拟主机评价非常不错,当前,A2Hosting主机庆祝1...
六一云 成立于2018年,归属于西安六一网络科技有限公司,是一家国内正规持有IDC ISP CDN IRCS电信经营许可证书的老牌商家。大陆持证公司受大陆各部门监管不好用支持退款退现,再也不怕被割韭菜了!主要业务有:国内高防云,美国高防云,美国cera大带宽,香港CTG,香港沙田CN2,海外站群服务,物理机,宿母鸡等,另外也诚招代理欢迎咨询。官网www.61cloud.net最新直销劲爆...