汉语基于Systran的翻译本地化难点概述

systran  时间:2021-01-28  阅读:()

基于Systran的翻译本地化难点概述

摘要 由于汉语与英语有不同的特点导致机器翻译时把汉语当做源语言要比把英语当做源语言要困难得多。本文试图从汉英机器翻译的角度探讨汉语自动分析的难点包括词法分析、句法分析和汉英转换中的难点。

关键词 计算机翻译Systran词语切分未登录词

在我国外汉机器翻译系统特别是英汉机器翻译系统的研制已经取得较大的成功达到初步实用的水平并且推出不少实用系统如“译星”、“汉神”、 “通译”等。但汉外机器翻译特别是汉英机器翻译的研究却进展缓慢离实用化还有一定的距离。例如要把英文句子“We should do ourutmost to achieve our goalin life. ”翻译为中文机器一般可以翻译得较为准确但是要把汉语句子“他踢坏了三双鞋。”翻译为英文机器有的翻译为“He plays three pairs of evil shoes. ”有的翻译为“Hekicked three pairs of shoes bad. ”还有的翻译为“Him kick spoil 3pairs of shoes. ”。这些软件翻译的问题主要存在于词法、句法和语法几个方面。

1.词法分析的难点

1. 1词语切分

汉语的书面形式是字与字之间的连续书写词与词之间没有自然的界限 因此汉语的自然语言理解首先要解决词的自动切分问题而词的自

动切分中交集型歧义和组合型歧义是不可避免的。即使把交集型歧义和组合型歧义解决得比较好要把汉语的自动切词正确率提高到99%也是一个相当困难的事情。而且汉语的自动切词正确率即使达到99%对于机器翻译来说也是不够的。因为机器翻译系统不是以词为单位的一般是以句子为单位进行处理的这样一个句子只要有一处切词错误整个句子就很有可能面目全非。

1.2未登录词

未登录词指没有被分词词表收录的词语包括人名、地名、机构名等专有名词和新出现的词语。未登录词是不可穷尽登录的如人名、地名几乎可以看成是无限的新词也是不断产生的。未登录词包括专名和非专名两大类专名包括人名、地名等非专名包括新词、简称、行业用语、部分习语、俗语等等。未登录词不仅在汉语中存在英语中也存在未登录词不过英语中的未登录专名名词有形式标志其首字母是大写的但汉语中的未登录词不仅没有形式标注而且组成汉语未登录词的汉字可能本身又是汉语词也就是说汉语的未登录词容易与普通词语混淆。

1.3词表

英语中的词是基本确定的汉语中的词却很难确定或者说汉语中的词没有一个统一的标准。词是最小的能够独立运用的语法单位语素是最小的语音语义结合体短语是词与词按照一定语法规则构成的语法单位。词和语素、短语是不同层次和不同性质的语法单位但由于汉语中的词和自由语素、短语都能单说或单用 因此要分清词、语素和短语比较麻烦。举一个例子 “肉”是一个词 “猪肉”、 “鸡肉”、 “狗肉”倾向于是一个词

“海豹肉”、 “海豚肉”倾向于是一个短语 “果子狸肉”、 “猫头鹰肉”就更倾向于是一个短语。可以看出汉语的词的确认是一个比较困难的事情这是迄今为止国内还没有一个统一的供机器使用的词表的原因而词表是自然语言处理的基础机器翻译中绝大多数知识和规则都依赖于词表而建立这样就加大了汉语自动分析的难度。

2.句法分析的难点

2. 1核心动词的分析

对于句法分析而言抓住谓语中心词就意味着这个句子有可能分析准确如果连谓语中心词都找错了就意味着这个句子不可能分析准确。例如“王先生邀请她一起开车出去玩。”对这个句子进行分词、词性标注等预处理后得到王/n先生/n邀请/v她/r一起/d开21.720.9车/v出去/v玩/v。然而其中有可能充当谓语中心词的有 “邀请”、 “开车”、 “出去”、“玩”。 由于汉语属于分析语言缺乏明显的形态标记在这些词中选出一个正确的谓语中心词是一个非常复杂的问题。

2.2特殊结构的处理

汉语中的某些特殊结构是汉译英系统较为棘手的问题包括连动式、兼语式、受事主语句、主谓谓语句、名词谓语句、动补式等。连动式由若干个动词或动词短语相互连接没有明显的形式标志机器往往难于确定其中的主要动词如果主要动词的判定有误整个结构的分析必定失败。

2.3标点符号的影响

现有的机器翻译系统一般都是以句子为单位进行翻译的但是要确认汉语的句子却不是一件简单的事情。汉语“句子”的随意性太大短的可

以只有一个词独词句或一个短语长的句子可以是一个复句甚至可以是一个段落。这样 当遇到一个特别长的汉语句子时如果作为一个整体处理往往会带来巨大的时空开销而且这样做增加了分析的难度而分成几个小句来处理又难以准确地断句。也就是说汉语由于没有形态变化导致从句和分句没有明显的差异。

3.转换过程中的难点

由于汉语是一种缺乏严格意义上形态变化的语言而英语却有形态变化 因此汉英机器翻译中汉语转换为英语的过程存在多种“从无到有”的选择。以下是在汉英机器翻译中遇到的最常见的几种比较难解决的转换问题。

3. 1冠词问题

汉语没有冠词英语的名词或名词短语往往要加上冠词冠词又分为零冠词、定冠词和不定冠词三种情况。这样从汉语的“无”冠词到英语的“有”冠词翻译时需要确认究竟是零冠词还是定冠词或不定冠词。

3.2单复数问题

汉语的名词或名词短语没有单复数形式只有“们”等后缀可以勉强充当形式标志但英语的名词或名词短语却存在单复数。这样从汉语的“无”单复数到英语的“有”单复数翻译时需要确认究竟把汉语中的名词或名词短语翻译为英语中的单数还是复数。

3.3时态问题

汉语没有时态只有一些可以有助于显示时态的助词如“着”、“了”、“过”、副词如“将要”、 “马上”、 “正在”和时间名词如“现在”、

“从前”、 “目前”等不过这些标志词语并不是严格意义上的时态标记如“了”有时翻译为过去时有时翻译为完成时、过去完成时有时甚至不表示任何时态英语动词却有时态这样从汉语的“无”明显时态到英语的“有”时态翻译时要确认究竟把汉语中的动词或动词短语翻译为英语中的现在时、过去时还是将来时。

2.4.4语式问题

语式是表示句子的语气或情态的语法范畴一般通过动词的形态变化区分陈述式、命令式、虚拟式、愿望式等。汉语没有语式英语中表示与事实相反的假设或个人主观愿望时要使用虚拟式。这样从汉语的“无”明显语式到英语的“有”语式翻译时需要确认究竟把汉语翻译为英语中的陈述式还是虚拟式。

4.结语

从上面的分析可以看出不管是词法分析、句法分析还是源语言向目标语言的转换把汉语译为英语都存在“从无到有”的困难。正是因为在汉英机器翻译中除了一般机器翻译如英汉机器翻译都存在的一些困难如一词多义、结构歧义、语义歧义、语境因素等之外还存在这些“从无到有”的困难这些特殊的困难几乎分布于翻译的各个阶段导致机器翻译中把汉语当做源语言要比把英语当做源语言要困难得多。

参考文献

[1]刘群俞士汶.汉英机器翻译的难点分析.载黄昌宁主编. 1998中文信息处理国际会议论文集.清华大学出版社 1998.

[2]常宝宝刘颖刘群.汉英机器翻译中的冠词处理研究.中文信息

学报 1998 3 .

本文为安康学院AYQDRW201216项目成果。

Hostodo(年付12美元),美西斯波坎机房Linux VPS主机66折

Hostodo 商家是比较小众的国外VPS主机商,这不看到商家有推送促销优惠在美国西岸的斯波坎机房还有少部分库存准备通过低价格促销,年付低至12美元Linux VPS主机,且如果是1GB内存方案的可以享受六六折优惠,均是采用KVM架构,且可以支付宝付款。第一、商家优惠码优惠码:spokanessd 1GB+内存方案才可以用到优惠码,其他都是固定的优惠低至年12美元。第二、商家促销这里,我们可以看到...

域名注册需要哪些条件(新手注册域名考虑的问题)

今天下午遇到一个网友聊到他昨天新注册的一个域名,今天在去使用的时候发现域名居然不见。开始怀疑他昨天是否付款扣费,以及是否有实名认证过,毕竟我们在国内域名注册平台注册域名是需要实名认证的,大概3-5天内如果不验证那是不可以使用的。但是如果注册完毕的域名找不到那也是奇怪。同时我也有怀疑他是不是忘记记错账户。毕竟我们有很多朋友在某个商家注册很多账户,有时候自己都忘记是用哪个账户的。但是我们去找账户也不办...

美国G口/香港CTG/美国T级超防云/物理机/CDN大促销 1核 1G 24元/月

[六一云迎国庆]转盘活动实物礼品美国G口/香港CTG/美国T级超防云/物理机/CDN大促销六一云 成立于2018年,归属于西安六一网络科技有限公司,是一家国内正规持有IDC ISP CDN IRCS电信经营许可证书的老牌商家。大陆持证公司受大陆各部门监管不好用支持退款退现,再也不怕被割韭菜了!主要业务有:国内高防云,美国高防云,美国cera大带宽,香港CTG,香港沙田CN2,海外站群服务,物理机,...

systran为你推荐
马云卸任软银董事马云已经卸任了阿里巴巴,那么他接下来的身份是什么?锦天城和君合哪个好记忆棉和乳胶哪个好苹果x和xr哪个好苹果x和xr哪个好?有何区别?电脑杀毒软件哪个好电脑什么杀毒软件最好迈腾和帕萨特哪个好新帕萨特和新迈腾哪个好?985和211哪个好高校是985一般专业还是211好专业?手动挡和自动挡哪个好手动档与自动档哪个好?游戏盒子哪个好游戏盒子哪个好?尼康和佳能单反哪个好佳能和尼康哪个好美国国际集团美国AIG股票,值得长远投资吗??
到期域名查询 x3220 edgecast hawkhost优惠码 云图标 789电视 免费美国空间 七夕快乐英语 raid10 申请网站 smtp服务器地址 net空间 数据库空间 免费网络 双线空间 国外免费云空间 汤博乐 湖南铁通 ncp cpu使用率过高怎么办 更多