基于Systran的翻译本地化难点概述
摘要 由于汉语与英语有不同的特点导致机器翻译时把汉语当做源语言要比把英语当做源语言要困难得多。本文试图从汉英机器翻译的角度探讨汉语自动分析的难点包括词法分析、句法分析和汉英转换中的难点。
关键词 计算机翻译Systran词语切分未登录词
在我国外汉机器翻译系统特别是英汉机器翻译系统的研制已经取得较大的成功达到初步实用的水平并且推出不少实用系统如“译星”、“汉神”、 “通译”等。但汉外机器翻译特别是汉英机器翻译的研究却进展缓慢离实用化还有一定的距离。例如要把英文句子“We should do ourutmost to achieve our goalin life. ”翻译为中文机器一般可以翻译得较为准确但是要把汉语句子“他踢坏了三双鞋。”翻译为英文机器有的翻译为“He plays three pairs of evil shoes. ”有的翻译为“Hekicked three pairs of shoes bad. ”还有的翻译为“Him kick spoil 3pairs of shoes. ”。这些软件翻译的问题主要存在于词法、句法和语法几个方面。
1.词法分析的难点
1. 1词语切分
汉语的书面形式是字与字之间的连续书写词与词之间没有自然的界限 因此汉语的自然语言理解首先要解决词的自动切分问题而词的自
动切分中交集型歧义和组合型歧义是不可避免的。即使把交集型歧义和组合型歧义解决得比较好要把汉语的自动切词正确率提高到99%也是一个相当困难的事情。而且汉语的自动切词正确率即使达到99%对于机器翻译来说也是不够的。因为机器翻译系统不是以词为单位的一般是以句子为单位进行处理的这样一个句子只要有一处切词错误整个句子就很有可能面目全非。
1.2未登录词
未登录词指没有被分词词表收录的词语包括人名、地名、机构名等专有名词和新出现的词语。未登录词是不可穷尽登录的如人名、地名几乎可以看成是无限的新词也是不断产生的。未登录词包括专名和非专名两大类专名包括人名、地名等非专名包括新词、简称、行业用语、部分习语、俗语等等。未登录词不仅在汉语中存在英语中也存在未登录词不过英语中的未登录专名名词有形式标志其首字母是大写的但汉语中的未登录词不仅没有形式标注而且组成汉语未登录词的汉字可能本身又是汉语词也就是说汉语的未登录词容易与普通词语混淆。
1.3词表
英语中的词是基本确定的汉语中的词却很难确定或者说汉语中的词没有一个统一的标准。词是最小的能够独立运用的语法单位语素是最小的语音语义结合体短语是词与词按照一定语法规则构成的语法单位。词和语素、短语是不同层次和不同性质的语法单位但由于汉语中的词和自由语素、短语都能单说或单用 因此要分清词、语素和短语比较麻烦。举一个例子 “肉”是一个词 “猪肉”、 “鸡肉”、 “狗肉”倾向于是一个词
“海豹肉”、 “海豚肉”倾向于是一个短语 “果子狸肉”、 “猫头鹰肉”就更倾向于是一个短语。可以看出汉语的词的确认是一个比较困难的事情这是迄今为止国内还没有一个统一的供机器使用的词表的原因而词表是自然语言处理的基础机器翻译中绝大多数知识和规则都依赖于词表而建立这样就加大了汉语自动分析的难度。
2.句法分析的难点
2. 1核心动词的分析
对于句法分析而言抓住谓语中心词就意味着这个句子有可能分析准确如果连谓语中心词都找错了就意味着这个句子不可能分析准确。例如“王先生邀请她一起开车出去玩。”对这个句子进行分词、词性标注等预处理后得到王/n先生/n邀请/v她/r一起/d开21.720.9车/v出去/v玩/v。然而其中有可能充当谓语中心词的有 “邀请”、 “开车”、 “出去”、“玩”。 由于汉语属于分析语言缺乏明显的形态标记在这些词中选出一个正确的谓语中心词是一个非常复杂的问题。
2.2特殊结构的处理
汉语中的某些特殊结构是汉译英系统较为棘手的问题包括连动式、兼语式、受事主语句、主谓谓语句、名词谓语句、动补式等。连动式由若干个动词或动词短语相互连接没有明显的形式标志机器往往难于确定其中的主要动词如果主要动词的判定有误整个结构的分析必定失败。
2.3标点符号的影响
现有的机器翻译系统一般都是以句子为单位进行翻译的但是要确认汉语的句子却不是一件简单的事情。汉语“句子”的随意性太大短的可
以只有一个词独词句或一个短语长的句子可以是一个复句甚至可以是一个段落。这样 当遇到一个特别长的汉语句子时如果作为一个整体处理往往会带来巨大的时空开销而且这样做增加了分析的难度而分成几个小句来处理又难以准确地断句。也就是说汉语由于没有形态变化导致从句和分句没有明显的差异。
3.转换过程中的难点
由于汉语是一种缺乏严格意义上形态变化的语言而英语却有形态变化 因此汉英机器翻译中汉语转换为英语的过程存在多种“从无到有”的选择。以下是在汉英机器翻译中遇到的最常见的几种比较难解决的转换问题。
3. 1冠词问题
汉语没有冠词英语的名词或名词短语往往要加上冠词冠词又分为零冠词、定冠词和不定冠词三种情况。这样从汉语的“无”冠词到英语的“有”冠词翻译时需要确认究竟是零冠词还是定冠词或不定冠词。
3.2单复数问题
汉语的名词或名词短语没有单复数形式只有“们”等后缀可以勉强充当形式标志但英语的名词或名词短语却存在单复数。这样从汉语的“无”单复数到英语的“有”单复数翻译时需要确认究竟把汉语中的名词或名词短语翻译为英语中的单数还是复数。
3.3时态问题
汉语没有时态只有一些可以有助于显示时态的助词如“着”、“了”、“过”、副词如“将要”、 “马上”、 “正在”和时间名词如“现在”、
“从前”、 “目前”等不过这些标志词语并不是严格意义上的时态标记如“了”有时翻译为过去时有时翻译为完成时、过去完成时有时甚至不表示任何时态英语动词却有时态这样从汉语的“无”明显时态到英语的“有”时态翻译时要确认究竟把汉语中的动词或动词短语翻译为英语中的现在时、过去时还是将来时。
2.4.4语式问题
语式是表示句子的语气或情态的语法范畴一般通过动词的形态变化区分陈述式、命令式、虚拟式、愿望式等。汉语没有语式英语中表示与事实相反的假设或个人主观愿望时要使用虚拟式。这样从汉语的“无”明显语式到英语的“有”语式翻译时需要确认究竟把汉语翻译为英语中的陈述式还是虚拟式。
4.结语
从上面的分析可以看出不管是词法分析、句法分析还是源语言向目标语言的转换把汉语译为英语都存在“从无到有”的困难。正是因为在汉英机器翻译中除了一般机器翻译如英汉机器翻译都存在的一些困难如一词多义、结构歧义、语义歧义、语境因素等之外还存在这些“从无到有”的困难这些特殊的困难几乎分布于翻译的各个阶段导致机器翻译中把汉语当做源语言要比把英语当做源语言要困难得多。
参考文献
[1]刘群俞士汶.汉英机器翻译的难点分析.载黄昌宁主编. 1998中文信息处理国际会议论文集.清华大学出版社 1998.
[2]常宝宝刘颖刘群.汉英机器翻译中的冠词处理研究.中文信息
学报 1998 3 .
本文为安康学院AYQDRW201216项目成果。
DiyVM是一家低调国人VPS主机商,成立于2009年,提供的产品包括VPS主机和独立服务器租用等,数据中心包括香港沙田、美国洛杉矶、日本大阪等,VPS主机基于XEN架构,均为国内直连线路,主机支持异地备份与自定义镜像,可提供内网IP。最近,商家对香港机房VPS提供5折优惠码,最低2GB内存起优惠后仅需50元/月。下面就以香港机房为例,分享几款VPS主机配置信息。CPU:2cores内存:2GB硬...
sparkedhost怎么样?sparkedhost主机。Sparkedhost于2017年7月注册在美国康涅狄格州,2018年收购了ClynexHost,2019年8月从Taltum Solutions SL收购了The Beast Hosting,同年10月从Reilly Bauer收购了OptNode Hosting。sparkedhost当前的业务主要为:为游戏“我的世界”提供服务器、虚拟...
酷番云怎么样?酷番云就不讲太多了,介绍过很多次,老牌商家完事,最近有不少小伙伴,一直问我台湾VPS,比较难找好的商家,台湾VPS本来就比较少,也介绍了不少商家,线路都不是很好,有些需求支持Windows是比较少的,这里我们就给大家测评下 酷番云的台湾VPS,支持多个版本Linux和Windows操作系统,提供了CN2线路,并且还是原生IP,更惊喜的是提供的是无限流量。有需求的可以试试。可以看到回程...