对齐ssd4k对齐

ssd4k对齐  时间:2021-01-16  阅读:()

150翻译技术语料对齐工具的性能比较与选择蔡辉中央财经大学摘要:本文利用实验研究的方法,以文学、财经和科技三种文体为样本,对6款常见的语料对齐工具进行了比较研究.

研究发现:(1)除DéjàVuX3之外,相同文本使用docx和txt格式对对齐结果没有影响;(2)Transmate、ABBYYAligner2.
0和memoQ2015的对齐准确率位居前列,表现稳定;(3)使用不同体裁的文本,对齐质量也会不同.
科技文本的对齐效果最佳,其次是财经和文学;(4)对齐准确率是评测对齐质量的主要指标,但不是唯一指标;(5)距离完美对齐的距离、句段长短、标签数量也影响对齐质量.
本文还提出了对齐准确率的概念和计算公式.

本研究对对齐工具的选择和改进具有一定参考作用.
关键词:语料;对齐;对齐准确率中图分类号:H059文献标识码:A文章编号:1000-873X(2019)03-0150-06对齐既可表示寻找不同语言文本之间互译片断的过程(align),也可用于表示该过程产生的结果(alignment).
根据互译片段的长短或单位,可以分为词语对齐、短语对齐、句子对齐、段落对齐等.
为研究方便,本文仅研究句子单位的对齐.
通过对齐既可以生成双语平行语料库,也可以生成翻译记忆库.
两者在自然语言处理的许多领域都具有较高的研究和实用价值,在机器翻译、词典编纂、信息检索、词义排歧和辅助翻译等方面等有较大的应用价值.
在现实生活中,很多文本信息都存在双语和多语版本,如果将这些语料对齐,将能产生巨大的经济社会效益.
但人工对齐显然不现实.
许多学者在对齐领域开展相关研究.
在对齐算法方面,Brownetal.
(1991)和Gale&Church(1991)提出了基于长度的方法(length-based);Kay&Roscheisen(1993)提出了基于词汇的方法,Tan&Nagao(1995)和Wu(1994)则主张混合法.
俞劲松等(2015)提出了"提出基于单词间粘合度与松弛度的语块划分评分方法以及双语语块划分的双向约束算法".
但这些研究并没有分析比较各款工具的性能和参数.
也有一部分学者研究了不同长度单位的对齐,例如王斌等(2010)提出了借助锚点词所在句子的匹配获得锚点句子对来进行段落对齐的方法.
Ker(1997)提出了根据语义类实现词对齐的方法.
陈钰枫等(2011)提出了一种汉英实体名称的对齐模型.
这些研究主要关注对齐的算法和途径,而对于对齐工具的对其质量缺乏比较和研究.
无法给对齐工具的用户提供参考意见.
实际上,目前市场上对齐工具林林总总,十分繁杂,例如AbbyyAligner、Tmxmall等,许多计算机辅助翻译工具也内置有对齐模块,例如SDLTrados、DéjàVu、memoQ、Transmate等.
各款工具都能实现语料对齐的功能,但表现各有不同.
可惜,迄今为止,还没有人对这些对齐工具做系统分析.
各款工具有什么优势和特点学界对此尚未进行横向比较.
对齐质量如何学界也缺乏评价标准.
正因为如此,译者在面临不同题材、不同格式的文本对齐任务时,在对齐工具选择方面缺乏明确的参考标准,在一定程度上也影响了对齐的质量和效率.
有鉴于此,加之句对151翻译技术齐生成的双语语料库的对机器翻译、计算机辅助翻译均有较高的价值,因此,本文选择了六款常见的对齐工具,对其句对齐功能展开比较分析,具体而言,将重点探索以下几个问题:(1)各种工具的对齐准确率和质量有什么不同(2)不同格式的语料是否对对齐有什么影响(3)不同题材的文档是否会影响对齐的准确率(4)如果译文质量合格,如何评价各款对齐工具的对齐质量本研究将有利于用户在执行句对齐任务时选择合适的工具,有助于对齐工具的进一步改进和优化.
一、研究方法本文的研究对象为六款常见对齐工具,见表1.
表1六款对齐工具工具名称原产国是否收费AbbyyAligner2.
0俄罗斯是DéjàVuX3法国是memoQ2015匈牙利是SDLTrados2017英国是Tmxmall①中国否Transmate7.
3中国否在表1所列六款工具中,ABBYYAligner是一款由ABBYY集团开发的专业对齐工具,目前最高版本为2.
0.
ABBYYAligner通过使用词典库,不仅可以将切分句段按句序进行匹配,而且可检查原文和译文的语法相似度,从而准确识别匹配句段,提高文本对齐质量②.
DéjàVu是一款常见的CAT工具,目前最高版本为X3.
DéjàVu内置有alignment模块,可以实现语料对齐功能.
memoQ是一款常见的CAT工具,内置有livedocs模块,可以实现语料对齐功能.
SDLTrados是著名的CAT工具,目前最高版本为2019,其内置有WinAlign模块,可以实现语料对齐功能.
Tmxmall是是由上海一者科技有限公司研发的产品,其主营业务是语料商城和语料共享,它较早在国内推出了网页版在线对齐.
Transmate是由成都优译信息技术有限公司研发的单机版工具,免费使用,其内置有双语对齐的模块,可实现语料对齐功能.
市面上还有很多类似的对齐工具,例如雪人CAT、BilingualSentenceAligner、LFAligner、CorpusSort、Wordfisher等等,由于以上六款软件较为常用,加之笔者购置条件限制,因此本研究仅选择了以上六款工具作比较研究.
本研究选取文学、财经、科技三种文体,原文为英文,译文为中文,均为笔者翻译.
篇幅长度在1000汉字左右,样本为纯文字内容,排版规范,不含图表.
每个样本都分别保存为docx和txt两种格式.
各样本的其它文本特征见表2.
具体研究步骤如图1所示.
首先,将每对样本按照先docx文档后txt文档的顺序进行对齐,对齐过程按照软件的默认流程和默认设置,弹出对齐界面后,不进行人工干预,保存对齐结果.
然后,对对齐结果进行统计分析.
分析分两步:第一步先进行工具内比较(即将同一款软件同一样本的docx和txt两种文本格式的对齐结果进行比较);第二步,进行工具间比较(即将同一样本使用不同软件的对齐结果进行比较).
三对样本对齐工具内比较(doc、txt)工具间比较(doc)图1研究流程图二、结果分析(一)工具内比较:word格式与记事本格式随机抽取一种文体的文本,将其docx格式和txt格式分别导入上述六款对齐工具中,并记录对齐结果.
实验结果发现:ABBYY、memoQ、Tmxmall、Trados、Transmate对于docx和txt152翻译技术两种格式的相同文本进行对齐,对句段切分、准确率、格式标记、段首标记、中文符号识别不会产生差异.
但是在DéjàVuX3中,使用不同格式的文本对对齐的句段切分、对齐准确率、格式标记、文本识别都有所影响.
如表3所示,在DéjàVuX3对齐中,使用word对齐率略高,没有段首标记,中文符号识别没有乱码,但是格式标签较多.
使用txt文档对齐率略低,会保留段首标记、中文符号会有乱码,但是没有格式标记.
(二)工具间比较第一,基本技术指标.
对六款工具所支持的语种、格式以及导出格式等基本技术指标进行横向对比,见表4.
如表4所示,在支持语种的数量上,DéjàVu、memoQ和SDLTrados支持的语种数量均超过了100个,具有明显的优势.
从所支持的文本格式的种类数量来看,ABBYY、DéjàVu、memoQ和SDLTrados也处于领先水平.
从导出格式的种类来看,DéjàVu、memoQ和SDLTrados均不能直接导出为tmx格式③.
只有ABBYY、Transmate和Tmxmall支持导出为tmx格式,具有更好的兼容性.
第二,断句准确率.
将三种文体的文本的docx格式,按照研究步骤逐次导入上述六款工具中,并记录下原文断句结果,并计算断句准确率,见表5.
断句(segmentation)是对齐的基础.
原文断句准确率越高,对齐准确率越高.
从表4可见,在文学体裁中,Transmate和SDLTrados断句准确率表现突出,分别为98%和94%;在财经体裁中,Transmate完全正确,表现最佳,ABBYY和DéjàVu并列第二,准确率为96%;在科技体裁中,ABBYY、Transmate和SDLTrados均100%断句正确.
由是观之,在断句准确率方面,国产软件transmate表现最为突出,在三种不同题材中,均取得了最佳成绩.
从六款工具在三种体裁中的平均值来看,断句准确率从高至低依次为科技、财经和文学,分别为88.
3%、82%和76.
2%.
第三,对齐准确率.
将三个文本的docx格式,导入上述六款工具之后,按照默认设置对齐,并记录对齐准确率,实验结果见表6、7、8.
从表6可以看出,在文学体裁的对齐试验中,表现最好的三款工具是memoQ、ABBYY和TMXmall,分别对齐了28句、20句和11句.
其中TMXmall只实现了段落对齐④.
如表7所示,在财经体裁的对齐试验中,表现最好的前两款工具是transmate、ABBYY,分别对齐了25句、21句;memoQ和SDLTrados并列第三,均对齐了9句.
值得一提的是,国产软件Transmate实现了完美对齐,不仅句段切分合理,对齐准确率也是100%.
TMXmall虽然对齐准确率是100%,但同样只实现了段落对齐.
如表8所示,在科技体裁的对齐试验中,表现最好的前三款工具是transmate、ABBYY和DéjàVuX3,分别对齐了37句、37句和19句.
值得一提的是,Transmate和ABBYY两款工具均实现了完美对齐,不仅句段切分合理,对齐准确率也是百分之一百.
TMXmall在21个段落的对齐中,仅对准1段.
结合上述实验结果,为便于比较,笔者提出对齐准确率的概念.
所谓对齐准确率,是指对齐句段数量与原文句段数⑤之比.
对齐准确率是衡量对齐质量的重要指标.
由于精准匹配的原文句段和译文句段的数量总是一致,但由于句段切分的规则和算法不同,原文句段和译文句段在数量上常常有出入.
有鉴于此,为综合考虑句段切分因素,本文提出以下对齐准确率153翻译技术的计算公式:*%对齐准确率=对齐句段数量原文句段数根据以上公式,六款工具的对齐准确率计算如下:如表9所示,在文学体裁实验中,memoQ和ABBYY表现最佳,对齐准确率分别为57.
1%、40.
8%;在财经体裁实验中,transmate和ABBYY表现最佳,对齐准确率分别为100%、84%;在科技体裁实验中,transmate和ABBYY表现最佳,对齐准确率均为100%.
从三种体裁平均对齐准确率来看,ABBYY和Transmate表现最优,分别为75%和73.
3%.
国产软件transmate财经和科技体裁实验中,均获得满分,可惜在文学体裁的对齐中差强人意.
ABBYYAligner在三种题材中均表现突出、稳定.
memoQ在三种体裁的对齐中也表现突出.
从六款软件在三种体裁的对齐平均值来看,平均值从高至低依次是科技、财经和文学,分别为56.
3%、48.
7%和28.
2%.
这表明,这六款工具对科技体裁的对齐效果最佳,其次是财经和文学.
这也表明,使用不同题材的文本,对齐效果也会不同.
第四,格式标签(tag).
格式标签用于表示文字特征(例如字体)、或文字流动特征(例如分页符),它可以分为:行内或结构标签、独立标签或标签对中的一个、可译或不可译标签等⑥.
对齐产生的标签将会带入到记忆库,如不清除,不仅会影响句段的匹配,也会影响语言资产的重复利用.
由于标签对记忆库的重复利用会产生消极影响,有无标签以及标签的多寡将会直接影响到记忆库的质量.
因此,对齐标签的有无多寡,也是衡量对齐质量的一个重要指标.
从表10可见,在文学体裁对齐中,DéjàVu和memoQ均产生了大量标签,前者英中文中分别出现了是15和25个标签,后者分别产生了6和33个标签.
其他工具均没有出现标签.
在财经体裁对齐中,DéjàVu和memoQ均产生了标签,前者英汉文中分别出现了34和53个标签,后者英汉文中各产生了1个标签.
其他工具均没有出现标签.
在科技体裁对齐中,DéjàVu、memoQ和Trados均产生了标签,前者英汉文中分别出现了是13和119个标签,memoQ分别产生了9和11个标签,Trados只在英语文本中产生了6个标签.
其他工具均没有出现标签.
由是观之,从标签有无来看,ABBYY、Tmxmall和Transmate表现最佳,均没有产生标签.
第五,纠错能力.
ABBYY、memoQ、Transmate具有纠错功能,当某一句段对齐紊乱之后,其后也能发现对齐的句段.
其它三款工具则不具备这种功能,即当某一句段对齐紊乱之后,其后的句段会全部紊乱.
三、结论本文通过对三种文体(文学、财经、科技)、两种格式(docx、txt)的样本实验,比较了ABBYYAligner2.
0、DéjàVuX3、memoQ2015、SDLTrados2017、Tmxmall和Transmate等六款工具的对齐功能,结论如下:(1)从支持语种、格式等基础技术指标来看,DéjàVu、memoQ和SDLTrados占据优势;从导出格式来看,只有ABBYY、Transmate和Tmxmall可以直接导出为tmx格式,具有更好的兼容性.
(2)在断句准确率方面,国产软件transmate表现最为突出,在三种不同题材中,均取得了最佳成绩.
(3)从对齐准确率来看,国产软件Transmate财经和科技体裁实验中,均获得满分,可惜在文学体裁的对齐中差强人意.
154翻译技术表2样本特征特征文体原文来源总字数文内标题段落句数⑦首行缩进文学ExcerptfromInaClassbyHimself⑧英文570词中文1002字3749中文有英文无财经ExcerptfromASEAN,PRC,India:TheGreatTransformation⑨英文487词中文874字2525中文有英文无科技类ExcerptfromPre-ChamberofInternalCombustionEngine⑩英文675词中文983字71437中文有英文无表3DéjàVuX3的对齐表现项目格式句段切分准确率格式标记段首标记中文符号识别ENCNENCNENCNENCNENCNDocx26272234个53个无无无无Txt252611无无有iiii空格有乱码无表4基本技术指标对比工具项目ABBYYDéjàVumemoQSDLTradosTmxmallTransmate支持语种24>100>1002461813支持格式21394020133导出格式TMX,RTFdvmdbmqxlzsdltm、SDLXLiff、SDLaligntmxtmx、uetm表5原文断句准确率ABBYYDéjàVumemoQSDLTradosTmxmallTransmate平均值文学83.
7%(41/49)83.
7%(57/49)75.
6%(37/49)94%(52/49)22.
4%(11/49)98%50/4976.
2%财经96%(24/25)96%(26/25)80%(20/25)92%(23/25)28%(7/25)100%(25/25)82%科技100%(37/37)86.
5%42/3786.
5%(32/37)100%(37/37)56.
8%(21/37)100%(37/37)88.
3%平均93.
2%88.
7%80.
7%95.
3%35.
7%99.
3%82.
2%排名345261-表6文学文本对齐结果软件项目ABBYYDéjàVumemoQSDLTradosTmxmallTransmateENCNENCNENCNENCNENCNENCN句段数414457393737523811115045对齐句段数量20208828286611111010表7财经文本对齐结果软件项目ABBYYDéjàVumemoQSDLTradosTmxmallTransmateENCNENCNENCNENCNENCNENCN句段数2424262720202321772525对齐句段数量2121229999772525表8科技文本对齐结果软件项目ABBYYDéjàVumemoQSDLTradosTmxmallTransmateENCNENCNENCNENCNENCNENCN句段数373742373231373721213737对齐句段数量3737191918181313113737表9六款工具的对齐准确率ABBYYDéjàVumemoQSDLTradosTmxmallTransmate平均值文学40.
8%(20/49)16.
3%(8/49)57.
1%(28/49)12.
2%(6/49)22.
4%11/4920.
4%10/4928.
2%财经84%(21/25)8%(2/25)36%(9/25)36%(9/25)28%(7/25)100%(25/25)48.
7%科技100%(37/37)51.
4%(19/37)48.
6%18/3735.
1%13/372.
7%1/37100%(37/37)56.
3%平均对齐准确率75%25.
3%47.
3%27.
7%17.
7%73.
3%44.
4%排名153462-表10对齐产生的标签数量统计软件体裁ABBYYDéjàVumemoQSDLTradosTmxmallTransmateENCNENCNENCNENCNENCNENCN文学001545633000000财经00345311000000科技0013119910600000总计027960600155翻译技术ABBYYAligner在三种题材中均表现突出、稳定.
memoQ在三种体裁的对齐中也表现突出.
(4)使用不同体裁的文本,对齐质量也会不同.
科技文本的对齐效果最佳,其次是财经体裁,文学体裁的对齐效果最差.
(5)从标签有无来看,ABBYY、Tmxmal和Transmate表现最佳,均没有产生格式标签.
SDLTrados有少量标签.
Déjàvu和memoQ标签较多.
格式标签和对齐质量之间存在负相关关系,格式标签越多,对齐质量越差.
(6)在译文质量合格的前提下,评价一款对齐工具的对齐质量主要看其对齐准确率.
对齐准确率和对齐质量之间存在正相关关系,即对齐准确率越高,对齐质量越高.
但对齐准确率不是评测对齐质量的唯一指标,距离完美对齐的距离、有无标签,句段长短等因素也是评测对齐质量的重要指标.
四、研究的局限性和建议本研究的局限有四个方面.
一是文体的局限,仅作了文学、财经和科技类三种文本的比较,且每一文体只选取了一篇短文;二是文本格式的局限:仅word和txt两种文本格式的对齐实验;三是语言对的局限,本研究仅限中英文语对的实验.
四是文本长度的局限,原文仅在千字以内;五是测试工具的局限性,由于条件限制,有些工具没有获取,有的工具不是最新版本.
以上局限均对测试的准确性、有效性产生一定影响.
研究者可以从其它文体、其它文本格式、其他语言对文件展开更深入研究,亦可以测试更多、更长、更复杂的文本,以及采用更新的软件版本或其它对齐软件,还可以从人工干预程度、操作便捷性等方面进行更加深入的研究.
注释①2015年11月18日,TMXMall发布了在线版对齐工具,2016年7月31日,发布单机版对齐工具TmxmallAligner.
由于后者是付费工具,本研究采用的是在线版.
②见https://abbyy-ls.
com/about.
③Tmx(translationmemoryexchange)是记忆库的标准格式,它可以便捷地导入到各种CAT工具的记忆库中.
DéjàVu、memoQ和SDLTrados在对齐后,需要经过更多的操作,才能将对齐文件导出为tmx格式.
④Tmxmall生成段落对齐,这降低了对齐的难度,但同时也降低了对齐的质量,因为段落对齐的复用率很低,而从段落对齐生成句对齐的记忆库,还需要大量人工干预.
⑤此处的原文句段数是指由人工计算的原文句段数,见表2.
⑥见http://producthelp.
sdl.
com/SDL%20TM%20Server%202009%20SP3/en/mergedProjects/glossary/TMSGlossary.
htm.
⑦以句号、分号、感叹号以及段落回车(不计算以句号、分号、感叹号结尾的段落回车)为标志计算句段数量.
⑧见https://www.
rd.
com/advice/parenting/teacher-inspires-harlem-children/.
⑨见https://www.
adb.
org/sites/default/les/publication/159310/adbi-asean-prc-india-transformation.
pdf,第23-24页.
⑩见http://www.
freepatentsonline.
com/y2017/0167358.
html.
SDLTrados2017版没有查到所支持的格式数量,20是根据SDLTrados2007版统计得来的数据.
句段切分多于原文句段数量的计算方法为:*%原文句段数-(切分句段数-原文句段数)原文句段数取小数点后一位,四舍五入.
括号内分数为对齐句段数和原文句段数之比.
参考文献[1]陈钰枫、宗成庆、苏克毅.
汉英双语命名实体识别与对齐的交互式方法[J].
计算机学报,2011(9):1689-1695.
[2]王斌、刘群、张祥.
汉英双语库自动分段对齐研究[J].
软件学报,2000(11):1548-1554.
[3]俞劲松、王惠临、吴胜兰.
高正确率的双语语块对齐算法研究[J].
中文信息学报,2015(1):67-74.
[4]Brown,P.
F.
,Lai,H.
C.
&Mercer,R.
L.
Aligningsentencesinparallelcorpora[A].
Proceedingsofthe29thAnnualMeetingoftheAssociationforComputationalLinguistics[C].
1991:169-176.
[5]Gale,W.
&Church,K.
Aprogramforaligningsentencesinbilingualcorpora[J].
ComputationalLinguistics,1991(1):75-89.
[6]Kay,M.
&Roscheisen,M.
Text-translationalignment[J].
ComputationalLinguistics,1993(1):121,142.
[7]Ker,S.
J.
&ChangJ.
S.
Aclass-basedapproachtowordalignment[J].
ComputationalLinguistics,1997(2):313-341.
[8]Tan,C.
L.
&Nagao,M.
AutomaticalignmentofJapanese-Chinesebilingualtexts[J].
IEICETransactionsonInformationandSystems,1995(1):481–485.
[9]Wu,D.
AligningaparallelEnglish-Chinesecorpusstatisticallywithlexicalcriteria[A].
Proceedingsofthe32ndAnnualMeetingoftheAssociationforComputationalLinguistics[C].
LasCruces,NewMexico,1994:80-87.
作者简介蔡辉,中国社会科学院博士,中央财经大学外国语学院副教授.
研究方向:语言学、语言经济学、翻译学.

丽萨主机122元/每季,原生IP,CN2 GIA网络

萨主机(lisahost)新上了美国cn2 gia国际精品网络 – 精品线路,支持解锁美区Netflix所有资源,HULU, DISNEY, StartZ, HBO MAX,ESPN, Amazon Prime Video等,同时支持Tiktok。套餐原价基础上加价20元可更换23段美国原生ip。支持Tiktok。成功下单后,在线充值相应差价,提交工单更换美国原生IP。!!!注意是加价20换原生I...

vpsdime:夏日促销活动,美国达拉斯VPS,2G内存/2核/20gSSD/1T流量,$20/年

vpsdime怎么样?vpsdime是2013年注册的国外VPS主机商,实际上他还有一系列的其他域名站点如Winity.io, Backupsy,Cloudive, Virtora等等,母公司“Nodisto IT”相对来说还是很靠谱了的商家。VPSDime主要提供各种高配低价VPS套餐,其中Linux VPS和存储VPS基于OpenVZ架构,高级VPS基于KVM。VPSDime在上个季度的Low...

火数云-618限时活动,国内云服务器大连3折,限量50台,九江7折 限量30台!

官方网站:点击访问火数云活动官网活动方案:CPU内存硬盘带宽流量架构IP机房价格购买地址4核4G50G 高效云盘20Mbps独享不限openstack1个九江287元/月立即抢购4核8G50G 高效云盘20Mbps独享不限openstack1个九江329元/月立即抢购2核2G50G 高效云盘5Mbps独享不限openstack1个大连15.9元/月立即抢购2核4G50G 高效云盘5Mbps独享不限...

ssd4k对齐为你推荐
免费虚拟主机空间请问哪里有:免费一级域名申请,免费虚拟主机,免费空间免费国内空间中国有什么免费的空间美国服务器托管美国服务器租用时要注意什么?免备案虚拟空间香港免备案虚拟主机空间怎么样虚拟空间哪个好虚拟主机哪家的最好?美国网站空间论坛选择空间可以选美国网站空间吗?100m虚拟主机虚拟主机 100M 和200M 的区别?那个速度快?为什么?虚拟主机软件哪种虚拟机软件好用虚拟主机软件常见的虚拟机软件有哪几种?虚拟主机服务商现在市场上那家服务商的虚拟主机性价比最高?
代理主机 域名升级访问中 中国十大域名注册商 联通vps 山东vps 动态域名解析软件 ftp空间 缓存服务器 e蜗牛 好看qq空间 空间出租 中国电信测网速 阿里校园 web服务器安全 七夕快乐英语 双12 跟踪路由命令 yundun 服务器是干什么用的 德讯 更多