0引言国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究.
但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究.
实现各个层次的对齐是双语语料库建设的一项重要内容.
1双语语料库建设加拿大的议会会议录(CanadianHansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1,2].
香港科技大学收集和加工了香港立法委员会的会议记录,形成了汉英双语语料库[3].
目前,我们所拥有的有价值的语料大致如下:联合国语料库是联合国近几年来会议记录的筛选和整理,包含1993~2002年的所有语料.
香港新闻语料也是重要的资源,包含三个子语料库:香港议会平行语料、香港法律平行语料、香港新闻平行语料,分别有2000年和2004年两个版本,其中2004年的版本已经做到句子层级的对齐,但文本仍然混乱,当中也存在不少噪声.
所以语料建设的主要工作是句对的抽取和根据句对的评价权重进行筛选.
FBIS(ForeignBroadcastingInformationService)是国外广播信息的语料,包含多国语言的篇章级对齐文本,我们选取其中的中英文本来进行语料库的建设.
汉英新闻杂志平行文本(ChineseEnglishNewsMagazineParallelText)包含的是新闻事件以及它的英文译文,是LDC从台湾的Sinorama杂志收集的,时间跨度为1976~2004年,当中共有6366个故事对,365568句子对.
由于题材和翻译的原因,这部分的语料质量不够好.
2编码格式规范新闻领域双语语料建设与句子对齐方法的研究林哲辉,贾剑锋,郭文(厦门大学信息科学与技术学院,福建厦门361005)摘要:双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.
文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.
搬瓦工最近上线了一个新的荷兰机房,荷兰 EUNL_9 机房,这个 9 的编号感觉也挺随性的,之前的荷兰机房编号是 EUNL_3。这次荷兰新机房 EUNL_9 采用联通 AS9929 高端路线,三网都接入了 AS9929,对于联通用户来说是个好消息,又多了一个选择。对于其他用户可能还是 CN2 GIA 机房更合适一些。其实对于联通用户,这个荷兰机房也是比较远的,相比之下日本软银 JPOS_1 机房可...
Friendhosting发布了今年黑色星期五促销活动,针对全场VDS主机提供45折优惠码,虚拟主机4折,老用户续费可获9折加送1个月使用时长,优惠后VDS最低仅€14.53/年起,商家支持PayPal、信用卡、支付宝等付款方式。这是一家成立于2009年的老牌保加利亚主机商,提供的产品包括虚拟主机、VPS/VDS和独立服务器租用等,数据中心可选美国、保加利亚、乌克兰、荷兰、拉脱维亚、捷克、瑞士和波...
Pia云商家在前面有介绍过一次,根据市面上的信息是2018的开办的国人商家,原名叫哔哔云,目前整合到了魔方云平台。这个云服务商家主要销售云服务器VPS主机业务和服务,云服务器采用KVM虚拟架构 。目前涉及的机房有美国洛杉矶、中国香港和深圳地区。洛杉矶为crea机房,三网回程CN2 GIA,自带20G防御。中国香港机房的线路也是CN2直连大陆,比较适合建站或者有游戏业务需求的用户群。在这篇文章中,简...