语料库ssd4k对齐

ssd4k对齐  时间:2021-01-16  阅读:()

0引言国内外很多研究机构都致力于双语语料库的建设,并利用这些语料库进行广泛的研究.
但目前汉外双语语料库规模比较小,加工规范也不统一,从而影响了双语语料库知识获取的研究.
实现各个层次的对齐是双语语料库建设的一项重要内容.
1双语语料库建设加拿大的议会会议录(CanadianHansards)是非常著名的英法双语语料库,许多最初的基于双语语料库的研究都是在该语料库基础上进行的[1,2].
香港科技大学收集和加工了香港立法委员会的会议记录,形成了汉英双语语料库[3].
目前,我们所拥有的有价值的语料大致如下:联合国语料库是联合国近几年来会议记录的筛选和整理,包含1993~2002年的所有语料.
香港新闻语料也是重要的资源,包含三个子语料库:香港议会平行语料、香港法律平行语料、香港新闻平行语料,分别有2000年和2004年两个版本,其中2004年的版本已经做到句子层级的对齐,但文本仍然混乱,当中也存在不少噪声.
所以语料建设的主要工作是句对的抽取和根据句对的评价权重进行筛选.
FBIS(ForeignBroadcastingInformationService)是国外广播信息的语料,包含多国语言的篇章级对齐文本,我们选取其中的中英文本来进行语料库的建设.
汉英新闻杂志平行文本(ChineseEnglishNewsMagazineParallelText)包含的是新闻事件以及它的英文译文,是LDC从台湾的Sinorama杂志收集的,时间跨度为1976~2004年,当中共有6366个故事对,365568句子对.
由于题材和翻译的原因,这部分的语料质量不够好.
2编码格式规范新闻领域双语语料建设与句子对齐方法的研究林哲辉,贾剑锋,郭文(厦门大学信息科学与技术学院,福建厦门361005)摘要:双语对齐的平行语料库在机器翻译和自然语言处理领域中扮演着非常重要的角色,它的研究和制作具有重要的理论意义和实用价值,双语语料的建设十分必要,其中双语对齐是最基本的环节.
文章首先简要介绍了语料库的建设情况,然后结合主流的句子对齐方法提出并实现了基于词典和语言学信息的英汉双语句子对齐.

npidc:9元/月,cn2线路(不限流量)云服务器,金盾+天机+傲盾防御CC攻击,美国/香港/韩国

npidc全称No Problem Network Co.,Limited(冇問題(香港)科技有限公司,今年4月注册的)正在搞云服务器和独立服务器促销,数据中心有香港、美国、韩国,走CN2+BGP线路无视高峰堵塞,而且不限制流量,支持自定义内存、CPU、硬盘、带宽等,采用金盾+天机+傲盾防御系统拦截CC攻击,非常适合建站等用途。活动链接:https://www.npidc.com/act.html...

物语云-VPS-美国洛杉矶VPS无限流量云windows大带宽100M不限流量 26/月起

物语云计算怎么样?物语云计算(MonogatariCloud)是一家成立于2016年的老牌国人商家,主营国内游戏高防独服业务,拥有多家机房资源,产品质量过硬,颇有一定口碑。本次带来的是特惠活动为美国洛杉矶Cera机房的不限流量大带宽VPS,去程直连回程4837,支持免费安装Windows系统。值得注意的是,物语云采用的虚拟化技术为Hyper-v,因此并不会超售超开。一、物语云官网点击此处进入物语云...

legionbox:美国、德国和瑞士独立服务器,E5/16GB/1Gbps月流量10TB起/$69/月起

legionbox怎么样?legionbox是一家来自于澳大利亚的主机销售商,成立时间在2014年,属于比较老牌商家。主要提供VPS和独立服务器产品,数据中心包括美国洛杉矶、瑞士、德国和俄罗斯。其中VPS采用KVM和Xen架构虚拟技术,硬盘分机械硬盘和固态硬盘,系统支持Windows。当前商家有几款大硬盘的独立服务器,可选美国、德国和瑞士机房,有兴趣的可以看一下,付款方式有PAYPAL、BTC等。...

ssd4k对齐为你推荐
主机空间什么是网站虚拟主机空间?中国互联网域名注册负责我国境内internet用户域名注册是什么机构域名代理如何知道自己的域名是在哪个代理商注册的啊?免费国外空间那个国外空间好啊啊 价格便宜 急需免费网站空间申请申请免费空间的网站手机网站空间QQ空间技巧的手机网站啊?虚拟主机控制面板我想问下虚拟主机的控制面板有哪些还不错的品牌呢?价格不能太高最好是性价比比较高一点就行了下载虚拟主机虚拟机软件到那里下载。怎么安装美国免费虚拟主机哪有便宜的美国虚拟主机?246数据美国虚拟主机一年才40元http://246idc.com/host/沈阳虚拟主机为什么修改了虚拟机Vmware的TCP/IP配置以后就上不了网
Oray域名注册服务商 域名备案中心 西安服务器 美国主机评测 enzu fastdomain dropbox网盘 标准机柜尺寸 建站代码 泉州电信 paypal注册教程 台湾google 百度云加速 免费蓝钻 购买空间 杭州电信 hostease 蓝队云 免费的加速器 ipower 更多