题目原代码

原代码  时间:2021-03-17  阅读:()
《自然语言理解》课程作业课程编号:7548课程属性:专业基础课学时/学分:40/2预修课程:概率论与数理统计、计算机基础知识和编程技术主讲人:宗成庆联系方式:E-mail:cqzong@nlpr.
ia.
ac.
cnTel.
62554263一、作业目的:通过本课程作业使同学进一步加深对《自然语言理解》基础理论的认识,促进对自然语言处理相关内容的学习和了解(包括一些课堂上没有作为主要内容讲解的部分),锻炼和提高同学动手实践的能力和独立思考的能力.
通过课程作业从题目分析、技术调研、数据准备、方法设计、编码实现以及系统调试的全过程练习,使同学初步掌握实现一个自然语言处理系统的基本过程.
二、作业题目本课程作业题目分为两类,一类题目为系统实现类,要求几个人合作完成其中的一个;另一类为技术综述类,要求作者必须有自己的见解,每人选择其中的一个题目进行调研、论述.
鼓励同学选择系统实现类题目.
I)系统实现类1.
实现一个汉语命名实体(NameEntity)自动识别系统命名实体一般指那些特定的名词或名词短语,包括人名、地名、机构名称和其它专用名词等.
2.
实现一个汉语词义自动消歧(disambiguity)程序很多词具有一词多义的特点,但某一个词在特定的上下文中其含义却是确定的.
本作业要求系统能够自动根据不同上下文判断某一词的特定含义.
3.
实现一个汉语句子自动改写系统(paraphrasing)一个句子可以这样说,也可以那样说,但其意思要保持基本不变.
4.
实现一个汉语口语语句自动解析系统口语句子不同于书面语,语句中往往含有大量的重复、省略、颠倒和冗余等非规范语言现象,这给口语句子理解造成很大的困难.
本题目要求对汉语口语句子进行解析,可以是句法结构的分析,如分析出句子的主语、谓语、宾语等句法成分,并给出其依存关系;也可以是语句含义的解析,通过解析后真对一个特定的输入句子能够回答"5W问题"("谁Who"、"什么时候When"、"在哪里Where"、"做什么What","为谁forWhom"或"为什么Why"),并分析出语句语气.
本题目难度较大.
5.
实现一个汉英语块(chunk)自动对齐程序.
给出你设计的系统中语块的定义,设计语块边界的自动确定方法,实现相应的对齐算法.
6.
实现一个汉语文本自动校对(proofreading)系统真对汉语录入文本或语音识别结果中错别字的自动检查和校对.
7.
实现一个英语文本自动文摘(summarization)系统对任意英语文本分析理解后,能够自动生成其相应的文摘.
文摘可以用一段文字描述出来,也可以用一个框架表示出来.
8.
实现一个文本自动分类系统给出文本分类的标准,设计分类算法,并实现分类系统.
9.
实现一个邮件自动过滤系统根据邮件内容,鉴别某一类有害邮件.
10.
实现一个信息自动检索系统用户以关键词形式检索,检索内容来自国际互联网.
本项目较大,需要几个人分工合作.
u基本要求和说明:1)每人选择其中的一个题目,也可以几个人(一般不超过3人)合作其中的一个题目,但彼此之间必须有明确的分工,有一人负责系统集成;2)任何一个题目,都不限定采用的方法,可以采用基于规则的分析方法,也可以采用基于语料库的统计方法,还可以是几种方法的结合,鼓励方法创新,但必须有理论根据或实验数据依据.
3)上述有些题目较大,如果不能找到合作的同学或者几人合作仍然不能完成,可以选做该题目中的部分工作,但请说明你所做工作与整个项目其它部分的关系.
4)完成一份技术报告,报告内容包括:项目的目标、国内外相关工作、自己在本项目中承担工作的创新点、实现模块的核心思想和算法描述、实现模块的结构说明和接口定义及其与其它相关模块的关系、实现结果(测试数据)及分析等;5)提交系统原代码和相关数据,以保证实验系统可以正常运转.
如果是多人合作完成的,应提交集成实验系统.
II)技术综述类1.
最大熵方法在自然语言处理中的应用2.
支持向量机模型(SVM,SupportVectorMachines)与自然语言处理3.
对话分析及内容提取技术研究现状u基本要求和说明:1)综述必须是针对国际、国内相关问题研究状况的全面论述和分析,作者必须有自己的观点和见解;2)综述字数不得少于15000字,参阅的专业文献原则上不得少于60篇,提倡以国外研究论文为主要参考文献.
正文中引用的他人工作必须明确标明详细出处;3)综述包括200左右的中英文摘要.
三、要求与声明1.
要求2004年6月11日前提交作业(系统实现类题目包括技术报告和程序代码),报告中务必留下作者的姓名、单位、联系电话和邮件地址.
提交方式:通过电子邮件发送到如下信箱:yzhou@nlpr.
ia.
ac.
cn或直接提交光盘;2.
选做系统实现类题目的同学,不允许不同同学选做同一个题目的同一项工作,选做技术综述类题目的同学,不允许两个或几个同学选择同一个题目;3.
鼓励充分使用网络资源和其它一切可以利用的资源(包括数据、软件和论文资料),但报告中必须明确标明资源来源,严禁侵害他人知识产权,否则,后果自负;4.
严禁抄袭他人工作,否则,本课程以零分记,并通报研究生院有关部门和学生所在单位.

腾讯云CVM云服务器大硬盘方案400GB和800GB数据盘方案

最近看到群里的不少网友在搭建大数据内容网站,内容量有百万篇幅,包括图片可能有超过50GB,如果一台服务器有需要多个站点的话,那肯定默认的服务器50GB存储空间是不够用的。如果单独在购买数据盘会成本提高不少。这里我们看到腾讯云促销活动中有2款带大数据盘的套餐还是比较实惠的,一台是400GB数据盘,一台是800GB数据盘,适合他们的大数据网站。 直达链接 - 腾讯云 大数据盘套餐服务器这里我们看到当前...

iHostART:罗马尼亚VPS/无视DMCA抗投诉vps;2核4G/40GB SSD/100M端口月流量2TB,€20/年

ihostart怎么样?ihostart是一家国外新商家,主要提供cPanel主机、KVM VPS、大硬盘存储VPS和独立服务器,数据中心位于罗马尼亚,官方明确说明无视DMCA,对版权内容较为宽松。有需要的可以关注一下。目前,iHostART给出了罗马尼亚vps的优惠信息,罗马尼亚VPS无视DMCA、抗投诉vps/2核4G内存/40GB SSD/100M端口月流量2TB,€20/年。点击直达:ih...

数脉科技香港物理机 E3 16G 10M 华为线路165元 阿里云线路 188元 Cera线路 157元

2021年9月中秋特惠优惠促销来源:数脉科技 编辑:数脉科技编辑部 发布时间:2021-09-11 03:31尊敬的新老客户:9月优惠促销信息如下,10Mbps、 30Mbps、 50Mbps、100Mbps香港优质或BGPN2、阿里云线路、华为云线路,满足多种项目需求!支持测试。全部线路首月五折起。数脉官网 https://my.shuhost.com/香港特价数脉阿里云华为云 10MbpsCN...

原代码为你推荐
固态硬盘是什么固态硬盘是什么?和原先的有什么差别?有必要买吗?梦之队官网梦之队是什么呢?是那个国家的呢?他们又是参加那个项目的呢?得了几块金牌呢?广东GDP破10万亿广东省2019年各市gdp是多少?www.hao360.cn主页设置为http://hao.360.cn/,但打开360浏览器先显示www.yes125.com后转换为www.2345.com,搜索注册表和陈嘉垣马德钟狼吻案事件是怎么回事嘀动网动网和爱动网各自的优势是什么?杰景新特美国杰尼.巴尼特的资料百花百游百花净斑方效果怎么样?www.zjs.com.cn请问宅急送客服电话号码是多少?partnersonlinecashfiesta 该怎么使用啊~~
域名注册公司 三级域名网站 2019年感恩节 冰山互联 BWH 网络星期一 美国php主机 国外代理服务器地址 免费活动 爱奇艺会员免费试用 卡巴斯基是免费的吗 网购分享 免费个人网页 阿里dns 广州服务器托管 中国电信宽带测速 godaddy退款 服务器机柜 alexa搜 服务器是什么 更多