《自然语言理解》课程作业课程编号:7548课程属性:专业基础课学时/学分:40/2预修课程:概率论与数理统计、计算机基础知识和编程技术主讲人:宗成庆联系方式:E-mail:cqzong@nlpr.
ia.
ac.
cnTel.
62554263一、作业目的:通过本课程作业使同学进一步加深对《自然语言理解》基础理论的认识,促进对自然语言处理相关内容的学习和了解(包括一些课堂上没有作为主要内容讲解的部分),锻炼和提高同学动手实践的能力和独立思考的能力.
通过课程作业从题目分析、技术调研、数据准备、方法设计、编码实现以及系统调试的全过程练习,使同学初步掌握实现一个自然语言处理系统的基本过程.
二、作业题目本课程作业题目分为两类,一类题目为系统实现类,要求几个人合作完成其中的一个;另一类为技术综述类,要求作者必须有自己的见解,每人选择其中的一个题目进行调研、论述.
鼓励同学选择系统实现类题目.
I)系统实现类1.
实现一个汉语命名实体(NameEntity)自动识别系统命名实体一般指那些特定的名词或名词短语,包括人名、地名、机构名称和其它专用名词等.
2.
实现一个汉语词义自动消歧(disambiguity)程序很多词具有一词多义的特点,但某一个词在特定的上下文中其含义却是确定的.
本作业要求系统能够自动根据不同上下文判断某一词的特定含义.
3.
实现一个汉语句子自动改写系统(paraphrasing)一个句子可以这样说,也可以那样说,但其意思要保持基本不变.
4.
实现一个汉语口语语句自动解析系统口语句子不同于书面语,语句中往往含有大量的重复、省略、颠倒和冗余等非规范语言现象,这给口语句子理解造成很大的困难.
本题目要求对汉语口语句子进行解析,可以是句法结构的分析,如分析出句子的主语、谓语、宾语等句法成分,并给出其依存关系;也可以是语句含义的解析,通过解析后真对一个特定的输入句子能够回答"5W问题"("谁Who"、"什么时候When"、"在哪里Where"、"做什么What","为谁forWhom"或"为什么Why"),并分析出语句语气.
本题目难度较大.
5.
实现一个汉英语块(chunk)自动对齐程序.
给出你设计的系统中语块的定义,设计语块边界的自动确定方法,实现相应的对齐算法.
6.
实现一个汉语文本自动校对(proofreading)系统真对汉语录入文本或语音识别结果中错别字的自动检查和校对.
7.
实现一个英语文本自动文摘(summarization)系统对任意英语文本分析理解后,能够自动生成其相应的文摘.
文摘可以用一段文字描述出来,也可以用一个框架表示出来.
8.
实现一个文本自动分类系统给出文本分类的标准,设计分类算法,并实现分类系统.
9.
实现一个邮件自动过滤系统根据邮件内容,鉴别某一类有害邮件.
10.
实现一个信息自动检索系统用户以关键词形式检索,检索内容来自国际互联网.
本项目较大,需要几个人分工合作.
u基本要求和说明:1)每人选择其中的一个题目,也可以几个人(一般不超过3人)合作其中的一个题目,但彼此之间必须有明确的分工,有一人负责系统集成;2)任何一个题目,都不限定采用的方法,可以采用基于规则的分析方法,也可以采用基于语料库的统计方法,还可以是几种方法的结合,鼓励方法创新,但必须有理论根据或实验数据依据.
3)上述有些题目较大,如果不能找到合作的同学或者几人合作仍然不能完成,可以选做该题目中的部分工作,但请说明你所做工作与整个项目其它部分的关系.
4)完成一份技术报告,报告内容包括:项目的目标、国内外相关工作、自己在本项目中承担工作的创新点、实现模块的核心思想和算法描述、实现模块的结构说明和接口定义及其与其它相关模块的关系、实现结果(测试数据)及分析等;5)提交系统原代码和相关数据,以保证实验系统可以正常运转.
如果是多人合作完成的,应提交集成实验系统.
II)技术综述类1.
最大熵方法在自然语言处理中的应用2.
支持向量机模型(SVM,SupportVectorMachines)与自然语言处理3.
对话分析及内容提取技术研究现状u基本要求和说明:1)综述必须是针对国际、国内相关问题研究状况的全面论述和分析,作者必须有自己的观点和见解;2)综述字数不得少于15000字,参阅的专业文献原则上不得少于60篇,提倡以国外研究论文为主要参考文献.
正文中引用的他人工作必须明确标明详细出处;3)综述包括200左右的中英文摘要.
三、要求与声明1.
要求2004年6月11日前提交作业(系统实现类题目包括技术报告和程序代码),报告中务必留下作者的姓名、单位、联系电话和邮件地址.
提交方式:通过电子邮件发送到如下信箱:yzhou@nlpr.
ia.
ac.
cn或直接提交光盘;2.
选做系统实现类题目的同学,不允许不同同学选做同一个题目的同一项工作,选做技术综述类题目的同学,不允许两个或几个同学选择同一个题目;3.
鼓励充分使用网络资源和其它一切可以利用的资源(包括数据、软件和论文资料),但报告中必须明确标明资源来源,严禁侵害他人知识产权,否则,后果自负;4.
严禁抄袭他人工作,否则,本课程以零分记,并通报研究生院有关部门和学生所在单位.
LOCVPS发布了7月份促销信息,全场VPS主机8折优惠码,续费同价,同时香港云地/邦联机房带宽免费升级不加价,原来3M升级至6M,2GB内存套餐优惠后每月44元起。这是成立较久的一家国人VPS服务商,提供美国洛杉矶(MC/C3)、和中国香港(邦联、沙田电信、大埔)、日本(东京、大阪)、新加坡、德国和荷兰等机房VPS主机,基于XEN或者KVM虚拟架构,均选择国内访问线路不错的机房,适合建站和远程办...
PIGYun发布了九月份及中秋节特惠活动,提供8折优惠码,本月商家主推中国香港和韩国机房,优惠后最低韩国每月14元/中国香港每月19元起。这是一家成立于2019年的国人商家,提供中国香港、韩国和美国等地区机房VPS主机,基于KVM架构,采用SSD硬盘,CN2+BGP线路(美国为CUVIP-AS9929、GIA等)。下面列出两款主机配置信息。机房:中国香港CPU:1core内存:1GB硬盘:10GB...
一、麻花云官网点击直达麻花云官方网站二、活动方案优惠码:专属优惠码:F1B07B 享受85折优惠。点击访问活动链接最新活动 :五一狂欢 惠战到底 香港云主机 1.9折起香港特价体验云主机CN2 云服务器最新上线KVM架构,,默认40G SSD,+10G自带一个IPv4,免费10Gbps防御,CPU内存带宽价格购买1核1G1M19元首月链接2核2G 2M92元/3个月链接2核4G3M112元/3个月...
原代码为你推荐
netlife熊猫烧香图片网红名字被抢注想用的微博名被人抢注了 而且是个死号 没发博没粉丝 该怎么办云计算什么是云计算?18comic.fun有什么好玩的网站同一ip网站最近我们网站老是出现同一个IP无数次的进我们网站,而且是在同一时刻,是不是被人刷了?为什么呀?百度指数词百度指数我创建的新词m.kan84.net经常使用http://www.feikan.cc看电影的进来帮我下啊www.6vhao.com有哪些电影网站partnersonline国外外贸平台有哪些?dadi.tv1223tv影院首页地址是什么?1223tv影院在哪里可以找到?
电信服务器租用 域名空间购买 网页空间租用 vps服务器 抗投诉vps主机 网站域名备案 新网域名解析 堪萨斯服务器 cve-2014-6271 win8.1企业版升级win10 国内加速器 牛人与腾讯客服对话 智能骨干网 卡巴斯基试用版 100m独享 支持外链的相册 中国电信宽带测速器 空间首页登陆 ledlamp 域名和主机 更多