Web页面的信息抽取算法设计
【摘要】本文给出一种Web页面的数据结构描述方式比对所需信息的字符串序列对通用型框架结构和数据域进行划分经规则化处理后可以对web 网页自动地生成模板从而达到抽取信息的目的。
【关键词】信息抽取通用框架算法设计
1.引言
计算机和计算机网络的发展和普及使得网络逐渐成为信息交流的关键平台。为了人们在海量的网络信息中更加便捷地获取所需信息有必要对同领域信息的抽取、汇总、集成可以建立对应领域的信息库。
Web动态网页由服务器根据请求从数据库中选取数据并嵌入到通用模板而生成缺乏结构和语义信息的描述其中包含的信息不易被一般应用程序直接获取。因此如何将网页中的数据抽取出来就变得非常迫切。Web页面的信息抽取技术为实现这一目标提供了新的途径[1]。
2.Web信息抽取的过程设计
2.1信息抽取
信息抽取Information Extraction是从文本包含中识别出用户所需的部分信息并将其转换为结构化、有特定组织形式的数据集合的过程。
2.2 Web页面信息的数据结构的定义
Web网页的基本元素用三类标签来描述分别是开始标签、结束标签以及文本内容。Web网页的数据结构是用字符串序列、标签树两种结构来描述。字符串序列是用开始标签、结束标签以及文本内容构成的一种线性数据结构标签树用开始标签和文本内容表示网页层次结构。
2.3 Web信息抽取过程的设计
Web信息抽取方法关键环节为通用框架结构检测、模板抽取。图1是Web 信息抽取的过程图。
Web信息抽取是将包含用户所需信息的Web网页中的数据自动提取到一个结构化的数据集内的信息处理过程。Web信息抽取针对有价值的文本进行结构分析其效率和质量较高更注重工程性和可操作性也更容易面向实际应用
[2]。
企鹅小屋怎么样?企鹅小屋最近针对自己的美国cn2 gia套餐推出了2个优惠码:月付7折和年付6折,独享CPU,100%性能,三网回程CN2 GIA网络,100Mbps峰值带宽,用完优惠码1G内存套餐是年付240元,线路方面三网回程CN2 GIA。如果新购IP不能正常使用,请在开通时间60分钟内工单VPS技术部门更换正常IP;特价主机不支持退款。点击进入:企鹅小屋官网地址企鹅小屋优惠码:年付6折优惠...
如今我们网友可能较多的会选择云服务器、VPS主机,对于虚拟主机的话可能很多人不会选择。但是我们有些外贸业务用途的建站项目还是会有选择虚拟主机的。今天看到的Stablehost 商家虚拟主机在黑五期间也有四折优惠,对于这个服务商而言不是特别的喜欢,虽然他们商家和我们熟悉的老鹰主机商有些类似,且在后来老鹰主机改版和方案后,Stablehost 商家也会跟随改版,但是性价比认为不如老鹰主机。这次黑色星期...
目前云服务器市场竞争是相当的大的,比如我们在年中活动中看到各大服务商都找准这个噱头的活动发布各种活动,有的甚至就是平时的活动价格,只是换一个说法而已。可见这个行业确实竞争很大,当然我们也可以看到很多主机商几个月就消失,也有看到很多个人商家捣鼓几个品牌然后忽悠一圈跑路的。当然,个人建议在选择服务商的时候尽量选择老牌商家,这样性能更为稳定一些。近期可能会准备重新整理Vultr商家的一些信息和教程。以前...