Web页面的信息抽取算法设计
【摘要】本文给出一种Web页面的数据结构描述方式比对所需信息的字符串序列对通用型框架结构和数据域进行划分经规则化处理后可以对web 网页自动地生成模板从而达到抽取信息的目的。
【关键词】信息抽取通用框架算法设计
1.引言
计算机和计算机网络的发展和普及使得网络逐渐成为信息交流的关键平台。为了人们在海量的网络信息中更加便捷地获取所需信息有必要对同领域信息的抽取、汇总、集成可以建立对应领域的信息库。
Web动态网页由服务器根据请求从数据库中选取数据并嵌入到通用模板而生成缺乏结构和语义信息的描述其中包含的信息不易被一般应用程序直接获取。因此如何将网页中的数据抽取出来就变得非常迫切。Web页面的信息抽取技术为实现这一目标提供了新的途径[1]。
2.Web信息抽取的过程设计
2.1信息抽取
信息抽取Information Extraction是从文本包含中识别出用户所需的部分信息并将其转换为结构化、有特定组织形式的数据集合的过程。
2.2 Web页面信息的数据结构的定义
Web网页的基本元素用三类标签来描述分别是开始标签、结束标签以及文本内容。Web网页的数据结构是用字符串序列、标签树两种结构来描述。字符串序列是用开始标签、结束标签以及文本内容构成的一种线性数据结构标签树用开始标签和文本内容表示网页层次结构。
2.3 Web信息抽取过程的设计
Web信息抽取方法关键环节为通用框架结构检测、模板抽取。图1是Web 信息抽取的过程图。
Web信息抽取是将包含用户所需信息的Web网页中的数据自动提取到一个结构化的数据集内的信息处理过程。Web信息抽取针对有价值的文本进行结构分析其效率和质量较高更注重工程性和可操作性也更容易面向实际应用
[2]。
野草云服务商在前面的文章中也有多次提到,算是一个国内的小众服务商。促销活动也不是很多,比较专注个人云服务用户业务,之前和站长聊到不少网友选择他们家是用来做网站的。这不看到商家有提供香港云服务器的优惠促销,可选CN2、BGP线路、支持Linux与windows系统,支持故障自动迁移,使用NVMe优化的Ceph集群存储,比较适合建站用户选择使用,最低年付138元 。野草云(原野草主机),公司成立于20...
易速互联怎么样?易速互联是国人老牌主机商家,至今已经成立9年,商家销售虚拟主机、VPS及独立服务器,目前商家针对美国加州萨克拉门托RH数据中心进行促销,线路采用BGP直连线路,自带10G防御,美国加州地区,100M带宽不限流量,月付299元起,有需要美国不限流量独立服务器的朋友可以看看。点击进入:易速互联官方网站美国独立服务器优惠套餐:RH数据中心位于美国加州、配置丰富性价比高、10G DDOS免...
Pia云是一家2018的开办的国人商家,原名叫哔哔云,目前整合到了魔方云平台上,商家主要销售VPS服务,采用KVM虚拟架构 ,机房有美国洛杉矶、中国香港和深圳地区,洛杉矶为crea机房,三网回程CN2 GIA,带20G防御,常看我测评的朋友应该知道,一般带防御去程都是骨干线路,香港的线路也是CN2直连大陆,目前商家重新开业,价格非常美丽,性价比较非常高,有需要的朋友可以关注一下。活动方案...