SQL Server 2008为存储和搜索非结构化数据提供了一个灵活的解决方案。FILESTREAM加强了存储数据库中的非关系数据像BLOB和关系数据的性能而没有降低可管理性。如果你需要使用一个只用于BLOB的存储那么远程BLOB存储API能够帮助你集成你的BLOB数据和你的数据库中的关系数据并提供一个一致的编程界面用于与这个数据交互还提供了系统的独立性用来存储数据。最后当你需要通过使用在这篇白皮书中讨论的任何解决方案来存储和使用大型文档库时 SQL Server2008帮助你使得搜索非关系数据更加有效也更易于管理。microsoft SQL Serve r 2008提供了一个灵活的解决方案使得可以存储非结构化数据并将它与关系数据合并起来建立使用整个公司范围内的数据的综合的解决方案。
在最近几年个人和公司创建和存储的数字数据的数量急剧膨胀。过去企业使用计算机系统和数据库以结构化格式例如关系表或固定的格式文档来存储它们的大部分商业数据软件应用程序使用这些结构化数据存储来执行商业操作。然而在现今公司的很大一部分数据是存储在使用功能强大的工具例如Mi c ros oftOffice Excel和Microsoft Office Word所创建的文档中的而数字摄影、文档扫描、视频产品和音频格式进一步的扩大了用于商业数据的非结构化数据格式的范围。此外在存储硬件和内存上的成本的显著降低极大的影响了存储在计算机中的数据的数量和类型并导致产生了新一代的商业应用这些商业应用合并了传统的关系数据结构和非结构化数字内容。数字内容的丰富意味着公司现在正在试图能够在企业范围内管理关系数据和非结构化数据并需要一个能够全面满足关系数据存储和非关系数据存储同时降低管理和建立使用这些数据的应用程序的成本的解决方案。
例如考虑一个保险索赔应用程序在过去的15年里是怎样改变的。15年前这个应用程序一般维护一列以简单的行和列来存储的保险索赔记录。而今天一个保险索赔应用程序更趋向于管理一组包括图片、照片和文档的索赔记录。它还可能需要以基于XML的格式来显示索赔数据 以此来与其它的系统集成并且它还可能包括更高级别的功能像空间可视化、报表和分析。
SQL Server2008提供了一些超出传统的数据库系统、 向能够存储、管理和查询所有类型的数据的数据平台发展的功能;包括非结构化二进制数据、 XML和空
间数据。这篇白皮书集中讲述了非结构化数据并描述了使用SQL Server 2008的存储、管理和使用非结构化数据的选项。
商业推动非结构化数据
大多数公司依赖于存储在数据库中的关键业务数据并在存储和操纵这些数据的数据管理系统和应用上投入很大。然而 日渐增长的业务产生了大量的数字图片、文档视频和其它多媒体格式的非关系和非结构化数据——这些新的数据格式迅速成为正式的和非正式的商业处理的一个关键组成部分它们与现有的商业应用程序集成在一起遵守调整要求或者简单的提供了一个更加丰富的用户体验。
例如在下面这些商业情景中
◆一个保险公司需要存储政策文档和按照要求处理来提取这些文档。
◆一个在线的零售商需要存储用于在一个电子商城中显示它的产品的视频胶片。
◆一个电话系统需要保存语音信息的音频流以便他们可以远程传送。
◆一个广播台需要制作一个在它的网站上用于下载的并可以搜索的广播库。
◆一个操作需要存储文档的图片形式的电子拷贝并能很容易的获取与一个单独的客户端或例子相关的文档。
◆一个建筑合伙企业需要存储和提取数字计划和其相关联的客户端数据。
◆一个需要转换和保存大量的现有的文件和分类内容的库用于在一个数字搜索工具中进行检索和使用。
这些是全球商业中使用的非机构化数字数据的一些新的例子;并且随着创建数字内容变得越来越容易公司也在寻找新的创新方式来使用这个数字内容来改进或扩展它们的商业能力。
对于非结构化数据的挑战
当新的非结构化数据的类型在不断增加的同时数字内容带来了很多好处和商业机遇但是它同时还带来了一些针对需要合并这些非结构化数据源到计算机应用程序和服务中去的系统架构师、管理员和应用程序开发人员的挑战。
存储非结构化数据的挑战
要考虑的第一个挑战 同时也可能是最明显的挑战就是非结构化数据的大
量存储。你值得拥有一个使你可以灵活地满足存储非关系数据、同时将成本和管理费用降低到最小的特定需求的系统。当你计划存储非结构化数据时你要考虑的主要问题包括
◆存储你的非结构化数据的成本不只是包括硬件成本还包括管理成本。
◆非结构化数据的物理存储位置例如文件服务器和网络附加存储(NAS)设备。
◆管理持久力和存档政策。
◆将非结构化数据文件和相关联的关系数据集成起来并维护结构化数据源和非结构化数据源间的事务一致性。
◆将与维护关系数据和非结构化数据相关的管理费用降低到最小。
◆性能和可扩展性。 .
◆保护非结构化数据并确保相关的关系数据的一致性。
◆非结构化数据的可用性和可恢复性。
使用非结构化数据的挑战
还有关于存储非结构化数据的相关问题你必须考虑数据将怎样被你公司的应用程序使用。一些具有代表性的要考虑的事项包括
◆在建立使用结构化数据和非结构化数据的应用程序时遇到的开发挑战包括编写代码来创建、提取、更新和删除非结构化数据并维护相关联的关系数据源和非结构化数据源间的事务一致性。
◆索引和搜索非结构化数据。
◆显式提取可用的元数据(例如从表格区域或文件属性) 并将它显示给用户。
◆将文档内容转换为可以搜索和查询的格式(例如转换音频文件到文本形式从而可以被数据库查询或纯文本引擎检索到。 )
在SQL Server2008中的非结构化数据的目标
非结构化数据面临的相关挑战反应了那些开始为数字内容建立解决方案的公司所关注的一些常见情况
◆管理多个不同的平台来处理关系数据和非关系数据从而导致不必要的复杂性。
◆这些分散的数据存储使得对于开发人员来说增加了复杂度并提高了经
理的部署难度。
◆开发人员和数据库管理员缺乏在这些不同的数据类型中可以使用的服务。
SQL Server2008旨在解决这些问题通过
◆降低管理这些不同的数据类型的成本。
◆简化使用关系数据和非关系数据的应用程序的开发工作。
◆将现在只用于关系数据的功能扩展到非关系数据。
在SQL Server2008中存储非结构化数据
依赖于关系数据和非关系数据的应用程序通常使用下面的三个架构中的一个
◆数据库中的关系数据以及文件系统和文件服务器上的非关系型二进制大对象(BLOB) 。
◆数据库中的关系数据和只用于BLOB的存储中的非关系数据。
◆数据库中的关系数据和非关系数据。
每一个方法都有其优劣之处。例如在文件服务器或只用于B LO B的存储中存储非结构化数据会降低每GB所花费的费用但是通常会增加管理和建立应用程序的复杂性 因为应用程序不得不维护包含BLOB数据的数据库和单独的系统中的记录以及这些记录所关联的对象间的完整性。另一方面在数据库中存储BLOB数据方便地集中了数据存储但是通常带来了更高的成本并会导致性能下降。
SQL Server2008推出了两个用于存储BLOB数据的新功能
◆FILESTREAM是一个你可以在varbinary字段上设置的属性 以便数据存储在文件系统中(因此受益于它的快速流式功能和存储能力)但是直接在数据库的上下文中管理和访问。 :
◆远程BLOB存储一个客户端应用程序编程接口(API) 它降低了建立依赖于一个用于B LO B的外部存储和一个用于关系数据的数据库的应用程序的复杂性。
此外SQL Server2008继续通过varbinary数据库类型支持标准的BLOB字段。
SQL Server BLOB
SQL Server 2005推出了varbinary(max)数据类型它使得你可以在一个SQLServer字段或变量中存储最大为2 147 483 647字节的大型二进制数据值。
当使用修订过的max时你可以通过设置large value types out of row表选项来控制数据怎样存储在物理的表的数据页面中。当这个选项设置为ON时所有的值存储在单独的链接页面上而在这个记录的数据页面上会保存一个指向这些页面的16位的根指针。当这个选项设置为OFF时最大为8000字节的值存储在这行的数据页面上而更大的值存储在单独的链接页面上。
尽管新的 FILESTREAM和远程BLOB能力是设计用来提供比标准的varbinaryBLOB字段更好的性能和可管理性但有一些场景是使用varbinary字段更适合的(具有代表性的是当BLOB平均规模小于250 KB的时候。 )
FILESTREAM属性
在SQL Server 2008中你可以将FILESTREAM属性应用到一个varbinary字段然后SQL Server为这个字段在本地NTFS文件系统上存储数据。在文件系统上存储数据带来两个重大的优势
◆性能可匹配文件系统的流性能。
◆BLOB规模只受文件系统的空间规模限制。
然而字段可以像SQL Server中的其它任何BLOB字段一样来管理所以管理员可以使用SQL Server的可管理性和安全功能来集成BLOB数据管理和关系数据库中的其它数据——而不需要单独管理文件系统数据。在SQL Server中将数据定义为一个FILESTREAM字段还确保了在数据库中的关系数据和存储在文件系统中的非结构化数据在数据级的一致性。FILESTREAM字段的使用和BLOB字段一样这意味着维护操作的完全集成(例如备份和恢复)、和SQL Server安全模型的完全集成、 以及纯事务的支持。
应用程序开发人员可以通过两个编程模型中的一个来使用FILESTREAM数据;他们可以使用Transact-SQL就像对待标准的BLOB字段一样的来访问和操纵数据或者他们可以使用Win32流式API和Transact-SQL事务型语义来确保一致性这意味着他们可以对FILESTREAM BLOB使用标准的Win32读/写调用这和他们与文件系统上的文件交互时所做的一样。
在SQL Server 2008中 FILESTREAM字段只可以将数据存储在本地磁盘空间并且FILESTREAM字段不支持像简单加密和以表为值的参数等功能。此外你不能在数据库快照或数据库镜像会话中使用包含了FILESTREAM字段的表不过支
持日志传送功能。
远程BLOB存储API
尽管FILESTREAM属性将文件系统的性能和可扩展性与在数据库中存储BLOB的可管理性和数据一致性结合起来但是通常会出现在像EMC Centera、Fujitsu Nearl ine、 Microsoft windows®这样的文件服务器或其它任何只用于BLOB的存储的系统中存储BLOB更有效或成本利用率更高的场景。在SQL Server 2008中的远程BLOB存储API通过提供一个基于提供商的架构使得可以更容易的将只用于远程BLOB存储解决方案和你的数据库中的关系数据集成起来这个架构使得你的应用程序可以使用任何BLOB存储而不需要特定的BLOB存储功能或代码。
在架构方面有两个关键部分
◆客户端库它是一个能够使得任何提供商和你的BLOB以及关系数据一起使用的组件。客户端应用程序使用客户端库和任何适用的提供商库来插入、更新和查询存储在BLOB中的数据和数据库中存储的数据。
◆供应商库它是一个由BLOB存储供应商提供的具有代表性的组件(尽管它可以定制开发) 。供应商库实现了一个常规接口提供了一组标准的服务这些服务抽象了对这个特定的存储执行Create、Fetch、Enumerate、Delete和GarbageCol lect操作的细节。
当你的数据库B LO B需要存储在与数据库不同的服务器上并需要和其它系统协作时远程BLOB存储API(Remote BLOB Store API)是一个理想的选择。它对BLOB存储没有任何限制。任何提供远程BLOB存储提供商的系统或任何可以建立于远程BLOB存储提供商的系统都支持它。因为与BLOB存储的交互细节被提供商库抽象出来了所以你可以改变存储而不必改动应用程序这带来了很大的好处并且降低了开发人员和管理员的复杂度。Mi c ros oft与业内的所有存储供应商合作以确保提供一个适当的供应商库用于远程BLOB存储API 。 使用远程BLOB存储API使你能够灵活地使用不同的系统来管理关系数据和非关系数据。远程BLOB存储API通过链接级别的一致性维护了数据库中的记录与在外部存储的BLOB之间的一致性。例如如果你通过一个删除语句从数据库中删除B LO B参照系统将从存储中删除BLOB。然而使用远程BLOB存储API不能提供随着BLOB直接存储到数据库中而来的数据级别的一致性 要做到这一点你需要使用
FILESTREAM或者varbinary。
比较BLOB的存储选择
下表比较了SQL Server 2008中的BLOB数据的存储选择。
表1 BLOB存储选项对照
这些选项意味着SQL Server 2008为存储非结构化数据提供了一个最适合你的业务需求的灵活的解决方案。
在SQL Server2008中搜索非结构化数据
使用非关系数据的应用程序的一个最常见的要求是使得可以在数据上作纯文本搜索。
综合的纯文本搜索
SQL Server在之前的版本中支持纯文本搜索。然而它一直依赖于一个外部的服务——Windows Search Service——作为它的纯文本搜索引擎。使用外部服务产生了下面两个挑战
◆对外部服务的依赖使得部署更加复杂也更难进行支持。
◆结合了纯文本搜索谓词和标准的SQL谓词的查询性能受到影响 因为从搜索的纯文本部分得来的整个结果集不得不在标准的谓词应用之前放置在这个引擎上。查询优化器不能创建与纯文本搜索谓词协作的计划。
在SQL Server2008纯文本搜索是完全集成在数据库引擎中的。通过将纯文本引擎直接集成到SQL核心中SQL Server 2008解决了之前版本中所面临的挑战降低了管理和部署SQL Server的成本 同时提高了搜索非结构化数据的性能。
ftlcloud怎么样?ftlcloud(超云)目前正在搞暑假促销,美国圣何塞数据中心的云服务器低至9元/月,系统盘与数据盘分离,支持Windows和Linux,免费防御CC攻击,自带10Gbps的DDoS防御。FTL-超云服务器的主要特色:稳定、安全、弹性、高性能的云端计算服务,快速部署,并且可根据业务需要扩展计算能力,按需付费,节约成本,提高资源的有效利用率。点击进入:ftlcloud官方网站...
AlphaVPS是一家保加利亚本土主机商(DA International Group Ltd),提供VPS主机及独立服务器租用等,数据中心包括美国(洛杉矶/纽约)、德国、英国和保加利亚等,公司办公地点跟他们提供的保加利亚数据中心在一栋楼内,自有硬件,提供IPv4+IPv6,支持PayPal或者信用卡等方式付款。商家提供的大硬盘VPS主机,提供128GB-2TB磁盘,最低年付15欧元起,也可以选择...
819云互联是海外领先的互联网业务平台服务提供商。专注为用户提供低价高性能云计算产品,致力于云计算应用的易用性开发,并引导云计算在国内普及。目前平台研发以及运营云服务基础设施服务平台(IaaS),面向全球客户提供基于云计算的IT解决方案与客户服务,拥有丰富的海外资源、香港,日本,美国等各国优质的IDC资源。官方网站:https://www.819yun.com香港特价物理服务器:地区CPU内存带宽...