数据探讨重复数据删除技术在中央电台媒资备份存储系统中应用(新闻传媒学范文)

itunes备份在哪  时间:2021-02-27  阅读:()

封面

《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》

Word格式可编辑含目录

精心整理放心阅读欢迎下载

文档信息

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

目录

一、引言

二、数据冗余

三、重复数据删除概念

四、 S48音频文件格式

S48音频格式是指比特率为256k b i t s

1.帧头结构

五、重复数据删除设计思路

1.数据库

2.文件切分

3.方案实施

正文

探讨重复数据删除技术在中央电台媒资备份存储系统中应用探讨重复数据删除技术在中央电台媒资备份存储系统中应用

作者/刘华

一、引言

2012年初 中央电台媒资备份存储系统正式投入使用。经过一年的运行大量的节目内容丰富的历史资料迅速将中央电台媒资备份存储系统填满严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B增加30TB总计达到50T B。短短一年时间磁盘空间需求已经翻番可以预见 中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。

二、数据冗余

目前 中央电台媒资备份存储系统中存在大量的重复和冗余数据造成数据冗余的原因可能是人为的

·为了确保文件的安全性无意中将同样的文件存储了多份

·不同文件的部分内容重复。

冗余数据占据了大量的存储空间降低了存储空间的利用效率。 图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。

更重要的是这些大量的冗余数据给媒资备份存储系带来了大量的问题

·占用大量存储空间降低存储利用效率

·增加建设成本

·增加额外数据管理代价。

三、重复数据删除概念

通过相关研究和对实际系统的分析发现在海量数字存储系统中存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据对相同数据只存储一份和只存储相似数据的不同部分可以有效利用存储空间从而有效降低存储系统成本。

重复数据删除是一种数据缩减技术 旨在最小化文件之间的冗余和重复的无损压缩并对存储容量进行有效优化。它通过删除数据集中重复的数据只保留其中一份从而达到消除冗余数据目的。

目前绝大多数的重复数据删除算法都工作在二进制数据层次上通常使用一些数据切分算法如以整个文件为切分粒度 固定大小的数据切分或者某些H A S H函数如R a b i nFingerprinting算法 将每一个带归档的文件切分成若干相互不重叠的数据片段并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中只有不重复的数据片段才真正存储到存储设备中而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。

四、 S48音频文件格式

与其他存储系统中元数据的文件类型、文件格式多样化不同 中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言我们需要熟悉S48文件并针对S48文件特点进行重复数据删除工作。

S48音频格式是指比特率为256k b i t s采样率为48000H z的MPEG1-2格式。

帧是MPEG-1处理的最小单元。每个帧又由

1.帧头结构

帧头长4字节对于固定位率的MP文件所有帧的帧头格式一样其数据结构如下typedef FrameHeader{uigned int syn 11  同步信息uigned int veion 2  版本uigned int layer 2  层uigned int protection 1  CRC校验uigned int bitrate 4  位率

uigned int frequency 2  频率uagned int padding 1  帧长调节uigned int private 1  保留字uigned int mode 2  声道模式uagned int mode exteion 2  扩充模式uigned int copyright 1  版权uigned int original 1  原版标志uigned int emphasis 2  强调模式

}HEADER *LPHEAD ER

帧头4字节使用说明见表1

帧文件尾的最后128个字节用来存放ID3信息这128个字节使用说明见表2。

五、重复数据删除设计思路

重复数据删除的主要思路是通过利用不同层次上的元数据信息如文件类型、文件格式、应用类型和文件系统元数据等来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类

·应用元数据如文件类型、文件格式、应用软件信息等

·应用或用户的标记如用于描述图片、音频、视频等多媒体文件特性的各种标记

·文件系统级元数据如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言我们就需要从以下三方面实现“瘦身”

1.数据库

在对数据库进行操作过程中重复的数据可能有这样两种情况第一种是两行记录完全一样第二种是表中只有某些字段一样。

·两行记录完全一样

对于表中两行记录完全一样的情况可以用下面语句获取到去掉重复数据后的记录select distinct * from表名

可以将查询的记录放到暂时表中然后再将原来的表记录删除最初将暂时表的数据导回原来的表中。如下createTABLE暂时表AS selectdistinct*from表名truncatetable正式表

iertinto正式表select*from暂时表droptable暂时表

·表中只有某些字段一样

假如想删除一个表的重复数据可以先建一个暂时表将去掉重复数据后的数据导入到暂时表然后在从暂时表将数据导入正式表中如下iertINTOt_table_bak

selectdistinct*fromt_table;

2.文件切分

重复数据删除对于S48音频文件切分算法的`实现基于以下的观察和思考许多不同的文件有着相同的音频内容和不同的TAG描述信息 即相同的歌曲由同一个歌手演唱但发布在不同专辑或者相同的内容由不同编辑制作这样就有了不同的TA G。因此一般把每个S 48文件划分成三个部分帧头、音频帧、 TAG其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中音频帧作为一个逻辑数据片段存储 以便进一步被打包成物理对象实际存储在磁盘设备上。

具有相同音频的数据内容被切成一个数据片段只需保存其中一份即可。 由于某些HASH函数如Rabin Fingerprinting算法可以捕获到二进制层次上的重复所以若两个数据对象具有相同的内容则

可进一步进行重复数据删除只存不重复的数据对象。 图3展示了上述过程并说明在存储系统中数据组织的层次关系。

3.方案实施

重复数据删除主要是针对大规模存储系统设计其进程可以部署在不同的应用服务器上且可作为核心进程运行。因此其方案需要有较好的可扩展性易于进行数据容灾的部署。

因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器文件归档服务器元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。 图4展示存储系统体系结构。

应用服务器为各种应用的宿主服务器如WEB服务器流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点 同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件 即操作系统、阵列柜、磁带库、文件系统等组成。

对于每个存储文件首先根据其相应的元数据信息被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象 由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智

HTTPS加密协议端口默认是多少且是否支持更换端口访问

看到群里网友们在讨论由于不清楚的原因,有同学的网站无法访问。他的网站是没有用HTTPS的,直接访问他的HTTP是无法访问的,通过PING测试可以看到解析地址已经比较乱,应该是所谓的DNS污染。其中有网友提到采用HTTPS加密证书试试。因为HTTP和HTTPS走的不是一个端口,之前有网友这样测试过是可以缓解这样的问题。这样通过将网站绑定设置HTTPS之后,是可以打开的,看来网站的80端口出现问题,而...

易探云:香港大带宽/大内存物理机服务器550元;20Mbps带宽!三网BGP线路

易探云怎么样?易探云隶属于纯乐电商旗下网络服务品牌,香港NTT Communications合作伙伴,YiTanCloud Limited旗下合作云计算品牌,数十年云计算行业经验。发展至今,我们已凝聚起港内领先的开发和运维团队,积累起4年市场服务经验,提供电话热线/在线咨询/服务单系统等多种沟通渠道,7*24不间断服务,3分钟快速响应。目前,易探云提供香港大带宽20Mbps、16G DDR3内存、...

热网互联33元/月,香港/日本/洛杉矶/韩国CN2高速线路云主机

热网互联怎么样?热网互联(hotiis)是随客云计算(Suike.Cloud)成立于2009年,增值电信业务经营许可证:B1-20203716)旗下平台。热网互联云主机是CN2高速回国线路,香港/日本/洛杉矶/韩国CN2高速线路云主机,最低33元/月;热网互联国内BGP高防服务器,香港服务器,日本服务器全线活动中,大量七五折来袭!点击进入:热网互联官方网站地址热网互联香港/日本/洛杉矶/韩国cn2...

itunes备份在哪为你推荐
手机游戏排行榜20152017年的手游排行榜?如何免费开通黄钻如何免费开通黄钻spgnux思普操作系统怎么样照片转手绘如何把真人图片用photoshop做成手绘图片奇虎论坛360有论坛中心?三星s8什么时候上市三星盖乐世S8上市时间公布 三星盖乐世s8多少钱blogcn远目是什么意思?声母是什么什么是声母office2007简体中文版到目前为止OFFICE都有哪些版本(简体中文版)?淘宝软文范例在淘宝上卖文案软文的一般都是什么人,指着这笔收入活不下去吧,收入一般怎么样啊?
青岛虚拟主机 太原域名注册 域名商 l5639 mediafire iis安装教程 贵州电信宽带测速 debian源 嘉洲服务器 52测评网 泉州电信 免费吧 支付宝扫码领红包 安徽双线服务器 美国凤凰城 免费网络 测速电信 可外链的相册 重庆服务器 深圳主机托管 更多