数据探讨重复数据删除技术在中央电台媒资备份存储系统中应用(新闻传媒学范文)

itunes备份在哪  时间:2021-02-27  阅读:()

封面

《探讨重复数据删除技术在中央电台媒资备份存储系统中应用》

Word格式可编辑含目录

精心整理放心阅读欢迎下载

文档信息

探讨重复数据删除技术在中央电台媒资备份存储系统中应用

目录

一、引言

二、数据冗余

三、重复数据删除概念

四、 S48音频文件格式

S48音频格式是指比特率为256k b i t s

1.帧头结构

五、重复数据删除设计思路

1.数据库

2.文件切分

3.方案实施

正文

探讨重复数据删除技术在中央电台媒资备份存储系统中应用探讨重复数据删除技术在中央电台媒资备份存储系统中应用

作者/刘华

一、引言

2012年初 中央电台媒资备份存储系统正式投入使用。经过一年的运行大量的节目内容丰富的历史资料迅速将中央电台媒资备份存储系统填满严重掣肘了节目归档、素材入库等媒资管理工作。近期中央电台完成了媒资备份存储系统在线扩容工作。备份存储的磁盘容量由之前的20T B增加30TB总计达到50T B。短短一年时间磁盘空间需求已经翻番可以预见 中央电台媒资备份存储系统还将面临磁盘空间短缺的问题。面对日益爆炸的数据增长和由此不断上升产生的存储压力难题如何控制和有效降低海量数据显得尤为重要。重复数据删除技术无疑是“瘦身”的一项不错选择。

二、数据冗余

目前 中央电台媒资备份存储系统中存在大量的重复和冗余数据造成数据冗余的原因可能是人为的

·为了确保文件的安全性无意中将同样的文件存储了多份

·不同文件的部分内容重复。

冗余数据占据了大量的存储空间降低了存储空间的利用效率。 图1展示了关于媒资备份存储系统中重复数据的比例、来源和分析。

更重要的是这些大量的冗余数据给媒资备份存储系带来了大量的问题

·占用大量存储空间降低存储利用效率

·增加建设成本

·增加额外数据管理代价。

三、重复数据删除概念

通过相关研究和对实际系统的分析发现在海量数字存储系统中存在大量的重复数据和相似数据。通过重复数据删除技术可以有效去除这些重复数据对相同数据只存储一份和只存储相似数据的不同部分可以有效利用存储空间从而有效降低存储系统成本。

重复数据删除是一种数据缩减技术 旨在最小化文件之间的冗余和重复的无损压缩并对存储容量进行有效优化。它通过删除数据集中重复的数据只保留其中一份从而达到消除冗余数据目的。

目前绝大多数的重复数据删除算法都工作在二进制数据层次上通常使用一些数据切分算法如以整个文件为切分粒度 固定大小的数据切分或者某些H A S H函数如R a b i nFingerprinting算法 将每一个带归档的文件切分成若干相互不重叠的数据片段并把这些数据片段作为逻辑单位进行后续处理和存储操作。在这些数据片段中只有不重复的数据片段才真正存储到存储设备中而其他的重复数据片段只需记录其ID和相应的依赖文件的对应关系即可。

四、 S48音频文件格式

与其他存储系统中元数据的文件类型、文件格式多样化不同 中央电台媒资备份存储系统中的元数据的文件类型、文件格式只有S48格式的音频文件。对于重复数据删除技术而言我们需要熟悉S48文件并针对S48文件特点进行重复数据删除工作。

S48音频格式是指比特率为256k b i t s采样率为48000H z的MPEG1-2格式。

帧是MPEG-1处理的最小单元。每个帧又由

1.帧头结构

帧头长4字节对于固定位率的MP文件所有帧的帧头格式一样其数据结构如下typedef FrameHeader{uigned int syn 11  同步信息uigned int veion 2  版本uigned int layer 2  层uigned int protection 1  CRC校验uigned int bitrate 4  位率

uigned int frequency 2  频率uagned int padding 1  帧长调节uigned int private 1  保留字uigned int mode 2  声道模式uagned int mode exteion 2  扩充模式uigned int copyright 1  版权uigned int original 1  原版标志uigned int emphasis 2  强调模式

}HEADER *LPHEAD ER

帧头4字节使用说明见表1

帧文件尾的最后128个字节用来存放ID3信息这128个字节使用说明见表2。

五、重复数据删除设计思路

重复数据删除的主要思路是通过利用不同层次上的元数据信息如文件类型、文件格式、应用类型和文件系统元数据等来指导数据切分算法将文件划分为更有意义的数据片段。元数据信息分为以下三类

·应用元数据如文件类型、文件格式、应用软件信息等

·应用或用户的标记如用于描述图片、音频、视频等多媒体文件特性的各种标记

·文件系统级元数据如目录条目、文件的INODE信息等。重复数据删除的主要目标是最大限度减小文件之间的重复和冗余数据。对于中央电台媒资备份存储系统而言我们就需要从以下三方面实现“瘦身”

1.数据库

在对数据库进行操作过程中重复的数据可能有这样两种情况第一种是两行记录完全一样第二种是表中只有某些字段一样。

·两行记录完全一样

对于表中两行记录完全一样的情况可以用下面语句获取到去掉重复数据后的记录select distinct * from表名

可以将查询的记录放到暂时表中然后再将原来的表记录删除最初将暂时表的数据导回原来的表中。如下createTABLE暂时表AS selectdistinct*from表名truncatetable正式表

iertinto正式表select*from暂时表droptable暂时表

·表中只有某些字段一样

假如想删除一个表的重复数据可以先建一个暂时表将去掉重复数据后的数据导入到暂时表然后在从暂时表将数据导入正式表中如下iertINTOt_table_bak

selectdistinct*fromt_table;

2.文件切分

重复数据删除对于S48音频文件切分算法的`实现基于以下的观察和思考许多不同的文件有着相同的音频内容和不同的TAG描述信息 即相同的歌曲由同一个歌手演唱但发布在不同专辑或者相同的内容由不同编辑制作这样就有了不同的TA G。因此一般把每个S 48文件划分成三个部分帧头、音频帧、 TAG其中帧头和音频帧被解析和存在元数据服务器数据库的某张表中音频帧作为一个逻辑数据片段存储 以便进一步被打包成物理对象实际存储在磁盘设备上。

具有相同音频的数据内容被切成一个数据片段只需保存其中一份即可。 由于某些HASH函数如Rabin Fingerprinting算法可以捕获到二进制层次上的重复所以若两个数据对象具有相同的内容则

可进一步进行重复数据删除只存不重复的数据对象。 图3展示了上述过程并说明在存储系统中数据组织的层次关系。

3.方案实施

重复数据删除主要是针对大规模存储系统设计其进程可以部署在不同的应用服务器上且可作为核心进程运行。因此其方案需要有较好的可扩展性易于进行数据容灾的部署。

因此在媒资备份存储系统内部署重复删除技术至少需要包括应用服务器文件归档服务器元数据服务器和智能存储节点等四部分组件实现重复数据删除和数据存储。 图4展示存储系统体系结构。

应用服务器为各种应用的宿主服务器如WEB服务器流媒体服务器等部署应用服务端软件。文件归档服务器主要是将文件归档到存储节点 同时部署重复数据删除软件的地方。元数据服务器主要对元数据管理、与应用服务器交互、安全机制的部署等服务。智能存储节点是完全由通用组件 即操作系统、阵列柜、磁带库、文件系统等组成。

对于每个存储文件首先根据其相应的元数据信息被文件归档服务器切分成若干不重叠的数据片段。每一个数据片段将对内容通过某些Hash函数计算得到的签名作为其标识符用以判断当前是否有重复的数据片段存在。不重复的数据片段将被封装成定长的数据对象 由元数据服务器决定将它们存储到对应的智能存储节点中。最后当数据的存储位置信息将会返回到文件归档服务器。文件归档服务器可以与智

青云互联:香港安畅CN2弹性云限时首月五折,15元/月起,可选Windows/可自定义配置

青云互联怎么样?青云互联是一家成立于2020年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,目前提供有美国免费主机、香港主机、韩国服务器、香港服务器、美国云服务器,香港安畅cn2弹性云限时首月五折,15元/月起;可选Windows/可自定义配置,让您的网站高速、稳定运行。点击进入:青云互联官方网站地址青云互联优惠码:八折优惠码:ltY8sHMh (续费同价)青云互联香港云服务器活动...

ProfitServer折优惠西班牙vps,荷兰vps,德国vps,5折优惠,不限制流量

profitserver正在对德国vps(法兰克福)、西班牙vps(马德里)、荷兰vps(杜廷赫姆)这3处数据中心内的VPS进行5折优惠促销。所有VPS基于KVM虚拟,纯SSD阵列,自带一个IPv4,不限制流量,在后台支持自定义ISO文件,方便大家折腾!此外还有以下数据中心:俄罗斯(多机房)、捷克、保加利亚、立陶宛、新加坡、美国(洛杉矶、锡考克斯、迈阿密)、瑞士、波兰、乌克兰,VPS和前面的一样性...

PacificRack:洛杉矶KVM月付1.5美元起,1G内存套餐年付12美元起

PacificRack在本月发布了几款特价产品,其中最低款支持月付仅1.5美元,基于KVM架构,洛杉矶机房,PR-M系列。PacificRack简称PR,QN机房旗下站点,主要提供低价VPS主机产品,基于KVM架构,数据中心为自营洛杉矶机房,现在只有PR-M一个系列,分为了2个类别:常规(Elastic Compute Service)和多IP产品(Multi IP Server)。下面列出几款秒...

itunes备份在哪为你推荐
邮箱打不开怎么办我的邮箱打不开怎么办伪静态怎么做伪静态?不兼容软件和电脑不兼容会怎样?网店推广网站怎么免费推广淘宝店铺?人人逛街人人逛街评论怎么不显示链接了?好像4月28日就不能显示了。是什么原因呢?ejb开发什么是EJB?网站优化方案一个网站进行优化的流程及步骤宽带接入服务器网络已连接,可无法连接到服务器为什么?网络已连接,可无法连接到服务微信怎么看聊天记录什么方法可以知道微信的聊天记录去鼠标加速度怎样去除电脑鼠标加速?
域名服务器的作用 科迈动态域名 大硬盘 mach5 163网 表格样式 ibox官网 165邮箱 卡巴斯基免费试用版 网购分享 美国盐湖城 net空间 lamp什么意思 免费个人主页 云服务是什么意思 789电视剧网 accountsuspended godaddy中文 cpu使用率过高怎么办 美国服务器 更多