DataHub产品简介产品简介产品概述产品概述DataHub基本介绍阿里云流数据处理平台DataHub是流式数据(StreamingData)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用.
DataHub服务可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理.
用户可以编写应用程序或者使用流计算引擎来处理写入到DataHub的流式数据比如实时web访问日志、应用日志、各种事件等,并产出各种实时的数据处理结果比如实时图表、报警信息、实时统计等.
DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点.
DataHub与阿里云流计算引擎StreamCompute无缝连接,用户可以轻松使用SQL进行流数据分析.
DataHub服务也提供分发流式数据到各种云产品的功能,目前支持分发到MaxCompute(原ODPS),OSS等.
系统整体功能图DataHub产品简介1---------产品优势高吞吐最高支持单shard每日8000万Record级别的写入量.
实时性通过DataHub,您可以实时的收集各种方式生成的数据并进行实时的处理,对您的业务产生快速的响应.
易用性DataHub提供丰富的SDK包,包括C++,JAVA,Pyhon,Ruby,Go等语言.
DataHub服务也提供RestfulAPI规范,您可以用自己的方式实现访问接口.
除了SDK以外,DataHub还提供一些常用的客户端插件,包括:Fluentd,LogStash,Flume等.
您可以使用这些客户端工具往DataHub里面写入流式数据.
DataHub同时支持强Schema的结构化数据(创建Tuple类型的Topic)和无类型的非结构化数据(创建Blob类型的Topic),您可以自由选择.
高可用服务可用性不低于99.
9%.
规模自动扩展,不影响对外服务;数据持久性不低于99.
999%.
数据自动多重冗余备份.
动态伸缩每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题256000Records/s的吞吐量.
高安全性提供企业级多层次安全防护,多用户资源隔离机制;提供多种鉴权和授权机制及白名单、主子账号功能.
使用场景DataHub作为一个流式数据处理服务,结合阿里云众多云产品,可以构建一站式的数据处理服务.
DataHub产品简介2流计算StreamComputeStreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算.
DataHub和StreamCompute无缝结合,可以作为StreamCompute的数据源和输出源,具体可参考实时计算文档流处理应用用户可以编写应用订阅DataHub中的数据,并进行实时的加工,把加工后的结果输出.
用户可以把应用计算产生的结果输出到DataHub中,并使用另外一个应用来处理上一个应用生成的流式数据,来构建数据处理流程的DAG.
流式数据归档用户的流式数据可以归档到MaxCompute(原ODPS)中.
用户通过创建DataHubConnector,指定相关配置,即可创建将Datahub中流式数据定期归档的同步任务.
应用场景DataHub产品简介3应用场景1.
实时数据通道1.
1接入多种异构数据并投递到下游多种大数据系统通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值.
1.
2收益系统解耦对外,大数据系统与业务系统解耦,对内,大数据系统各组件之间解耦.
实时通道通过数据总线,业务数据能够实时汇入大数据系统,缩短数据分析周期.
DataHub产品简介42.
实时数据清洗和分析2.
1接入多种异构数据,实时清洗并归一化通过数据总线和实时计算,您可以把多种数据源的异构数据实时清洗成统一的结构化数据,为进一步分析做准备.
2.
2收益实时ETL接入多种数据源,实时进行清洗、过滤、关联与转换,产出结构化数据.
实时分析亚秒级产出业务指标,把握转瞬即逝的数据价值.
DataHub产品简介5**3.
实时数据仓库3.
1数据总线替换传统数据库,构建实时数仓从Lambda架构到Kappa架构,通过数据总线搭建原始数据层,实时明细层和实时汇总层,打造实时数据仓库.
3.
2收益统一的Kappa架构传统Lambda架构的两条链路缩减为一条,大大降低维护成本.
大数据实时化数仓是大数据的基础,实时化的数仓能够让BI、报表、推荐(用户标签产出)等多种业务收益,大数据系统总体向实时化迈进.
DataHub产品简介6功能概览功能概览1.
产品优势1.
1稳定性脱胎于阿里内部实时传输系统,支持历年双十一,久经考验,稳定可靠.
1.
2高吞吐最高支持单主题(Topic)每日T级别的数据量写入,每个分片(Shard)支持最高每日百GB级别的写入量.
DataHub产品简介71.
3低成本随开随用,按量付费,每一分钱都花在刀刃上.
1.
4生态融合系出飞天,与阿里云大数据系统深度整合,无缝对接MaxCompute、实时计算、交互式分析等产品,打通整个大数据体系.
2.
产品功能2.
1数据接入提供多种SDK、API和Flume、Logstash等第三方插件,让您高效便捷的把数据接入到数据总线.
2.
2数据投递提供DataConnector模块,稍作配置即可把接入的数据实时同步到下游MaxCompute、OSS、TableStore等存储分析系统,极大减轻了数据链路的工作量.
2.
3数据缓存灵活的缓存时间,下游可重复消费,自动多备份,保障数据高可靠性.
2.
4多种接口既有适合人交互的Web控制台,也有适合程序交互的API和SDK,满足各种使用需求.
名词解释DataHub产品简介8-名词解释数据类型介绍Tuple类型下只支持写入数据是有格式的数据,支持以下几种数据类型名词解释Project项目(Project)是DataHub数据的基本组织单元,下面包含多个Topic.
值得注意的是,DataHub的项目空间与MaxCompute的项目空间是相互独立的.
用户在MaxCompute中创建的项目不能复用于DataHub,需要独立创建.
TopicTopic是DataHub订阅和发布的最小单位,用户可以用Topic来表示一类或者一种流数据.
更多详情请参考:Project及Topic数量限制.
TopicLifecycle表示一个Topic中写入数据在系统中可以保存的最长时间,以天为单位,最小值为1,最大值为7ShardShard表示对一个Topic进行数据传输的并发通道,每个Shard会有对应的ID.
每个Shard会有多种状态:Opening-启动中,Active-启动完成可服务.
每个Shard启用以后会占用一定的服务端资源,建议按需申请Shard数量.
ShardHashKeyRange每个Shard都有的属性,包括开始和结束的Key范围,写入数据的时候具有相同Key的数据会落到同一个Shard上.
对一个Shard的Key范围是左闭右开.
更多详情请参考:根据HashKey写入数据.
ShardMergeShard合并,可以把相邻的KeyRange连接的Shardmerge成一个Shard.
更多详情请参考:Shard扩容缩容.
ShardSplitShard分裂,可以把一个Shard分裂成ShardKeyRange相连接的两个ShardRecord用户数据和DataHub端交互的基本单位RecordTypeTopic的数据类型,目前支持Tuple与Blob两种类型.
Tuple类型的Topic支持类似于数据库的记录的数据,每条记录包含多个列.
Blob类型的Topic仅支持写入一块二进制数据.
类型含义值域BIGINT8字节有符号整型-9223372036854775807~9223372036854775807DOUBLE8字节双精度浮点数-1.
0_10^308~1.
0_10^308BOOLEAN布尔类型True/False或true/false或0/1DataHub产品简介9-DataHub中的TINYINT,SMALLINT,INTEGER,FLOAT类型从javasdk2.
16.
1-public开始支持.
Blob模式下支持写入一块二进制数据作为一个Record,数据将会以BASE64编码传输.
Shard状态说明异常描述TIMESTAMP时间戳类型表示到微秒的时间戳类型STRING字符串,只支持UTF-8编码单个STRING列最长允许2MBTINYINT单字节整型-128~127SMALLINT双字节整型-32768~32767INTEGER4字节整型-2147483648~2147483647FLOAT4字节单精度浮点数-3.
40292347_10^38~3.
40292347_10^38状态说明OpeningTopic刚创建,所有shard会处于Opening状态直至准备完成.
不可读写.
ActiveShard通道打开后,状态会置为Active,此时表示Shard正常可读写.
ClosingShard进行了Split/Merge操作,后台正在关闭该通道.
该状态Shard不可读写.
ClosedShard在Split/Merge完成后,会变为Closed态,此时Shard为只读状态.
ErrorCodeHttpCode含义InvalidUriSpec400请求的Uri非法InvalidParameter400参数错误,详细内容请看返回的ErrorMessgaUnauthorized401签名错误NoPermission403账号权限不足InvalidSchema400Schema格式错误InvalidCursor400无效或过期的cursorNoSuchProject404请求的Project不存在NoSuchTopic404请求的Topic不存在NoSuchShard404请求的ShardID不存在DataHub产品简介10限制描述限制描述命名规范ProjectAlreadyExist400Project已存在TopicAlreadyExist400Topic已存在InvalidShardOperation405非法Shard操作,如Shard已经Closed后继续写入.
LimitExceeded400请求参数超出限制,如Shard总数超过512个.
InternalServerError500未知错误或内部服务异常或系统处于升级中.
限制项描述值域范围活跃shard数每个topic中活跃shard数量限制(0,256]总shard数每个topic中总shard数量限制(0,512]HttpBodySizehttp请求中body大小限制4MB单个String长度数据中单个String字段长度限制2MBMerge/Split频率限制每个新产生的shard在一定时间内不允许进行Merge/Split操作5sQPS限制每个Shard写入QPS限制(非Record/s,Batch写入同一Shard仅计算为1次)2000Throughput限制每个Shard写入每秒吞吐限制5MB/sProject限制每个云账号能够创建的Project上限50Topic限制每个Project内能创建的Topic数量限制,如有特殊请求请联系管理员500TopicLifecycle限制每个Topic中数据保存的最大时长,单位是天[1,7]名词描述长度限制值DataHub产品简介11域名列表域名列表DataHub域名列表Project项目名称[3,32]英文字母开头,仅允许英文字母、数字及"_",大小写不敏感.
Topic主题名词[1,128]英文字母开头,仅允许英文字母、数字及"_",大小写不敏感.
地区Region外网Endpoint经典网络ECSEndpointVPCECSEndpoint华东1(杭州)cn-hangzhouhttps://dh-cn-hangzhou.
aliyuncs.
comhttp://dh-cn-hangzhou.
aliyun-inc.
comhttp://dh-cn-hangzhou-int-vpc.
aliyuncs.
com华东2(上海)cn-shanghaihttps://dh-cn-shanghai.
aliyuncs.
comhttp://dh-cn-shanghai.
aliyun-inc.
comhttp://dh-cn-shanghai-int-vpc.
aliyuncs.
com华北2(北京)cn-beijinghttps://dh-cn-beijing.
aliyuncs.
comhttp://dh-cn-beijing.
aliyun-inc.
comhttp://dh-cn-beijing-int-vpc.
aliyuncs.
com华南1(深圳)cn-shenzhenhttps://dh-cn-shenzhen.
aliyuncs.
comhttp://dh-cn-shenzhen.
aliyun-inc.
comhttp://dh-cn-shenzhen-int-vpc.
aliyuncs.
com华北3(张家口)cn-zhangjiakouhttps://dh-cn-zhangjiakou.
aliyuncs.
comhttp://dh-cn-zhangjiakou.
aliyun-inc.
comhttp://dh-cn-zhangjiakou-int-vpc.
aliyuncs.
com亚太东南1(新加坡)ap-southeast-1https://dh-ap-southeast-http://dh-ap-southeast-http://dh-ap-southeast-1-DataHub产品简介12权限控制权限控制DataHub采用阿里云RAM进行访问控制.
用户对DataHub资源的访问,通过RAM进行鉴权.
阿里云主账号拥有所属资源的所有权限,子用户在创建时并没有任何权限,不能访问任何资源,用户需要在RAM中对该子用户进行授权操作.
关于如何创建RAM子用户与创建授权策略并进行授权可参见RAM使用文档.
以下将介绍DataHub在RAM下的访问控制体系.
DataHubRAM权限控制1.
aliyuncs.
com1.
aliyun-inc.
comint-vpc.
aliyuncs.
com亚太东南3(吉隆坡)ap-southeast-3https://dh-ap-southeast-3.
aliyuncs.
comhttp://dh-ap-southeast-3.
aliyun-inc.
comhttp://dh-ap-southeast-3-int-vpc.
aliyuncs.
com亚太南部1(孟买)ap-south-1https://dh-ap-south-1.
aliyuncs.
comhttp://dh-ap-south-1.
aliyun-inc.
comhttp://dh-ap-south-1-int-vpc.
aliyuncs.
com欧洲中部1(法兰克福)eu-central-1https://dh-eu-central-1.
aliyuncs.
comhttp://dh-eu-central-1.
aliyun-inc.
comhttp://dh-eu-central-1-int-vpc.
aliyuncs.
com北京政务云cn-north-2-gov-1https://dh-cn-north-2-gov-1.
aliyuncs.
comhttp://dh-cn-north-2-gov-1.
aliyun-inc.
comhttp://dh-cn-north-2-gov-1-int-vpc.
aliyuncs.
com上海金融云cn-shanghai-finance-1https://dh-cn-shanghai-finance-1.
aliyuncs.
comhttp://dh-cn-shanghai-finance-1.
aliyun-inc.
comhttp://dh-cn-shanghai-finance-1-int-vpc.
aliyuncs.
comDataHub产品简介13DataHub资源DataHub在RAM的访问控制中的资源体系包含Project、Topic和Subscription.
目前支持Project、Topic和Subscription级别的鉴权,并不支持Shard的访问控制.
其中Subscription是指对某个特定Project下的Topic的一次订阅.
DataHubAPI及对应在RAM中的授权策略ProjectTopic资源RAM中的资源描述Projectacs:dhs:$region:$accountid:projects/$projectNameTopicacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdAPIActionResourceCreateProjectdhs:CreateProjectacs:dhs:$region:$accountid:projects/*ListProjectdhs:ListProjectacs:dhs:$region:$accountid:projects/*DeleteProjectdhs:DeleteProjectacs:dhs:$region:$accountid:projects/$projectNameGetProjectdhs:GetProjectacs:dhs:$region:$accountid:projects/$projectNameAPIActionResourceCreateTopicdhs:CreateTopicacs:dhs:$region:$accountid:projects/$projectName/topics/*ListTopicdhs:ListTopicacs:dhs:$region:$accountid:projects/$projectName/topics/*DeleteTopicdhs:DeleteTopicacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameGetTopicdhs:GetTopicacs:dhs:$region:$accountid:pDataHub产品简介14SubscriptionConnectorrojects/$projectName/topics/$topicNameUpdateTopicdhs:UpdateTopicacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameAPIActionResourceCreateSubscriptiondhs:CreateSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/*DeleteSubscriptiondhs:DeleteSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdGetSubscriptiondhs:GetSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdUpdateSubscriptiondhs:UpdateSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdListSubscriptiondhs:ListSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/*CommitOffsetdhs:GetSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdGetOffsetdhs:GetSubscriptionacs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/subscriptions/$subIdAPIActionResourceCreateConnectordhs:CreateConnectoracs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/connectors/*DeleteConnectordhs:DeleteConnectoracs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/connectors/*DataHub产品简介15ShardPubSubDataHub支持的ConditionGetConnectordhs:GetConnectoracs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/connectors/*UpdateConnectordhs:UpdateConnectoracs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/connectors/*ListConnectordhs:ListConnectoracs:dhs:$region:$accountid:projects/$projectName/topics/$topicName/connectors/*APIActionResourceListSharddhs:ListShardacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameMergeSharddhs:MergeShardacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameSplitSharddhs:SplitShardacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameAPIActionResourcePutRecordsdhs:PutRecordsacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameGetRecordsdhs:GetRecordsacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameGetCursordhs:GetRecordsacs:dhs:$region:$accountid:projects/$projectName/topics/$topicNameCondition功能合法取值acs:SourceIp指定ip网段普通ip,支持*通配acs:SecureTransport是否是https协议true/falseacs:MFAPresent是否多设备认证true/falseDataHub产品简介16DataHub系统授权策略DataHub授权策略在RAM系统中已有系统策略,用户可以根据需求直接添加系统策略.
AliyunDataHubFullAccess包含DataHub相关的所有权限,一般用于管理DataHub资源.
AliyunDataHubReadOnlyAccess只读访问DataHub服务的权限,可以查看DataHub所有的资源情况,例如查看project详细信息,列出project列表,读数据等等,但是不能更新、创建以及写数据.
AliyunDataHubSubscribeAccess向DataHub订阅数据的权限,只包含和读数据相关的必要操作,包括GetTopic,ListShard,GetRecords以及订阅和点位相关的所有接口.
AliyunDataHubPublishAccess向DataHub发布数据的权限,只包含和写数据相关的必要操作,包括GetTopic,ListShard以及PutRecords.
DataHub自定义授权策略DataHub目前只有上述四种系统权限策略,如果无法满足需求,用户可以添加自定义权限策略.
具体操作路径在RAM系统中:策略管理->自定义授权策略->新建授权策略.
下面给出几个自定义策略示例:WebConsole中显示WebConsole中创建topicacs:CurrentTime指定访问时间ISO8601格式//为了在WebConsole中能够显示拥有权限的project,需要在Statement中增加如下配置//因为WebConsole需要ListProject和GetProject,才能在页面展示project{"Action":["dhs:ListProject","dhs:GetProject"],"Resource":"acs:dhs:*:*:projects/*","Effect":"Allow"}//在WebConsole的project页面中显示topic需要ListTopic和GetTopic权限//如希望能够在WebConsole中的project:test下能够创建topic,可以使用如下配置{DataHub产品简介17其他自定义授权策略"Version":"1","Statement":[{"Action":["dhs:ListProject","dhs:GetProject"],"Resource":"acs:dhs:*:*:projects/*","Effect":"Allow"},{"Action":["dhs:ListTopic","dhs:GetTopic","dhs:CreateTopic"],"Resource":"acs:dhs:*:*:projects/test/topics/*","Effect":"Allow"}]}//只允许用户获取指定Project下topic的信息{"Version":"1","Statement":[{"Action":["dhs:ListTopic","dhs:GetTopic"],"Resource":"acs:dhs:cn-hangzhou:12121312:projects/foo/topics/*","Effect":"Allow"}]}//新订阅功能授权Policy样例1:给用户授权具有projectfoo下topic的所有订阅权限{"Version":"1","Statement":[{"Action":["dhs:*Subscription"],"Resource":"acs:dhs:cn-hangzhou:*:projects/foo/topics/*/subscriptions/*","Effect":"Allow"}]}//新订阅功能授权Policy样例2:给用户授权仅具有projectfoo下查询订阅的权限{"Version":"1","Statement":[{"Action":["dhs:ListSubscription"],"Resource":"acs:dhs:cn-hangzhou:*:projects/foo/topics/*/subscriptions/*","Effect":"Allow"}]}//新订阅功能授权Policy样例3:给用户授权仅具有projectfoo下的topict1特定订阅'14985645198374IoCK'的提交点位权限{"Version":"1","Statement":[DataHub产品简介18新功能发布记录2020年6月{"Action":["dhs:GetSubscription"],"Resource":"acs:dhs:cn-hangzhou:*:projects/foo/topics/t1/subscriptions/14985645198374IoCK","Effect":"Allow"}]}//对指定Topic进行Split/Mergeshard,包括ListShard,SplitShard,MergeShard{"Version":"1","Statement":[{"Action":["dhs:*Shard"],"Resource":"acs:dhs:cn-hangzhou:12121312:projects/foo/topics/bar","Effect":"Allow"}]}新功能/特性简要概述类别文档支持同步数据到Hologres支持同步数据到Hologres数据同步创建同步Hologres兼容Kafka可以使用原生Kafka客户端将数据写入DataHub开发指南兼容kafkaCanal插件使用canal将MySql的增量数据写入DataHub插件说明Canal插件云监控DataHub接入云监控用户指南云监控报警新增数据类型新增TINYINT、SMALLINT、INTEGER、FLOAT产品简介数据类型介绍DataHub产品简介19
ihostart怎么样?ihostart是一家国外新商家,主要提供cPanel主机、KVM VPS、大硬盘存储VPS和独立服务器,数据中心位于罗马尼亚,官方明确说明无视DMCA,对版权内容较为宽松。有需要的可以关注一下。目前,iHostART给出了罗马尼亚vps的优惠信息,罗马尼亚VPS无视DMCA、抗投诉vps/2核4G内存/40GB SSD/100M端口月流量2TB,€20/年。点击直达:ih...
创梦网络怎么样,创梦网络公司位于四川省达州市,属于四川本地企业,资质齐全,IDC/ISP均有,从创梦网络这边租的服务器均可以****,属于一手资源,高防机柜、大带宽、高防IP业务,另外创梦网络近期还会上线四川眉山联通、广东优化线路高防机柜,CN2专线相关业务。广东电信大带宽近期可以预约机柜了,成都优化线路,机柜租用、服务器云服务器租用,适合建站做游戏,不须要在套CDN,全国访问快,直连省骨干,大网...
mineserver怎么样?mineserver是一家国人商家,主要提供香港CN2 KVM VPS、香港CMI KVM VPS、日本CN2 KVM VPS、洛杉矶cn2 gia端口转发等服务,之前介绍过几次,最近比较活跃。这家新推出了洛杉矶CN2 GIA VPS,512MB内存/20GB NVME/800GB流量/200Mbps/KVM,58元/季,并且进行了带宽升级,同时IP更改为美国IP。点击...
500InternalServerError为你推荐
Vater壶腹癌是壶腹周围恶性肿瘤中第二常见的疾participants37adbandroid重要产品信息指南支持ipadcss下拉菜单CSS如何把下拉菜单改为上拉菜单google中国地图谷歌卫星地图中文版下载在哪下??win7关闭135端口win7下怎么关135和8909端口win7勒索病毒补丁我的电脑是windows7系统,为什么打不了针对勒索病毒的补丁(杀毒软件显googleadsense10分钟申请Google Adsense是一种怎样的体验
域名交易网 hawkhost 美国php主机 2017年万圣节 网通服务器ip 绍兴高防 卡巴斯基永久免费版 200g硬盘 双十一秒杀 万网空间购买 中国电信宽带测速器 免费asp空间申请 云服务器比较 华为云建站 工信部网站备案查询 登陆qq空间 稳定空间 789电视剧网 葫芦机 windowsserver2008 更多