以下是淘宝天梯分布式计算平台的整体架构,由数据分析网根据网络数据整理而成,供大家参考。
一.系统架构
1.整体系统架构
数据流向从上到下,从各数据源、Gateway、云梯、到各应用场景。
数据自上而下流动,从数据源、***、梯子到应用场景。
2.淘宝云计算简介
主要由数据源、数据平台、数据集群三部分构成
它主要由数据源、数据平台和数据集群组成。
二、数据同步方案
1、数据同步方案——概览
1.数据同步方案-概述
2、数据同步方案—— 实时同步VS非实时同步
2.数据同步方案-实时同步与非实时同步
3.数据同步方案介绍-时间隧道2
TimeTunnel是一个实时数据传输平台。TimeTunnel的主要功能是实时完成海量数据的交换,所以TimeTunnel的业务逻辑点主要有两个:一个是发布数据并发送到Time Tunnel一种是订阅数据,从TimeTunnel上读取你关心的数据。
作为实时数据传输平台,TimeTunnel具有以下特点:
效率高:单点1k数据可达40,000 TPS。高可靠性:在M-S模式下数据不会丢失。
高可用性:单点故障不会影响整个集群服务。
顺序:没有故障发生时,所有传输都有保证。
是顺序的,或者说一次连接内的传输是顺序的。
是的,或者一个连接内的传输是顺序的。
4.数据同步方案dbsync简介
dbsync是一个用于同步服务库数据到HDFS的产品,通过分析数据库服务器的log文件来提取相应的数据库动作,进而达到数据库到HADOOP的数据同步,供相关部门提取增量数据。
Dbsync是用于将服务库数据同步到HDFS的产品。通过分析数据库服务器的日志文件,提取相应的数据库动作,进而实现数据库与HADOOP的数据同步,以便相关部门提取增量数据。
Dbsync的实时同步性能
记录大小和速度
2K 4M米/秒
9K 10M/s
应用场景
数据量为800G。
00:10,备份库打开:
非实时同步完成时间0:55
实时同步在0:25完成
5.数据同步方案-DataX简介
DataX是一个用于在异构数据容器之间交换数据的工具。用于在任意数据处理系统(RDBMS/NoSql/FS)之间交换数据。
框架+插件,框架处理大部分高速数据交换的问题,插件提供对数据处理系统的访问。
运行模式:独立/在hadoop上
Webui + cui 基于元数据的高效配置,例子:表A sharding为32个库,1024张表,配置时间<1 min
基于元数据的Webui+cui的高效配置,例如:表A分片有32个库,1024个表,配置时间为
DataX部分性能数据:
x零件性能数据x:
三、调度系统
第三,调度系统
1、调度系统——生产率银弹
1.调度系统——生产力银弹
2、调度系统——模块/子系统
2.调度系统-模块/子系统
3.调度系统-任务触发模式
Flow control/Data Trigger
流量控制/数据触发
Time Trigger
时间触发器
4、调度系统——调度方式
4.调度系统-调度模式
5.调度系统-什么是***?
***:参与天网调度的资源。
功能:
–数据同步(dataX、DBSync、TimeTunnel2…)
–数据上传/下载(Hadoop FS–上传/获取/获取合并)
–日志收集
–提交并运行Hive SQL语句。
–MapReduce程序已提交运行。
–集群之间的数据同步(hadoop distcp)
6.调度系统-***规模和规划
大约30个***用于生产,由天网调度,统一执行任务。
分布,平行控制。
数据同步(dataX、DBSync、time tunnel 2……)
上传/下载数据(Hadoop FS–上传/获取/获取合并)
收集日志
配置单元sql语句已提交运行
MapReduce程序已提交运行。
集群之间的数据同步(hadoop distcp)
7、调度系统——gateway standardization
7.调度系统-***标准化
8、调度系统——Dynamic LB实现
8.调度系统-动态LB实现
9、调度系统——优先级策略(实现)
9.调度系统-优先级策略(实施)
10、调度系统——优先级策略(意义)
10.调度系统-优先级策略(重要性)
11、调度系统——监控全景
11.调度系统-监控全景
四、元数据应用
四。元数据应用
面对以上问题,依靠有经验的建筑师?还是依靠智能分析系统?
1、挖掘元数据金矿
1.挖掘元数据金矿
2.基于元数据的开发平台。
自动代码生成/集成开发平台
自动定位输入/自动编码
优化/自动部署/自动调度
配对分析/热点
分析/字段变化阴影
声音/转换轨迹
元数据
3、基于元数据的分析平台——运行分析系统
3.基于元数据的分析平台--运行分析系统。
4、基于元数据的分析平台——分析策略概览
4.基于元数据的分析平台——分析策略概述
5、基于元数据的分析平台——运行数据收集
5.基于元数据的分析平台-运行数据收集
6、基于元数据的分析平台——宏观分析策略
6.基于元数据-宏观分析策略的分析平台
7.基于元数据的定位系统瓶颈分析平台
每条链路的吞吐量是动态的。
在一定的时间间隔内,整个系统的吞吐能力由吞吐能力最小的链路决定。
如果需要发现系统的不足,就需要画出各个环节的吞吐量曲线。
重点优化系统的不足。
对于吞吐量抖动较大的链路,需要在前面设置队列进行缓冲。
瓶颈定位方法:
1每条链路的吞吐量曲线
两条链路前缓冲队列的状态曲线
统一单位到任务级
8、基于元数据的分析平台——最值得优化的任务
8.基于元数据的分析平台--最值得优化的任务。
从关键路径的角度来看,任务A的运行时间变化对系统的影响可以通过下图中的阴影区域来计算,这取决于以下内容
几个因素:
任务的当前运行时间-确定曲线在当前位置的斜率。
b任务在几个叶节点的关键路径上——这决定了当前位置的曲线斜率。
c其他相关任务的运行时间——决定了A何时会离开关键路径,也就是决定了斜率的斜率。
最值得优化的任务:
以下三项得分中综合得分最高
1运行时间长
2同时在多个关键路径中
3大孔隙度
来源:数据分析网整理自互联网分享信息《淘宝天梯分布式计算平台整体架构》
本文来自热恋少女投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/506369.html