8.bigData大数据
8.BigData大数据
一 概述
1 简介
主要有大数据、流计算、边缘计算等
2 历史
自从 google 发表著名的 GFS、MapReduce、BigTable 三篇 paper 以后,互联网正式迎来了大数据时代。
三 基础
1 OLTP
自20世纪80年代开始,许多企业利用关系型数据库来存储和管理业务数据,并建立相应的应用系统来支持日常的业务运作。这种应用以支持业务处理为主要目的,被称为联机事务处理(On line Transaction Processing,OLTP)应用,它所存储的数据被称为操作数据或者业务数据。
On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
联机事务处理系统是一种以事务元作为数据处理的单位、人机交互的计算机应用系统。它能对数据进行即时更新或其他操作,系统内的数据总是保持在最新状态。通常涉及在数据库中插入,更新或删除少量数据,主要是处理大量用户下的大量事务。用户可将一组保持数据一致性的操作序列指定为一个事务元,通过终端、个人计算机或其他设备输入事务元,经系统处理后返回结果,应用于飞机订票、银行出纳、股票交易、超市销售、饭店前后管理等。
这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理结果的一个重要指标是系统性能,具体体现为实时请求-响应时间(Response Time),即用户在终端上输入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP是由前台、应用、数据库共同完成的,处理快慢以及处理程度取决于数据库引擎、服务器、应用引擎。
OLTP应用程序通常具有以下特征:
事务涉及少量数据:执行的任务非常具体,而且通常涉及单个记录或一小部分记录。例如,一个网上银行客户可能会从他的账户中的钱到他妻子的帐户,在这样的情况下,这个交易涉及了两个账户-他和他妻子的账户,不涉及其他客户的账户。这与OLAP(在线分析处理)相反,OLAP通常涉及查询数据库中的许多记录(甚至所有记录)以用于分析,OLAP银行业务示例可以是银行经理在所有客户账户上进行查询,以便他可以查看哪个郊区在一定时期内具有最活跃的网上银行客户。 OLAP通常用于对通过OLTP应用程序捕获的数据进行分析。
通过索引访问数据
用户量较大
数据查询和更新频繁
响应速度快
高可用:具有极高的可用性。因为OLTP系统通常处理任务关键数据(mission-critical data),并拥有大量的用户。
OLTP数据库
OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
2 OLAP
Online Analytical Processing
随着数据库技术的广泛应用,企业信息系统产生了大量的业务数据,如何从这些海量的业务数据中提取出对企业决策分析有用的信息,这成为企业决策管理人员所面临的重要难题。因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,以形成一个综合的、面服务对象、访问方式、事务管理乃至物理存储等方面都有不同的特点和要求,因此,直接在操作型数据库上建立决策支持系统是不合适的。数据仓库技术就是在这样的背景下发展起来的。
联机事务处理已不能满足终端用户对数据库查询分析的要求,SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念(关系数据库之父E.F.Codd于1993年提出),即OLAP。
OLAP(在线分析处理)处理历史数据或档案数据.。OLAP的特点是交易量相对较低。查询通常非常复杂,涉及聚合。对于OLAP系统来说,响应时间是一种有效的度量。OLAP应用被数据挖掘技术广泛应用。在OLAP数据库中,有聚合的历史数据,存储在多维模式(通常是星型模式)中。有时查询需要访问管理记录中的大量数据,比如去年公司的利润。
联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息。
OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。
2.1 维(Dimension)
是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)
维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 维的成员(Member):维的一个取值,是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)。
2.2 度量(Measure)
多维数组的取值
OLAP的基本多维分析操作有钻取(Drill-up和Drill-down)、切片(Slice)和切块(Dice)、以及旋转(Pivot)等。
钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
3 数据仓库
数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
事实上,随着数据仓库理论的发展,数据仓库系统已逐步成为新型的决策管理信息系统的解决方案。数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
4 实时流处理
4.1 Apache Flink
未整理
时间类型:
PROCTIME(Processing Time):指事件被处理时机器的系统时间。不需要流和机器之间的协调,它提供了最好的性能和最低的延迟。但是,在分布式和异步的环境下,Processing Time 不能提供确定性,因为它容易受到事件到达系统的速度(例如从消息队列)、事件在系统内操作流动的速度以及中断的影响
六 问题
1 已解决
1.1
七 未整理
1 hadoop
解决问题
海量数据的存储(HDFS)和分析(MapReduce)
2.0之后YA
N 其他
Straggler(落后者)
Last updated
Was this helpful?