大家好,今天小编关注到一个比较有意思的话题,就是关于大数据架构的问题,于是小编就整理了3个相关介绍大数据架构的解答,让我们一起看看吧。
区别如下:
第一,名称不一样,分别叫大数据开发和架构开发,
第二,内容不一样,大数据开发侧重于收集海量的数据并汇聚到电脑之中,同时,对大数据进行分析分类整理,形成一系列可以云计算的函数关系,架构师主要是对数据的结构进行编辑程序,数据没有大数据那样量大。
首先我假设题主问的是正统的MPP数据库对比SQL On Hadoop。因为一些SQL On Hadoop系统例如Impala也被称为MPP架构。
那么对比两边其实是诸如Vertica,阿里ADS,GreenPlum,Redshift vs Impala,Hive以及SparkSQL,Presto等。
这两者很大程度上的差异其实在于,对存储的控制。对于Hadoop而言,数据最常见的存在形式是数据湖,也就是数据本身未经很多整理,数据倾向于读取的时候再解析,而且多个系统处理不同的workload一起共享同一套数据湖。例如你可以用Spark,MR以及Impala读取Hive的数据,甚至直接读取HDFS上的Parquet,ORC文件。这份数据可以用来做BI数仓也可以用来做ML模型训练等等。
而MPP数据库则相反,MPP为了速度,需要将数据导入做一定处理,整理成优化的格式以便加速。这样做的后果就是,它们的存储类似一个黑盒,数据进去之后很难被别的系统直接读取。当然Vertica之类的系统也有SQL On Hadoop的运行模式,但是速度会有所下降,看过Vertica的Benchmark,对比Impala在Hadoop模式下,并不是有多大的优势,甚至有部分查询更慢。这部分性能损失,就是抛开黑盒存储所带来的差异。
另外SQL On Hadoop产品和MPP数据库的很多差异,其实是工程上成熟度的差异。例如CBO这样的优化,可能在数据库领域已经非常常见,但是对SQL On Hadoop还可以说是个新鲜玩意,至少2016-08-30为止,SparkSQL和Presto还没有CBO。而列存的引入也是近些年的事情,相对Vertica应该是从诞生就使用了列存。这些差异很可能会很快被补上。
大数据区别于数据,主要于数据的多样性。据某研究报告指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。
大数据区别于数据,主要于数据的多样性。据某研究报告指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。
从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。
其实通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。从本质上说,许多科学活动都是数据挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从数据本身出发通过归纳来总结规律。
然而就现在社会环境而言当我们上网时、当我们携带配备GPS的智能手机时、当我们通过社交媒体或聊天应用程序与我们的朋友沟通时、以及我们在购物时,我们会生成数据。你可以说,我们所做的涉及数字交易的一切都会留下数字足迹,这几乎是我们生活的一切。而这些海量的数据需要新的技术进行整合,所以大数据就营运而生了。
从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值
大数据与数据之间 :在大量信息不断衍生的时代,大数据的使用将更好地优化社会发展模式。目前,大数据在促进学习、农业、空间科学等方面发挥了巨大的作用,甚至人工智能的发展也是以大数据的理论和实践为基础的。
到此,以上就是小编对于大数据架构的问题就介绍到这了,希望介绍关于大数据架构的3点解答对大家有用。