大家好,今天小编关注到一个比较有意思的话题,就是关于大数据 hadoop的问题,于是小编就整理了4个相关介绍大数据 hadoop的解答,让我们一起看看吧。
Hadoop-由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop的主要发展历程:
· 2008年1月,Hadoop成为Apache顶级项目。
· 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
· 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
· 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。
· 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。
· 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。
· 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。
· 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。
· 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。
Hadoop是适合于大数据的分布式存储和处理平台,是一种开源的框架
1、搜索引擎(Hadoop的初衷,为了针对大规模的网页快速建立索引)。
2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。
3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。
4、Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。 应用:例如 日志处理 用户细分特征建模 个性化设计
1、Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 2、HDFS Hadoop的分布式文件系统。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。 3、MapReduce(分布式计算框架) MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。 4、Hive(基于Hadoop的数据仓库)Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
到此,以上就是小编对于大数据 hadoop的问题就介绍到这了,希望介绍关于大数据 hadoop的4点解答对大家有用。