您需要了解和理解的10个最重要的Hadoop术语
大数据是大量结构化、非结构化或半结构化数据的一个有吸引力的名称,众所周知,它很难捕获、存储、管理、共享、分析和可视化,至少使用传统的数据库和软件应用程序是如此。这就是为什么大数据技术可以有效地管理和处理大量数据。它是Apache Hadoop,它提供了一个框架和相关技术,以分布式方式跨计算机集群处理大型数据集。因此,为了真正理解大数据,您需要了解一些关于Hadoop的知识。在这里,我们将看看您将听到的关于Hadoop的顶级术语及其含义。
网络研讨会:大铁,迎接大数据:通过Hadoop和Spark注册大型机数据。
在这里注册。
但是首先,看看Hadoop是如何工作的。
在进入Hadoop生态系统之前,你需要清楚地知道两件基本的事情。首先是文件在Hadoop中的存储方式。二是如何处理存储的数据。所有与Hadoop相关的技术主要适用于这两个领域,并使其更加用户友好。
关于条款。
Hadoop很常见
Hadoop框架针对不同的功能有不同的模块,这些模块之间可以因为各种原因进行交互。Hadoop Common可以定义为支持Hadoop生态系统中这些模块的通用实用程序库。这些实用程序基本上都是基于J ava的归档(JAR)文件。这些实用程序主要由程序员和开发人员在开发过程中使用。
Hadoop分布式文件系统(HDFS)
Hadoop分布式文件系统(HDFS)是Apache软件基金会中Apache Hadoop的一个子项目。这是Hadoop框架中存储的支柱。它是一个分布式、可扩展、容错的文件系统,跨越多个商用硬件,被称为Hadoop集群。HDFS的目标是通过对应用程序数据的高吞吐量访问来可靠地存储大量数据。HDFS采用主/从架构,其中主设备称为名称节点,从设备称为数据节点。
MapReduce的
Hadoop MapReduce也是Apache软件基金会的子项目。MapReduce实际上是一个纯Java编写的软件框架。它的主要目标是以完全并行的方式在分布式环境(由商品硬件组成)中处理大型数据集。该框架管理所有活动,例如作业调度、监控、执行和重新执行(在任务失败的情况下)。
糖化血红蛋白
Apache HBase被称为Hadoop数据库。它是一个柱状、分布式、可扩展的大数据存储。它也叫NoSQL数据库,不是关系数据库管理系统。HBase应用程序也是用Java编写的,构建在Hadoop上,运行在HDFS上。当您需要实时读写和随机访问大数据时,请使用HBase。HBase是基于谷歌的BigTable概念建模的。
蜂箱
Apache Hive是一个开源的数据仓库软件系统。Hive最初由脸书开发,前身是Apache软件基金会,后来成为开源软件。它有助于管理和查询分布式Hadoop兼容存储上的大型数据集。Hive使用一种类似SQL的语言HiveQL来执行它的所有活动。
阿帕奇猪
Pig最初是由雅虎发起的,目的是在大量分布式数据上开发和执行MapReduce作业。它已经成为Apache软件基金会下的一个开源项目。Apache Pig可以定义为一个以高效方式分析非常大的数据集的平台。Pig的基础设施层为实际处理生成MapReduce作业序列。Pig的语言层叫做Pig拉丁语,它提供类似SQL的函数来查询分布式数据集。
阿帕奇火花
Spark最初是由加州大学伯克利分校的AMPLab开发的。它于2014年2月成为顶级的Apache项目。Apache Spark可以定义为一个开源的通用集群计算框架,可以更快地分析数据。它建立在Hadoop分布式文件系统上,但没有与MapReduce框架链接。与MapReduce相比,Spark的性能要快得多。它提供了Scala、Python和Java中的高级API。
阿帕奇卡桑德拉
Apache Cassandra是另一个开源的NoSQL数据库。Cassandra被广泛用于管理跨多个数据中心和云存储的大量结构化、半结构化和非结构化数据。Cassandra基于“无主”架构,这意味着它不支持主/从模式。在这种体系结构中,所有节点都是相同的,数据自动均匀地分布在所有节点上。Cassandra最重要的功能是连续可用性、线性可扩展性、内置/可定制复制、无单点故障和操作简单。
另一个资源谈判者
另一个资源协商器(纱)也叫MapReduce 2.0,但实际上属于Hadoop 2.0。纱线可以被定义为作业调度和资源管理的框架。YARN的基本思想是用两个独立的守护进程来代替JobTracker,这两个守护进程负责资源管理和调度/监控。在这个新框架中,将有一个全局资源管理器(RM)和一个名为ApplicationMaster(AM)的特定于应用程序的主机。全局资源管理器(RM)和节点管理器(每个节点都是从属的)构成了实际的数据计算框架。现有的MapReduce v1应用程序也可以在SHART上运行,但是这些应用程序需要使用Hadoop2.x jar重新编译。
黑斑羚
Impala可以定义为一个带有MPP功能的SQL查询引擎。它在Apache Hadoop框架上本地运行。Impala是Hadoop生态系统的一部分。它与其他Hadoop生态系统组件共享相同的灵活文件系统(HDFS)、元数据、资源管理和安全框架。最重要的一点是要注意,Impala在查询处理方面比Hive快得多。但是我们也要记住,Impala是用来查询/分析一小群数据的,主要是作为一个分析工具来处理经过处理和结构化的数据。
标签: