spark和hadoop的关键区别（spark 和 hadoop）

今天给各位分享spark和hadoop的关键区别的知识，其中也会对spark 和 hadoop进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

spark和hadoop的区别就是原理以及数据的存储和处理等。Hadoop一个作业称为一个Job，Job里面分为Map Task和Reduce Task阶段，每个Task都在自己的进程中运行，当Task结束时，进程也会随之结束。

首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。

不同点前者基于磁盘+内存，磁盘占得比重比较大，而后者侧重于内存+磁盘，内存占得比重比较大，这也是为什么Hadoop没spark速度快的根本原因，spark基于内存来做MR，而Hadoop侧重于落地到磁盘来做MR。

Spark有自己的页面，因为虽然它可以通过YARN(另一种资源协调者)在Hadoop集群中运行，但是它也有一种独立模式。它可以作为 Hadoop模块来运行，也可以作为独立解决方案来运行。

spark和hadoop的关键区别（spark 和 hadoop）

解决问题的层面不一样首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。

Hadoop和Spark都是集群并行计算框架，都可以做分布式计算，它们都基于MapReduce并行模型。Hadoop基于磁盘计算，只有map和reduce两种算子，它在计算过程中会有大量中间结果文件落地磁盘，这会显著降低运行效率。

是个大的框架，spark是这个大的架构下的一个内存计算框架，负责计算，同样作为计算框架的还有mapreduce，适用范围不同，比如hbase负责列式存储，hdfs文件系统等等。另外spark是可以脱离hadoop架构单独作为计算引擎使用的。

我想你指的Hadoop作业是指Map/Reduce作业。

实际流计算和批处理系统没有本质的区别，像storm的trident也有批概念，而mapreduce可以将每次运算的数据集缩小（比如几分钟启动一次），facebook的puma就是基于hadoop做的流计算系统。

首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。

hadoop是分布式系统基础架构，是个大的框架，spark是这个大的架构下的一个内存计算框架，负责计算，同样作为计算框架的还有mapreduce，适用范围不同，比如hbase负责列式存储，hdfs文件系统等等。

我想你指的Hadoop作业是指Map/Reduce作业。

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。

1、spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。

2、Spark 有很多行组件，功能更强大，速度更快。解决问题的层面不一样首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。

3、Hadoop和Spark都是集群并行计算框架，都可以做分布式计算，它们都基于MapReduce并行模型。Hadoop基于磁盘计算，只有map和reduce两种算子，它在计算过程中会有大量中间结果文件落地磁盘，这会显著降低运行效率。

4、不能处理大数据，单独机器处理数据过大，或者由于数据出现问题导致中间结果超过RAM的大小时，常常出现RAM空间不足或无法得出结果。然而，Map/Reduce运算框架可以处理大数据，在这方面，Spark不如Map/Reduce运算框架有效。

1、Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。

2、Storm由java和clojure写成，storm的优点是全内存计算，因为内存寻址速度是硬盘的百万倍以上，所以storm的速度相比较hadoop非常快。hadoop是实现了mapreduce的思想，将数据切片计算来处理大量的离线数据数据。

3、storm 是流式处理的老大。速度快即时通讯。淘宝的JStorm 可以达到百万级每秒。spark 是对 hadoop 的 MR 的改进。由于 MR 需要不断的将数据落盘，互相拉取导致 IO 大。

4、如果题主的hadoop指的是mapreduce的话。Storm说白了就是一个跑起来不会停的mr，所以适合拿来做流式实时计算，和mr不是一个应用场景，不用比较。spark相比mr最大的优势在于快速启动，mr是慢启动的。

5、Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。

spark和hadoop的关键区别的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于spark 和 hadoop、spark和hadoop的关键区别的信息别忘了在本站进行查找喔。