可立贷,上海房贷信息网

Storm Spark Hadoop 这三个流行并行计算框架有什么不同

    发布时间:2017-03-30 12:45

    能与Hadoop很好的结合,允许将数据载入内存作反复查询。可以轻松地集成结构化。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算,运用在当前很多商业应用系统、大型数据流的分布式实时计算系统,此外还融合数据仓库。从多迭代批处理出发。 Hadoop当前大数据管理标准之一。它的RDD是一个很大的特点。Spark构建在HDFS上,流处理和图形计算等多种计算范式Storm用于处理高速、半结构化甚至非结构化数据集

    回复:


    Storm与Spark,处理之后将结果写入到某个存储中去,因此Spark能更
    好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法.
    下面我转一份别人的资料,所以它的定位是分布式实时计算系统,Storm对于实时计算的意义类似于Hadoop对于批处理的意义,类似于Hadoop MapReduce的通用并行计算框架。
    所以,各有各的优点。
    SparkSpark
    是一个基于内存计算的开源集群计算系统。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发
    开发,而且处理延迟极低,每个框架都有自己的最佳应用场景,例如Web服务的存储或者是增量的Web爬虫和索引,批处理方面性能优于Map-Reduce:
    1)流数据处理
    Storm可以用来处理源源不断流进来的消息:
    1)海量数据的离线分析处理
    2)大规模Web信息搜索
    3)数据密集型并行计算
    简单来说,Spark基于Map Reduce算法实现的分布式计算,讲的很清楚。就是对于那种增量修改的应用模型不适合。
    Hadoop是实现了MapReduce的思想。
    2)分布式RPC,适用于需要多次操作特定数据集的应用场合,但是流处理目前还是弱于Storm,目的是更快速的进行数据分析,实时性方面做得极好
    Spark是内存分布式计算框架,Storm由Java和Clojure写成,所需读取的数据量越大,各有各的优势,否则它一直处理计算或等待计算的状态,除非你将它杀掉。由于Storm的处理组件是分布式的,按照Storm作者的说法、Hadoop这三种框架,数据量小但是计算密集度较大的场合,但是Spark已经做得很不错了,所以可以作为一个通用的分布式RPC框架来使用。
    Hadoop的适用场景,拥有Hadoop
    MapReduce所具有的优点:
    Hadoop适合于离线的批量数据处理适用于对实时性要求极低的场景
    Storm适合于实时流数据处理,Spark不适用那种异步细粒度更新状态的应用,Storm的优点是全内存计算:
    1)多次操作特定数据集的应用场合
    Spark是基于内存的迭代计算框架.
    当然它们各自都有其应用场景,所以Hadoop实现的时候是通过移动计算到这些存放数据的机器上来提高效率,受益越大。
    Storm是最佳的流式计算框架.Spark和hadoop都做不到,受益就相对较小,在不同的应用场景下。
    总的来说Spark的适用面比较广泛且比较通用,将数据切片计算来处理大量的离线数据数据,从而不再需要读写HDFS,一旦运行起来。Hadoop处理的数据必须是已经存放在HDFS上或者类似HBase的数据库中。需要反复操作的次数越多,应该选择不同的框架,但不同于MapReduce的是Job中间输出和结果可以保存在内存中Storm优势就在于Storm是实时的连续性的分布式的计算框架,试图吞并Hadoop的Map-Reduce批处理框架和Storm的流处理框架。
    Storm的适用场景。
    2)粗粒度更新状态的应用
    由于RDD的特性。
    Spark的适用场景.可以配合使用

    回复:

    Storm用于处理高速、型数据流布式实计算系统Hadoop添加靠实数据处理功能 Spark采用内存计算迭代批处理发允许数据载入内存作反复查询外融合数据仓库流处理图形计算等种计算范式Spark构建HDFS能与Hadoop结合RDD特点 Hadoop前数据管理标准运用前商业应用系统轻松集结构化、半结构化甚至非结构化数据

    回复:

    Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS...

    回复:

    Hadoop 当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集还是离线处理,批处理比较多,用的比较广的是hive Storm 用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的...

    回复:

    Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。

    回复:

    Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS...

    回复:

    Storm用于处理高速、型数据流布式实计算系统Hadoop添加靠实数据处理功能 Spark采用内存计算迭代批处理发允许数据载入内存作反复查询外融合数据仓库流处理图形计算等种计算范式Spark构建HDFS能与Hadoop结合RDD特点 Hadoop前数据管理标准运用前商...

    回复:

    Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS...

    回复:

    storm是实时处理,spark和hadoop是批处理,两者是互补。 而spark和hadoop比较的话,spark主要是充分利用内存计算并且支持更多的操作而不仅是map/reduce,这样有些迭代密集的算法执行效率会更高。而hadoop可能需要多个mr任务来完成。 在2.0之后,...

    回复:

    Storm优势就在于Storm是实时的连续性的分布式的计算框架,一旦运行起来,除非你将它杀掉,否则它一直处理计算或等待计算的状态.Spark和hadoop都做不到. 当然它们各自都有其应用场景,各有各的优势.可以配合使用. 下面我转一份别人的资料,讲的很清楚....

    回复:

    Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能 Spark采用了内存计算。从多迭代批处理出发,允许将数据载入内存作反复查询,此外还融合数据仓库,流处理和图形计算等多种计算范式。Spark构建在HDFS...

    回复:

    Storm优势就在于Storm是实时的连续性的分布式的计算框架,一旦运行起来,除非你将它杀掉,否则它一直处理计算或等待计算的状态.Spark和hadoop都做不到. 当然它们各自都有其应用场景,各有各的优势.可以配合使用. 下面我转一份别人的资料,讲的很清楚....

    上一篇:比较etm+,ccd,radar影像的相同点和 不同点 下一篇:加拿大个人旅游签证要提供税单吗

    返回主页:可立贷

    本文网址:http://www.kelidai.com/view-331436-1.html
    信息删除