最近动态

大数据

spark弹性分布式数据集

apache spark的核心概念是弹性分布式数据集(RDD)。它是一个不可变的分布式数据集合,它在集群中的机器之间进行分区。它有助于两种类型的操作:转换和动作。转换是在RDD上产生另一个RDD的操作,如filter(),map()或union()。触发计算的Anactionisanoperationsuchascount(),first(),take(n)或collect()返回一个值返回给Master,或写入稳定的存储系统。转型被懒惰地评估,因为直到行动保证才能运行。Spark Master / Driver记住应用于RDD的转换,所以如果一个分区丢失(比如从机失效),该分区可以很容易地在集群中的其他机器上重构。这就是为什么叫“弹性”。

阅读剩下更多

spark弹性分布式数据集
大数据

如何安装Apache Spark

Apache Spark可以配置为独立运行,也可以在Hadoop V1 SIMR或Hadoop 2 YARN / Mesos上运行。Apache Spark需要Java,Scala或Python中等技能。这里我们将看到如何在独立配置中安装和运行Apache Spark。

阅读剩下更多

如何安装Apache Spark
大数据

关于Apache Spark

Apache Spark是一个开放源码,Hadoop兼容,快速,富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的,作为伯克利数据分析平台(BDAS)的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。

阅读剩下更多

关于Apache Spark
大数据

Why Apache Spark

我们生活在“大数据”的时代,其中以各种类型的数据以前所未有的速度生成数据,而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据,社交媒体内容(例如文本,图像,音频和视频)以及来自仪器化设备的传感器馈送。但是人们可能会问为什么要重视这一点。原因是:“数据是有价值的,因为它可以做出决定”。直到几年前,只有少数有技术和资金的公司投资存储和挖掘大量数据才能获得宝贵的见解。不过,雅虎在2009年开放Apache Hadoop的时候,一切都发生了变化。这是一个破坏性的变化,大大降低了大数据处理的水平。

阅读剩下更多

Why Apache Spark
大数据

GFS-Google文件系统

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

阅读剩下更多

GFS-Google文件系统
大数据

MapReduce:超大机群上的简单数据处理

MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个 map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间 value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源.

阅读剩下更多

MapReduce:超大机群上的简单数据处理
java

Java 8 新特性

Java 8 (又称为 jdk 1.8) 是 Java 语言开发的一个主要版本。 Oracle 公司于 2014 年 3 月 18 日发布 Java 8 ,它支持函数式编程,新的 JavaScript 引擎,新的日期 API,新的Stream API 等。

阅读剩下更多

Java 8 新特性
返回顶部