`大数据`分类下的文章

大数据

关于Apache Spark

Apache Spark是一个开放源码,Hadoop兼容,快速,富于表现力的集群计算平台。它是在加州大学伯克利分校的AMPLabs创建的,作为伯克利数据分析平台(BDAS)的一部分。它已经成为一个顶级的Apache项目。图4显示了当前Apache Spark堆栈的各种组件。

阅读剩下更多

关于Apache Spark
大数据

Why Apache Spark

我们生活在“大数据”的时代,其中以各种类型的数据以前所未有的速度生成数据,而这种速度似乎只是在天文学上加速。该数据可以广泛地分类为交易数据,社交媒体内容(例如文本,图像,音频和视频)以及来自仪器化设备的传感器馈送。但是人们可能会问为什么要重视这一点。原因是:“数据是有价值的,因为它可以做出决定”。直到几年前,只有少数有技术和资金的公司投资存储和挖掘大量数据才能获得宝贵的见解。不过,雅虎在2009年开放Apache Hadoop的时候,一切都发生了变化。这是一个破坏性的变化,大大降低了大数据处理的水平。

阅读剩下更多

Why Apache Spark
大数据

GFS-Google文件系统

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

阅读剩下更多

GFS-Google文件系统
大数据

MapReduce:超大机群上的简单数据处理

MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个 map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间 value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源.

阅读剩下更多

MapReduce:超大机群上的简单数据处理
大数据

Hadoop - MapReduce

MapReduce是基于java的分布式计算的处理技术和程序模型。MapReduce算法包含两个重要任务,即Map和Reduce。地图获取一组数据并将其转换为另一组数据,其中单个元素分解为元组(键/值对)。其次,减少任务,将地图的输出作为输入,并将这些数据元组合并成一组较小的元组。按照MapReduce名称的顺序,reduce任务总是在地图作业之后执行。

阅读剩下更多

Hadoop - MapReduce
大数据

Hadoop - 命令参考

在`“$ HADOOP_HOME / bin / hadoop fs”`中有更多的命令比这里演示的更多,尽管这些基本操作将让您开始。运行./bin/hadoop dfs,没有其他参数将列出可以使用FsShell系统运行的所有命令。此外,如果您遇到困难,$ HADOOP_HOME / bin / hadoop fs -help commandName将显示有关操作的简短使用摘要。

阅读剩下更多

Hadoop - 命令参考
返回顶部