`hadoop`标签下的文章

大数据

GFS-Google文件系统

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

阅读剩下更多

GFS-Google文件系统
大数据

MapReduce:超大机群上的简单数据处理

MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个 map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间 value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源.

阅读剩下更多

MapReduce:超大机群上的简单数据处理
大数据

Hadoop - MapReduce

MapReduce是基于java的分布式计算的处理技术和程序模型。MapReduce算法包含两个重要任务,即Map和Reduce。地图获取一组数据并将其转换为另一组数据,其中单个元素分解为元组(键/值对)。其次,减少任务,将地图的输出作为输入,并将这些数据元组合并成一组较小的元组。按照MapReduce名称的顺序,reduce任务总是在地图作业之后执行。

阅读剩下更多

Hadoop - MapReduce
大数据

Hadoop - 命令参考

在`“$ HADOOP_HOME / bin / hadoop fs”`中有更多的命令比这里演示的更多,尽管这些基本操作将让您开始。运行./bin/hadoop dfs,没有其他参数将列出可以使用FsShell系统运行的所有命令。此外,如果您遇到困难,$ HADOOP_HOME / bin / hadoop fs -help commandName将显示有关操作的简短使用摘要。

阅读剩下更多

Hadoop - 命令参考
大数据

Hadoop - HDFS概述

Hadoop文件系统是使用分布式文件系统设计开发的。它运行在商品硬件上。与其他分布式系统不同,HDFS具有高度的容错能力,并采用低成本硬件设计。HDFS拥有非常大量的数据,并提供更容易的访问。要存储这么大的数据,这些文件存储在多台机器上。这些文件以冗余的方式存储,以在发生故障的情况下挽救系统免受可能的数据丢失。HDFS还使应用程序可以并行处理。

阅读剩下更多

Hadoop - HDFS概述
大数据

Hadoop - 环境设置

Hadoop由GNU / Linux平台及其风格支持。因此,我们必须安装一个用于设置Hadoop环境的Linux操作系统。如果您的操作系统不是Linux,则可以在其中安装一个Virtualbox软件,并在Virtualbox中安装Linux。

阅读剩下更多

Hadoop - 环境设置
返回顶部