`大数据`分类下的文章

大数据

Hadoop - MapReduce

MapReduce是基于java的分布式计算的处理技术和程序模型。MapReduce算法包含两个重要任务,即Map和Reduce。地图获取一组数据并将其转换为另一组数据,其中单个元素分解为元组(键/值对)。其次,减少任务,将地图的输出作为输入,并将这些数据元组合并成一组较小的元组。按照MapReduce名称的顺序,reduce任务总是在地图作业之后执行。

阅读剩下更多

Hadoop - MapReduce
大数据

Hadoop - 命令参考

在`“$ HADOOP_HOME / bin / hadoop fs”`中有更多的命令比这里演示的更多,尽管这些基本操作将让您开始。运行./bin/hadoop dfs,没有其他参数将列出可以使用FsShell系统运行的所有命令。此外,如果您遇到困难,$ HADOOP_HOME / bin / hadoop fs -help commandName将显示有关操作的简短使用摘要。

阅读剩下更多

Hadoop - 命令参考
大数据

Hadoop - HDFS概述

Hadoop文件系统是使用分布式文件系统设计开发的。它运行在商品硬件上。与其他分布式系统不同,HDFS具有高度的容错能力,并采用低成本硬件设计。HDFS拥有非常大量的数据,并提供更容易的访问。要存储这么大的数据,这些文件存储在多台机器上。这些文件以冗余的方式存储,以在发生故障的情况下挽救系统免受可能的数据丢失。HDFS还使应用程序可以并行处理。

阅读剩下更多

Hadoop - HDFS概述
大数据

Hadoop - 环境设置

Hadoop由GNU / Linux平台及其风格支持。因此,我们必须安装一个用于设置Hadoop环境的Linux操作系统。如果您的操作系统不是Linux,则可以在其中安装一个Virtualbox软件,并在Virtualbox中安装Linux。

阅读剩下更多

Hadoop - 环境设置
大数据

Hadoop - 介绍

Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务器扩展到数千台机器,每台机器都提供本地计算和存储。

阅读剩下更多

Hadoop - 介绍
大数据

Apache Kafka - 与Spark集成

Spark Streaming API支持实时数据流的可扩展,高吞吐量,容错流处理。数据可以从诸如Kafka,Flume,Twitter等许多来源中获取,并且可以使用诸如地图,缩小,连接和窗口之类的高级功能的复杂算法进行处理。最后,处理后的数据可以推送到文件系统,数据库和现场仪表盘上。弹性分布式数据集(RDD)是Spark的基础数据结构。它是一个不可变的分布式对象集合。RDD中的每个数据集分为逻辑分区,可以在集群的不同节点上进行计算。

阅读剩下更多

Apache Kafka - 与Spark集成
大数据

Apache Kafka - 与Storm集成

Storm最初是由Nathan Marz和BackType创建的。在短时间内,Apache Storm成为分布式实时处理系统的标准,可让您处理大量数据。Storm非常快,每个节点每秒处理超过一百万个元组的基准测试。Apache Storm持续运行,从配置的源(Spouts)中消耗数据,并将数据传递到处理管道(Bolts)。组合,spout和Bolts 做拓扑。

阅读剩下更多

Apache Kafka - 与Storm集成
返回顶部