第54 章 Hadoop

    hadoop是一个开源的分布式计算框架，由apache software foundation开发。hadoop的核心组件包括hadoop distributed file system（hdfs）和mapreduce。hadoop主要解决了海量数据的存储和处理问题，为大规模数据处理提供了一套可靠、高效、可扩展的解决方案。

    hadoop的主要组件和功能如下：

    1 hdfs（hadoop distributed file system）：

    hdfs是一个分布式文件系统，用于存储大规模数据集。hdfs将数据分割成多个块（默认128mb），并将这些块分布到多个计算节点上。hdfs具有容错能力，通过数据副本（默认3个副本）来确保数据的可靠性和可用性。

    1 mapreduce：

    mapreduce是一个编程模型，用于在hdfs上执行分布式计算任务。mapreduce将计算任务划分为两个阶段：map阶段和reduce阶段。map阶段负责处理输入数据，将数据分割成多个键值对；reduce阶段负责处理map阶段生成的键值对，生成最终结果。mapreduce模型易于扩展，可以在大规模计算节点上分布计算任务。

    1 yarn（yet another resource negotiator）：

    yarn是hadoop的资源管理和调度系统，用于协调计算资源和任务分配。yarn允许多个数据处理框架（如mapreduce、spark、tez等）共享计算资源，提高了资源利用率和集群扩展性。

    1 其他hadoop生态工具：

    hadoop生态包含了许多其他工具，如pig、hive、sqoop、flume、impala等。这些工具用于数据挖掘、数据仓库、数据导入、日志收集和数据分析等任务，丰富了hadoop的功能和应用场景。

    hadoop适用于批处理任务，即处理大量静态数据。hadoop通常在离线场景下使用，以完成数据挖掘、机器学习和统计分析等任务。

    假设我们有一个大型数据集，包含数百万行的用户日志数据。我们希望分析这些数据，以便提取有关用户行为和喜好的见解。在这个例子中，我们将使用hadoop进行分布式计算。

    首先，确保安装了hadoop生态系统（包括hdfs和mapreduce）。然后将用户日志数据上传到hdfs。接下来，创建一个简单的mapreduce任务来分析日志数据。

    以下是一个使用python编写的简单mapreduce任务示例：

    ```python

    import sys

    from operator import itemgetter

    定义mapper类

    class mapper:

    def __init__(self, file):

    selffile = file

    def map(self, key, value):

    user_id, timestamp, action = valuesplit(&39;\t&39;)

    yield user_id, 1

    定义reducer类

    class reducer:

    def __init__(self, file):

    selffile = file

    def reduce(self, key, values):

    yield key, sum(values)

    主程序

    if __name__ == &34;__main__&34;:

    input_path = sysargv[1]

    output_path = sysargv[2]

    for line in open(input_path):

    user_id, timestamp, action = linestrip()split(&39;\t&39;)

    yield user_id, 1

    for key, value in groupby(sorted(map_output), key=itemgetter(0)):

    yield none, key

    for user_id, count in groupby(sorted(value), key=itemgetter(0)):

    yield user_id, sum(1 for _ in count)

    ```

    在这个例子中，我们定义了一个简单的mapreduce任务，用于计算每个用户的操作次数。map阶段将日志数据中的每个用户id和操作类型分割成键值对，并将它们写入hdfs。reduce阶段将所有具有相同用户id的值求和，以获得每个用户的操作次数。

    接下来，我们将任务提交到hadoop集群：

    ```bash

    hadoop jar hadoop-mapreduce-examplesjar user_log_analysispy \

    -dmapredinputdir=/user/logs/input \

    -dmapredoutputdir=/user/logs/output

    ```

    在这个例子中，我们使用`hadoop jar`命令将mapreduce任务提交到hadoop集群。我们指定输入和输出目录（分别为`/user/logs/input`和`/user/logs/output`），并使用`hadoop-mapreduce-examplesjar`库来包含我们的mapreduce代码。hadoop将自动分配计算任务并处理数据。

    最后，我们可以在输出目录中检查结果，以验证mapreduce任务是否按预期运行。这些结果可以用于进一步的数据分析、可视化或机器学习任务。

添加书签