hadoop生态的大体介绍-白红宇

hadoop生态的大体介绍

阅读量：6174 次

发布时间：2019-06-21

本文共 613 字，大约阅读时间需要 2 分钟。

hadoop生态的大体介绍

重点组件：

HDFS：Hadoop 的分布式文件存储系统

MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型

Hive：基于 Hadoop 的类 SQL 数据仓库工具

HBase：基于 Hadoop 的列式分布式 NoSQL 数据库

ZooKeeper：分布式协调服务组件

Mahout：基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库

Oozie/Azkaban：工作流调度引擎

Sqoop：数据迁入迁出工具

Flume：日志采集工具

数据的处理流程：

A、数据采集：定制开发采集程序，或使用开源框架 Flume 或者 LogStash

B、数据预处理：定制开发 MapReduce 程序运行于 Hadoop 集群，或者专门数据收集工具也能进行数据预处理

C、数据仓库技术：基于 Hadoop 之上的 Hive

D、数据导出：基于 Hadoop 的 Sqoop 数据导入导出工具

E、数据可视化：定制开发 web 程序或使用 Kettle 等产品

F、数据统计分析：Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive，或者 Spark，Flink

G、整个过程的流程调度：Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品

转载于:https://blog.51cto.com/14048416/2341495

你可能感兴趣的文章

Cent OS 环境下 samba服务器的搭建

查看>>

vCloud Director 1.5.1 Install Procedure

查看>>

hive 中的多列进行group by查询方法

Eclipse工具进行Spring开发时，Spring配置文件智能提示需要安装STS插件

查看>>

NSURLCache内存缓存

查看>>

jquery click嵌套事件重复注册多次执行的问题

查看>>

Dev GridControl导出

查看>>

开始翻译Windows Phone 8 Development for Absolute Beginners教程

Windows和Linux如何使用Java代码实现关闭进程

查看>>

0428继承性 const static

查看>>