创新技术
- 43 -
MapReduce、内存计算引擎 Spark、MPP 执行引擎
Impala、消息队列 Kafka、流处理 Storm、文本搜索
引擎 Solr。MapReduce 用以采用分布式系统,廉价
地处理海量数据。Solr 是一种搜索引擎,用以文本
数据查询。Impala 用以分析 SQL、分析型数据库的
低延时高并发查询、
列级访问控制。
Spark 是 Hadoop
通用处理引擎,用以通用数据处理、快速批处理、
机器学习、
表级访问控制,
Spark 将会取代 MapReduce
成 为 新 一 代 的 通 用 计 算 引 擎 。 kafka 和 Spark
streaming 用以流处理。
5、能力服务层包括 MapReduce 管道、结构化数
据库或数据仓库 Hive、
全文检索 Search。
MapReduce
用以磁盘数据处理、对规模要求极高和对磁盘 IO 敏
感的任务。Pig、Hive 组件用以实现批处理。
6、工具及增强包括数据挖掘算法库 Mahout、
Pig 数学处理库 DataFu、工作流 Oozie、管道管理工
具 Crunch、编译测试工具 Bigtop、部署工具 Whirr。
7、接口包括实时数据传输 Flume、数据 ETL 组
件 Sqoop、文件访问接口 Fuse、WebHDFS、NFS。
8、应用包括数据仓库 SQL、
机器学习 SPARK
ML、
基于文本的搜索 Solr、流处理和实时流计算、非结
构化的日志分析、
交互式 SQL
(包括 Impala、
Presto)
、
用户使用界面 Hue、数据 SDK 组件 kite。很多传统
的数据仓库应用已经迁移到 Hadoop 上。现在出现了
特制的 SQL 引擎,包括 Impala 和 Presto,绕过通用
的计算引擎 MapReduce 和 Spark 这一层,从而达到
更低的延迟。
Hadoop 生态系统的核心就是 Apache Hadoop,
包括文件存储层、计算引擎、任务调度、应用层等。
Hadoop 集群包括 HDFS 客户端、MapReduce 客户端、
HBase 客户端、Hive 客户端等。Hadoop 大数据平台
适用于任何数据类型的存储,覆盖集群所有资源与
服务,进行统一配置、管理、监控、诊断。
Hadoop 的硬件架构管理内容包括:
1 、 管 理 节 点 ( Head/Master Node )
, 包 括
NameNode,JobTracker 及 Master 等。管理节点用以
提供关键的、集中的、无替代的集群管理服务;若
该管理服务停止,则对应集群 Hadoop 服务停止。管
理节点通常对内存要求高,需要可靠性高的硬件设
备,但对存储要求低。Hive Meta Server 以及 Hive
Server 通 常 部 署 在 其 他 管 理 节 点 服 务 器 上 。
NameNode 服务器配置主要需求为内存容量大小以及
持久化存储可靠性。
2、数据节点(Data/Worker/Slave Node)
,包
括处理实际任务,如数据存储,子任务执行等。数
据节点用以同节点运行多个服务,为保证局部性;
若该服务停止,则由其他节点自动代替服务。数据
节 点 的 实 现 需 要 硬 件 各 部 件 能 方 便 的 替 换 。
Zookeeper Server 以及 HMaster 通常选取数据节点
服务器,由于一般负载有限,对节点无太大特殊要求。
一般而言,数据节点管理倾向于使用更多的机
器,而不是升级服务器配置。数据多分布可获得更
好的 scale-out 并行性能以及可靠性。需要考虑物
理空间、网络规模以及其他配套设备等综合因素来
考虑集群服务器数目。计算密集型应用考虑使用更
好的 CPU 以及更多的内存。
通常按 1 块硬盘+2 个 CPU
核+6 至 8
GB 内存的比例配置升级硬件可以满足多数
应用的需求,尤其是 IO 密集型应用。
3、边缘节点(Edge Node)
。边缘节点作为客户
端访问实际 Hadoop 服务,用以对外提供 Hadoop 服
务代理以及包装,需要可靠性高的硬件设备。
大数据技术的应用包括:
1、
计算密集型应用。
例如机器学习、
数据挖掘。
2、输入、输出的密集型应用。例如索引、检索、
统计、聚类、数据解码与解压缩。
3、分布式存储与大规模并行计算。一般使用
HDFS,HIVE,SPARK 等组件。Apache HDFS
用以分布式存储、
文件并行化批量处理。
Apache
Hive 组件用以数据仓库查询与处理。Apache Spark
组件用以流处理、算法模型、查询分析。
4、实时数据处理与查询分析。通常使用 SPARK,
KUDU,IMPALA 等组件。Apache Impala 组件用以快
速分析、交互式查询。Apache
Kudu 组件用于关系型
打分:
0 星