全国电力技术协作网首页
CopyRight 2012-2014 DS文库版权所有
基于 Hadoop 大数据技术的火电厂数据资产全寿命周期管理
(0 次评价)698 人阅读0 次下载
创新技术 - 43 - MapReduce、内存计算引擎 Spark、MPP 执行引擎 Impala、消息队列 Kafka、流处理 Storm、文本搜索 引擎 Solr。MapReduce 用以采用分布式系统,廉价 地处理海量数据。Solr 是一种搜索引擎,用以文本 数据查询。Impala 用以分析 SQL、分析型数据库的 低延时高并发查询、 列级访问控制。 Spark 是 Hadoop 通用处理引擎,用以通用数据处理、快速批处理、 机器学习、 表级访问控制, Spark 将会取代 MapReduce 成 为 新 一 代 的 通 用 计 算 引 擎 。 kafka 和 Spark streaming 用以流处理。 5、能力服务层包括 MapReduce 管道、结构化数 据库或数据仓库 Hive、 全文检索 Search。 MapReduce 用以磁盘数据处理、对规模要求极高和对磁盘 IO 敏 感的任务。Pig、Hive 组件用以实现批处理。 6、工具及增强包括数据挖掘算法库 Mahout、 Pig 数学处理库 DataFu、工作流 Oozie、管道管理工 具 Crunch、编译测试工具 Bigtop、部署工具 Whirr。 7、接口包括实时数据传输 Flume、数据 ETL 组 件 Sqoop、文件访问接口 Fuse、WebHDFS、NFS。 8、应用包括数据仓库 SQL、 机器学习 SPARK ML、 基于文本的搜索 Solr、流处理和实时流计算、非结 构化的日志分析、 交互式 SQL (包括 Impala、 Presto) 、 用户使用界面 Hue、数据 SDK 组件 kite。很多传统 的数据仓库应用已经迁移到 Hadoop 上。现在出现了 特制的 SQL 引擎,包括 Impala 和 Presto,绕过通用 的计算引擎 MapReduce 和 Spark 这一层,从而达到 更低的延迟。 Hadoop 生态系统的核心就是 Apache Hadoop, 包括文件存储层、计算引擎、任务调度、应用层等。 Hadoop 集群包括 HDFS 客户端、MapReduce 客户端、 HBase 客户端、Hive 客户端等。Hadoop 大数据平台 适用于任何数据类型的存储,覆盖集群所有资源与 服务,进行统一配置、管理、监控、诊断。 Hadoop 的硬件架构管理内容包括: 1 、 管 理 节 点 ( Head/Master Node ) , 包 括 NameNode,JobTracker 及 Master 等。管理节点用以 提供关键的、集中的、无替代的集群管理服务;若 该管理服务停止,则对应集群 Hadoop 服务停止。管 理节点通常对内存要求高,需要可靠性高的硬件设 备,但对存储要求低。Hive Meta Server 以及 Hive Server 通 常 部 署 在 其 他 管 理 节 点 服 务 器 上 。 NameNode 服务器配置主要需求为内存容量大小以及 持久化存储可靠性。 2、数据节点(Data/Worker/Slave Node) ,包 括处理实际任务,如数据存储,子任务执行等。数 据节点用以同节点运行多个服务,为保证局部性; 若该服务停止,则由其他节点自动代替服务。数据 节 点 的 实 现 需 要 硬 件 各 部 件 能 方 便 的 替 换 。 Zookeeper Server 以及 HMaster 通常选取数据节点 服务器,由于一般负载有限,对节点无太大特殊要求。 一般而言,数据节点管理倾向于使用更多的机 器,而不是升级服务器配置。数据多分布可获得更 好的 scale-out 并行性能以及可靠性。需要考虑物 理空间、网络规模以及其他配套设备等综合因素来 考虑集群服务器数目。计算密集型应用考虑使用更 好的 CPU 以及更多的内存。 通常按 1 块硬盘+2 个 CPU 核+6 至 8 GB 内存的比例配置升级硬件可以满足多数 应用的需求,尤其是 IO 密集型应用。 3、边缘节点(Edge Node) 。边缘节点作为客户 端访问实际 Hadoop 服务,用以对外提供 Hadoop 服 务代理以及包装,需要可靠性高的硬件设备。 大数据技术的应用包括: 1、 计算密集型应用。 例如机器学习、 数据挖掘。 2、输入、输出的密集型应用。例如索引、检索、 统计、聚类、数据解码与解压缩。 3、分布式存储与大规模并行计算。一般使用 HDFS,HIVE,SPARK 等组件。Apache HDFS 用以分布式存储、 文件并行化批量处理。 Apache Hive 组件用以数据仓库查询与处理。Apache Spark 组件用以流处理、算法模型、查询分析。 4、实时数据处理与查询分析。通常使用 SPARK, KUDU,IMPALA 等组件。Apache Impala 组件用以快 速分析、交互式查询。Apache Kudu 组件用于关系型

打分:

0 星

用户评论:

关于我们 | 联系我们 | 版权声明 | 企业服务 | 媒体合作
备案号:京ICP备13025456号-2 | 客服电话:010-88892009 | 反馈建议:1565227076@qq.com