基于 Hadoop 大数据技术的火电厂数据资产全寿命周期管理

(0 次评价)698 人阅读0 次下载

创新技术 - 43 - MapReduce、内存计算引擎 Spark、MPP 执行引擎 Impala、消息队列 Kafka、流处理 Storm、文本搜索引擎 Solr。MapReduce 用以采用分布式系统，廉价地处理海量数据。Solr 是一种搜索引擎，用以文本数据查询。Impala 用以分析 SQL、分析型数据库的低延时高并发查询、列级访问控制。 Spark 是 Hadoop 通用处理引擎，用以通用数据处理、快速批处理、机器学习、表级访问控制， Spark 将会取代 MapReduce 成为新一代的通用计算引擎。 kafka 和 Spark streaming 用以流处理。 5、能力服务层包括 MapReduce 管道、结构化数据库或数据仓库 Hive、全文检索 Search。 MapReduce 用以磁盘数据处理、对规模要求极高和对磁盘 IO 敏感的任务。Pig、Hive 组件用以实现批处理。 6、工具及增强包括数据挖掘算法库 Mahout、 Pig 数学处理库 DataFu、工作流 Oozie、管道管理工具 Crunch、编译测试工具 Bigtop、部署工具 Whirr。 7、接口包括实时数据传输 Flume、数据 ETL 组件 Sqoop、文件访问接口 Fuse、WebHDFS、NFS。 8、应用包括数据仓库 SQL、机器学习 SPARK ML、基于文本的搜索 Solr、流处理和实时流计算、非结构化的日志分析、交互式 SQL （包括 Impala、 Presto）、用户使用界面 Hue、数据 SDK 组件 kite。很多传统的数据仓库应用已经迁移到 Hadoop 上。现在出现了特制的 SQL 引擎，包括 Impala 和 Presto，绕过通用的计算引擎 MapReduce 和 Spark 这一层，从而达到更低的延迟。 Hadoop 生态系统的核心就是 Apache Hadoop，包括文件存储层、计算引擎、任务调度、应用层等。 Hadoop 集群包括 HDFS 客户端、MapReduce 客户端、 HBase 客户端、Hive 客户端等。Hadoop 大数据平台适用于任何数据类型的存储，覆盖集群所有资源与服务，进行统一配置、管理、监控、诊断。 Hadoop 的硬件架构管理内容包括： 1 、管理节点（ Head/Master Node ），包括 NameNode，JobTracker 及 Master 等。管理节点用以提供关键的、集中的、无替代的集群管理服务；若该管理服务停止，则对应集群 Hadoop 服务停止。管理节点通常对内存要求高，需要可靠性高的硬件设备，但对存储要求低。Hive Meta Server 以及 Hive Server 通常部署在其他管理节点服务器上。 NameNode 服务器配置主要需求为内存容量大小以及持久化存储可靠性。 2、数据节点（Data/Worker/Slave Node），包括处理实际任务，如数据存储，子任务执行等。数据节点用以同节点运行多个服务，为保证局部性；若该服务停止，则由其他节点自动代替服务。数据节点的实现需要硬件各部件能方便的替换。 Zookeeper Server 以及 HMaster 通常选取数据节点服务器，由于一般负载有限，对节点无太大特殊要求。一般而言，数据节点管理倾向于使用更多的机器，而不是升级服务器配置。数据多分布可获得更好的 scale-out 并行性能以及可靠性。需要考虑物理空间、网络规模以及其他配套设备等综合因素来考虑集群服务器数目。计算密集型应用考虑使用更好的 CPU 以及更多的内存。通常按 1 块硬盘+2 个 CPU 核+6 至 8 GB 内存的比例配置升级硬件可以满足多数应用的需求，尤其是 IO 密集型应用。 3、边缘节点（Edge Node）。边缘节点作为客户端访问实际 Hadoop 服务，用以对外提供 Hadoop 服务代理以及包装，需要可靠性高的硬件设备。大数据技术的应用包括： 1、计算密集型应用。例如机器学习、数据挖掘。 2、输入、输出的密集型应用。例如索引、检索、统计、聚类、数据解码与解压缩。 3、分布式存储与大规模并行计算。一般使用 HDFS，HIVE，SPARK 等组件。Apache HDFS 用以分布式存储、文件并行化批量处理。 Apache Hive 组件用以数据仓库查询与处理。Apache Spark 组件用以流处理、算法模型、查询分析。 4、实时数据处理与查询分析。通常使用 SPARK， KUDU，IMPALA 等组件。Apache Impala 组件用以快速分析、交互式查询。Apache Kudu 组件用于关系型