立即注册
 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

CopyRight 2012-2014 DS文库版权所有
基于分布式分包机制的海量数据处理方法研究
(0 次评价)102 人阅读0 次下载
1 基于分布式分包机制的 海量数据处理方法研究 浙江杭州 国网浙江省电力公司信息通信分公司,蒋锦霞、黄宇腾 福建厦门 亿力吉奥信息科技有限公司,闫东风 摘 要:随着信息技术日新月异的发展和信息化建设的不断发展和完善,社会各行各业所累积的信息数据也在急剧 增加,然而,数据的膨胀往往给应用系统带来难以承受的压力,较为典型的情况即为系统运行中占用的资源消耗过大造 成运行效率明显降低,数据展示时由于数据量过大造成数据无法展示或展示效果差的问题。本文结合电网系统的实例提 出了一种基于分布式分包处理机制的海量数据处理方法。 关键词:海量数据;分布式;数据字典;分包处理 0、引言 1.1 海量数据的发展和现状 随着互联网和信息化技术的迅猛发展和日益普及,在给人们带来便利的同时,各种数据信息也在急剧膨 胀,而且各行业累积的数据量正以指数级别的速率迅速增长。 “根据 IDC(国际数据公司)的监测统计,2011 年全球数据总量已经达到 1.8ZB(1ZB 等于 1 万亿 GB,1.8ZB 也就相当于 18 亿个 1TB 的移动硬盘),而这个 数值还在以每两年翻一番的速度增长,预计到 2020 年全球将总共拥有 35ZB 的数据量,增长近 20 倍”[1]。 海量数据的快速发展,让 IT 领域又开辟了一片关于大数据应用的市场。 “据中央财经大学中国经济管理 研究院博士张永力估算,国外大数据行业约有 1000 亿美元的市场,而且每年都以 10%的速度在增长,增速是 软件行业的两倍。我国 2012 年大数据市场规模大约 4.7 亿元,2013 年增速将达到 138%,达到 11.2 亿元,产 业发展潜力非常巨大”[2]。 海量数据的 4 个“V”指的是大数据的 4 个特点:第一,数据体量巨大。从 TB 级别,跃升到 PB 级别;第二, 数据类型繁多,数据来源于各种各样的渠道。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过 程中,可能有用的数据仅仅有一两秒。 第四,处理速度快。 一般要在秒级时间范围内给出分析结果,时间太长就 失去价值了。 海量数据与云计算, 从技术上看,海量数据与云计算的关系就像一枚硬币的正反面一样密不可分。 大数据 必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依 托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。 1.2 海量数据面临的问题 从全球范围来看,海量数据的研究还处在初级阶段,目前对海量数据的研究普遍面临着数据存储复杂, 数据处理和分析效率较低,以及海量数据难以共享、管理和应用等的问题。 (1)数据存储的复杂度 目前海量数据基本都是采用分布式集群管理,而伴随着数据量的不断膨胀,使海量数据在安全监控、数 据恢复以及后期数据发展等方面都存在一定的难度。 (2)数据处理和分析效率

打分:

0 星

用户评论:

电力科技在线 (英文缩写etmtch) 在广大电力企事业单位的支持下,无疑更将电力科技的作用与价值推向更深、更高和更广。作为电力行业科技领域的专业媒体《电力科技在线》(www.etmtch.org.cn)更须肩负责任,进一步完成建设沟通和推广平台的同时,树立更有深意的目标,发挥推动电力科技在创新体制、制度、思维、技术以及成果应用的现实作用,为电力产业的智能化未来贡献更大的价值。

合作方式