云计算与政府治理能力现代化:以黔西南州为例
上QQ阅读APP看书,第一时间看更新

一、大数据的概念和特点

自2008年《自然》杂志出版“Big Data”专辑,首次提出大数据(big data)的概念以来,经历了基础技术的兴起和发展、产业生态的构建,大数据思维和技术正逐步渗透到每个企业的数据化战略之中,渗透到整个社会的发展演变当中(梁锋, 2013)。

1.大数据萌芽期

自20世纪90年代至21世纪初,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识的管理技术也开始得到应用,比如数据仓库,知识管理和专家系统等(潘璠, 2014)。

2.大数据成熟期

21世纪的前十年,Web2.0应用的迅猛发展和非结构化数据的大量产生,使得传统的处理方法已经难以应对,大数据技术快速突破,大数据的解决方案也逐渐走向成熟。大数据在成熟期形成了并行计算与分布式系统两大核心技术。谷歌的GFS和MapReduce等大数据技术受到追捧,开源Hadoop平台大行其道(潘璠, 2014)。

3.大数据大规模应用期

2010年以后,大数据开始广泛用到各行各业。人们开始用数据来驱动决策,社会的信息化、智能化程度大幅提高(潘璠, 2014)。

(一)大数据概念

大数据的概念众说纷纭,到目前为止,还没有一个明确的统一定义,不同组织机构对大数据有着不同的描述。

麦肯锡认为,大数据是指大小超出了典型数据库软件的采集存储管理和分析等能力的数据集,一般范围是从几个TB(1TB=1024GB)到几个PB(1PB=1024TB)(唐雪飞, 2013)。

维基百科的定义是:无法在一定时间内使用常规的软件工具,对其内容进行抓取管理和处理的大量而复杂的数据集合(何宝宏,魏凯, 2014)。

美国国家标准技术研究院的定义是:数量大,获取速度快,或者是形态多样的数据,难以使用传统的关系型数据分析方法进行有效的分析,或者需要大规模的水平扩展才能高效处理的数据形态。

Gartner公司认为,大数据是一种体量大、快速和多样化的信息资产,需要使用高效率和创新型的信息技术加以处理,来提高发现洞察、做出决策和优化流程的能力(梁锋, 2013;姜奇平, 2013)。

不论哪一种定义,都描述了大数据的基本特征(4V)(孟小峰,慈祥, 2013)。

(二)大数据的基本特征

大数据是无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合,其特征不仅仅是体量巨大。大数据基本特征表现为4V(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快(孟小峰,慈祥, 2013)。

① 数据体量巨大。从TB级别,跃升到PB级别、EB级别或ZB级别。

② 数据类型繁多。包括结构化、半结构化、非结构化的数据库、文本、网络日志、视频、图片和地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。

③ 价值密度低。随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,例如在连续监控视频中,有用的数据可能仅仅有一两秒。如何通过强大的算法迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

④ 处理速度快。主要体现在实时分析,实时呈现分析结果。

既有的技术架构和路线,无法高效处理和分析如此海量的数据。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。