《数据管理能力成熟度评估模型》实施指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 数据和大数据

1.1.1 数据

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态、相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号,不仅可以是狭义上的数字,还可以是具有一定意义的文字、字母、数字组合、图形、图像、视频、音频(声频)等。在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号、模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。

人们对数据进行加工形成信息,对信息进行综合提炼和总结形成知识,再通过对知识的合理应用形成智慧。DIKW体系将数据(D)、信息(I)、知识(K)、智慧(W)纳入一种金字塔形的层次体系(见图1-1)。通过DIKW体系模型分析可以看到,数据、信息、知识与智慧之间既有联系又有区别。数据是被记录下来可以被鉴别的符号,是原始素材,未被加工解释,没有回答特定的问题,没有任何意义。信息是已经被处理、具有逻辑关系的数据,是对数据的解释,这种信息对其接收者具有意义。知识是从相关信息中过滤、提炼及加工而得到的有用资料;特殊背景或语境下,知识将数据与信息、信息与信息在行动中的应用之间建立有意义的联系,体现了信息的本质、原则和经验;此外,知识基于推理和分析,还可能产生新的知识。智慧是人类所表现出来的一种独有的能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。

图1-1 DIKW体系

由此可见,数据对人类经济社会的发展起着重要的作用。特别是21世纪以来,随着以互联网、移动互联网、物联网等为代表的信息技术的飞速发展,数据量快速增长,数据的采集、存储、处理和传播的数量也与日俱增,数据变得愈加重要,已成为数字经济的关键生产要素。

1.1.2 大数据

从“大数据”被首次提出开始,各界就不断对其进行探讨,但是目前仍没有一个统一的定义。大家比较认同的观点是国际商业机器公司(IBM公司)提出的“4V”定义,即Volume(规模性)、Velocity(高速性)、Variety(多样性)和Veracity(真实性)。麦肯锡全球研究所对大数据的定义是,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有数据规模大、数据流转快、数据类型多和价值密度低四大特征。

进入21世纪以来,智能技术与设备的普及催生了大量以指数方式增长的非结构化或半结构化数据,与此同时,产生了云存储和大数据技术,大数据时代开始到来。云存储技术为数据的保存提供了新的思路,大数据技术则改变了传统处理数据和利用数据的方式。例如,数据挖掘技术可从大量杂乱无章的原始数据库中挖掘出隐藏在其中的有价值的信息或知识;大数据相关分析技术可利用相关关系挖掘出数据或信息之间的内在联系。

舍恩伯格指出,大数据时代,应该关注数据的相关关系,所以建立在相关关系分析上的预测是大数据的核心。数据可视化技术可借助图形的方式,使分散杂乱的数据之间的联系清晰地展现在人们面前,让人们从不同维度观察数据,发现信息。如今在大数据的环境下,随着大数据方法和技术的发展,世间万物都可被数据化,信息、知识、数据之间的界限由清晰到模糊,逐渐迈向“同一”。“数据”的内涵因此得到进一步扩大,主要指网络空间上的数据资源,是网络空间上所有的信息、知识和数据的集合。

“大数据”概念是大数据时代的产物。“大数据”源于“数据”,是网络空间上的“原始记录”,是概念上的一种变革。这个变革不仅意味着人类认识能力的提升与数据处理能力的提高,还意味着大数据时代关系的转变:由因果关系转变为关联关系,更意味着大数据管理时代的到来。