大数据挖掘技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.6 数据的度量

大数据最根本的特征是超大的数据量。那么,多大的量才能称为大数据呢?这就要涉及数据度量的问题。

数据度量的基本单位是字节(byte,B)。通常,1B有8位(bit),一个英文字母占1B,一个汉字占2B。常用数据度量单位是KB、MB、GB、TB、PB、EB、ZB等,每一级相差1K(1K=1024)。大数据的数据量通常是指PB及以上级别的数据量,即250B以上的数据量。

同任何度量一样,当数值大到一定程度时,人们很难直观判断其大小,往往需要借助某些已知的事物作为参照物。例如,存储一部《红楼梦》约需1.7MB,存储一部高清晰度的电影约需1GB,那么1PB存储容量就可以存储约100万部高清晰度的电影。

2017年,IDC在其发布的Data Age 2025中预测,到2025年,全球大数据总量将达到163ZB,且呈现如下特征:全球数据总量的近20%将成为影响日常生活的关键数据;全球每天每个人与联网设备互动的次数约为4800次;全球数据分析总量将增至5.2ZB;超过25%的数据将成为实时数据,物联网实时数据将占其中的95%;生产力推动型和嵌入式数据、非娱乐性图片和视频将成为推动数据量增长的新动力。