大数据(Big Data)指的是那些无法通过现有的软件工具进行有效提取、存储、搜索、共享、分析和处理的海量、复杂的数据集合。业界通常用四个关键特征来描述大数据,分别是数据体量巨大、数据类型繁多、价值密度低以及处理速度快。
数据体量巨大意味着数据规模极其庞大。据统计,目前人类产生的所有印刷材料的数据量大约为200PB,而历史上全人类所说的话的数据量则约为5EB(1EB等于210PB)。这些庞大的数据量对数据处理技术提出了更高的要求。
与传统的以文本为主的结构化数据相比,当前的数据类型更为多样。例如,网络日志、音频、视频、图片、地理位置信息等非结构化数据越来越多,这对数据处理能力提出了更高的要求。
大数据的一个显著特点是价值密度低,即在庞大的数据集中,真正有价值的信息所占比例较小。因此,如何通过强大的机器算法更快地从海量数据中提炼出有价值的信息,成为当前亟待解决的问题。
处理速度快是大数据区别于传统数据挖掘的重要特征。根据IDC的报告,预计到2020年,全球数据使用量将达到35.2ZB。这表明大数据处理的速度需要非常快,才能应对如此巨大的数据量。
了解了大数据的定义及其四大特征之后,我们可以进一步探讨大数据的价值。例如,《科学》杂志曾报道过一项研究,指出虽然每个人的出行模式不同,但大多数人的行为是可预测的。这意味着通过分析历史行为,我们可以预测未来的行动,准确率高达93%。
大数定理告诉我们,在试验条件不变的情况下,重复试验多次后,随机事件的频率会逐渐接近其理论概率。这种规律在大量重复试验中表现得尤为明显。例如,抛硬币时,虽然单次抛掷的结果是随机的,但经过多次抛掷后,正反面出现的概率将趋于平衡。
随着计算机处理能力的增强,可以获得的数据量也越来越大,从中挖掘出的价值也随之增加。例如:
最终,大数据的应用将使我们生活的各个方面受益。