hwyzw 发表于 2025-4-1 10:55:46

全面解读大数据:从狭义定义到3V和5V特征

    文章目录

    1. 什么是大数据?

    狭义定义:用现有一般技术难以管理的大量数据的集合。

    用现有一般技术难以管理有两方面:

    目前主流的关系型数据库无法对具有复杂结构且数据量庞大的数据进行管理,其查询时间超出了允许的最大限度。大数据具有 3V 和 5V 特征,其中 2.1 为 3V 特征。

    IBM 总结认为:有数量(也可称作容量)、种类(也可称作多样性)以及速度这几个方面,或者简单来说就是 3V,包含庞大的容量、极快的速度以及种类丰富的数据。

    2.2 大数据的5V特征

    1. :容量大

    容量单位:兆M–>吉G–>太T–>拍P–>艾E–>泽Z

    数据每年都以 50%的速度在增长,这意味着每过两年数据就会增长一倍。

    2. :类型多。需要支持多种不同格式、不同类型的数据

    3. :数据产生和更新的频率快

    4. value:应用价值大

    https://img0.baidu.com/it/u=3668871923,187466794&fm=253&fmt=JPEG&app=138&f=JPEG?w=1079&h=459

    5. :质量高,指数据的准确性和可信赖度

    3. 广义大数据

    广义大数据包括具备 3V 特征而难以管理的数据,还包括对这些数据进行存储、处理、分析的技术,同时也包括能够通过分析这些数据获得实用意义和观点的人才以及组织。

    分析技术:包括机器学习和统计分析等。

    能够从这些数据的分析中获取实用意义和观点的,有目前极为紧俏的“数据科学家”这类人才,还有能够对大数据进行有效运用的组织。

    4. 大数据的结构类型

    大多数的大数据都是非结构化或半结构化的

    从图中可以看出几种不同数据结构类型数据的增长趋势。由此可知,在未来,数据增长的 80%到 90%将会来源于非结构化的数据类型。

    大数据的基本数据类型:结构化、半结构化和非结构化数据

    除这三类外,还有一种重要的数据类型为元数据。

    元数据为一个数据集提供了其特征和结构方面的信息。这种数据大多是由机器生成的,并且是可以添加到数据集中的。

    https://img0.baidu.com/it/u=2935956790,2900645009&fm=253&fmt=JPEG&app=138&f=JPEG?w=1237&h=500

    搜寻元数据对于大数据的存储很重要,对于大数据的处理也很重要,对于大数据的分析同样很重要。因为元数据能够提供数据的系谱信息,还能够提供数据处理的起源。

    5. 大数据的使用步骤

    数据的使用:

    数据清洗数据管理数据分析数据可视化

    一般来说,对于大数据处理流程,我们可以将其分为以下四个步骤:首先是数据采集;其次是数据的导入以及清洗处理;接着是数据的统计分析和挖掘;最后是结果的可视化。

    数据采集时,通常会运用 ETL(--Load)工具,把数据抽取到临时文件或者数据库里,例如数据仓库。

    2数据清洗和预处理:如数据去重、异常处理和数据归一化

    数据统计分析方面,可以使用 SPSS 工具等进行分类汇总等操作,以满足数据分析的需求。而数据挖掘通常没有预先设定好的主题,主要是在现有的数据基础上,依据各种算法进行计算,从而起到预测的效果。

    4数据可视化

    判断题:

    大数据的大主要指容量大(x)
页: [1]
查看完整版本: 全面解读大数据:从狭义定义到3V和5V特征