官方服务微信:dat818 购买与出租对接

大数据概念:从海量数据中快速获取价值信息的技术及构成

2万

主题

2

回帖

8万

积分

管理员

积分
86150
发表于 2025-1-29 00:18:19 | 显示全部楼层 |阅读模式
    1。大数据概念

    大数据技术是指从各种大量数据中迅速获得有价值的信息技术。解决大数据问题的核心是大数据技术。大数据或大量数据是指涉及的大量数据是如此之多,以至于无法通过当前的主流软件工具实现,并且它在合理的时间内实现了捕获,管理,处理和组织。更多积极的信息。与传统数据仓库应用相比,大数据分析具有大数据量和复杂查询分析的特征。

    2。数据组成

    大数据包括所有数据集,包括交易数据和交互式数据集,如图所示:

    (1)大规模交易数据:

    企业的内部业务交易信息主要包括在线交易数据和在线分析数据。它是一个结构化的历史数据,可通过关系数据库进行管理和访问管理和访问。通过这些数据,我们可以理解过去发生的事情。

    (2)大量互动数据:

    社交媒体数据组成和其他来源。它包括呼叫的详细记录,设备和传感器信息,GPS和地理定位映射数据,通过管理文件传输的大量图像文件,Web文本和单击流数据,科学信息,电子邮件等。您可以告诉我们将来会发生什么。

    3。大数据功能

    首先,从“大”开始。 “大”是数据的规模。大数据通常是指高于10TB(1TB =)的数据量。大数据与过去的大量数据不同。基本特征可以用4 V(Vol-um,值和VELOC-性,即大量物理量,多样性,低值密度和快速速度总结。

    第一个V是大量数据具有不同的格式。第一个是结构化的。我们的常见数据以及基于半的网页以及非结构化视频和音频数据。这些数据相对较大。有许多类型的数据,例如在线日志,视频,图片,地理位置信息等。

    第二个V是数量相对较大。我们有一些用户化每秒输入大量数据。许多客户内部有几批数据,以下淘宝是一些PB数据,因此将更正。本质

    非结构数据的超大规模和增长占数据总量的80〜90%,比结构数据快10至50倍。这是传统数据仓库的10到50倍

    第三V是,由于数据将具有及时性,因此需要快速处理,并且将获得结果。 1第二定律。最后一点也不同于传统数据挖掘技术。物联网,云计算,移动互联网,汽车网络,手机,平板电脑,PC和各种传感器遍布地球的各个角落,它们都是数据源或载体。

    第四v是值:许多无关的信息,它是低价值而没有处理的情况,这是值密度底部的数据。以视频为例,在连续和非互惠监视过程中,有用的数据可能仅为一两秒钟。大量数据分析非常复杂,因此过去不太适合依靠数据库BI。

   


    通常,“大(),多元化(),japid(),低值密度(值)”是“大数据”的重要特征。如图所示,具有这些特征的数据是大数据。本质

    4。大数据技术

    大数据主要包括数据收集,数据存储,数据管理和数据分析和采矿技术:

    (1)数据收集:ETL工具负责分布式,异质数据源,例如关系数据,打印数据文件等。将在临时中间层后进行清洁,转换和集成。在成为在线分析和处理的基础上,数据挖掘。

    (2)数据访问:关系数据库,NOSQL,SQL等。

    (3)数据处理:自然语言处理技术。

    (4)统计分析:假设检查,大量检查,差分分析,相关分析,多元回归分析,逐渐回归,回归预测和残留分析。

    (5)数据挖掘:分类(),估算(),预测(),相关分组或相关规则(或运行),(),描述和可视化以及),复杂的数据类型挖掘图形图形图像,视频,音频, ETC。)。

    (7)模型预测:预测模型,机器学习,建筑模拟。

    (8)结果演示:云计算,标签云,关系图等。

    5。大数据处理

    (1)收集

    大数据的收集是指使用多个数据库从客户端(Web,应用程序或传感器等)接收数据,并且用户可以使用这些数据库进行简单的查询和处理工作。例如,E -将使用传统的关系数据库MySQL存储每个事务数据。在收集大数据的过程中,它的主要特征和挑战平行很高,因为可能有成千上万的用户可以访问和操作,例如火车票销售网站和淘宝。当峰值达到100万时,有必要在收集端部署大量数据库以支持。以及如何在这些数据库之间进行负载平衡和碎片确实需要彻底思考和设计。

    (2)导入/预处理

    尽管将有很多数据库本身,但是如果您想有效地分析这些大量数据,则仍应从前端导入这些数据到集中的大型分布式数据库或分布式存储群集,并可以导入基础基础。做一些简单的清洁和预处理工作。引言和预处理过程的特征和挑战主要是导入的数据量。每秒进口量通常达到100m,甚至达到千兆位。

    (3)统计/分析

    统计和分析主要使用分布式数据库,或分布式计算簇来制作存储在其中的大量数据的普通分析和分类摘要,以满足最常见的分析需求。统计和分析的主要特征和挑战是分析中涉及的大量数据。它具有对系统资源的重要职业,尤其是I/O。

    (4)挖掘

   


    与以前的统计和分析过程不同,数据挖掘通常没有任何预集主题,这主要是因为现有数据是根据各种算法计算的,以实现预测的效果(),从而达到了一些高度需求用于级别数据分析。整个大数据处理的一般过程至少应符合这四个步骤,以便被视为相对完整的大数据处理

    6。大数据应用和案例分析

    应用大数据的关键也是它的必要条件。通过用户行为分析实现准确的营销是大数据的典型应用,但是大数据在各个行业(尤其是公共服务)中具有广泛的应用前景。

    以下是有关不同组织的应用,各行各业的不同组织的案例:

    (1)大数据申请案例:教育行业

    现在,大数据分析已应用于各个行业,尤其​​是在美国的公共教育中。如图所示,它已成为教学改革的重要力量。

    (2)大数据申请案例:生活与娱乐

    新华社的新媒体中心捕获了西娜微博提到“爸爸在哪里?”并分析了近1亿个关系。事实证明,“爸爸”在哪里变成了名副其实的“口口之王”

    (3)大数据应用程序案例:E-商务行业

    在电子商务行业中,使用大数据技术可以及时了解及时发生了多少新客户,您可以清楚地知道,不同类型客户的回购周期是多少天,为企业奠定了坚实的基础实施精确的营销。如果企业可以使用大数据生成的信息在适当的时间促进客户促进客户的促进,从而为企业带来收入和利润。

    使用大数据技术的前景非常光明。目前,我的国家正在以一种全面的方式建立一个富裕的社会。工业化,信息化,城市化和农业现代化的任务非常繁重。构建下一个新的信息基础架构,开发现代信息技术行业系统,改善信息安全保证系统,促进信息网络的广泛使用技术可以保证实现同时开发四项化合物。大数据分析对于我们深入了解世界和民族条件,掌握法律,实现科学发展并做出科学决定的重要意义至关重要。我们必须重新理解数据的重要价值。

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-22 20:58 , Processed in 0.087632 second(s), 18 queries .