官方服务微信:dat818 购买与出租对接

大数据技术起源与三驾马车:GFS、MapReduce和BigTable的深远影响

2万

主题

2

回帖

8万

积分

管理员

积分
87010
发表于 2025-1-14 04:12:46 | 显示全部楼层 |阅读模式
    我们常说的大数据技术主要源于2004年左右发表的三篇论文。其实数据处理已经存在很长时间了。每个公司或个人都有自己的大数据处理系统,还没有形成编程框架或概念。 ,而这三篇论文就是众所周知的大数据三驾马车,即分布式文件系统GFS、大数据分布式计算框架和NoSQL数据库。这三篇论文影响了当今的大数据生态,堪称大数据的基石,Doug 老板基于  的三篇论文开发了 HDFS 分布式文件存储和计算框架。事实上,从开源代码中我们可以看到,大数据并不存在高级的技术难点。大多数实现都是基础的Java编程,但是对于行业的影响却是非常深远的。当时,大多数公司还专注于单机。如何尽可能提高单机的性能,就需要更昂贵的服务器。谷歌利用许多廉价的服务器,通过分布式技术组成了一个庞大的存储和计算集群,帮助业界处理存储和计算问题。提供了新的发展思路。

    2006 年发布后,雅虎率先使用它。后来,越来越多的大公司开始使用大数据存储和计算。 2008年,正式成为顶级项目。许多大数据商业公司也开始出现。同时,编程模型的编写也更加复杂。雅虎内部开发了 Pig,一种提供类似 SQL 语法的脚本语言。开发人员可以使用pig脚本来描述对数据集的操作。 Pig编译后会生成一个程序,然后运行到集群中。

    猪有问题。虽然相比直接写MR需要容器,但仍然需要学习新的脚本语法,所以发明了HIve来支持使用SQL语言进行大数据计算,然后转换成MR计算程序来运行,大大简化了分发。公式程序

更多帖子推荐

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-4-23 16:17 , Processed in 0.103565 second(s), 18 queries .