hwyzw 发表于 2025-1-14 04:12:46

大数据技术起源与三驾马车:GFS、MapReduce和BigTable的深远影响

    我们常说的大数据技术主要源于2004年左右发表的三篇论文。其实数据处理已经存在很长时间了。每个公司或个人都有自己的大数据处理系统,还没有形成编程框架或概念。 ,而这三篇论文就是众所周知的大数据三驾马车,即分布式文件系统GFS、大数据分布式计算框架和NoSQL数据库。这三篇论文影响了当今的大数据生态,堪称大数据的基石,Doug 老板基于的三篇论文开发了 HDFS 分布式文件存储和计算框架。事实上,从开源代码中我们可以看到,大数据并不存在高级的技术难点。大多数实现都是基础的Java编程,但是对于行业的影响却是非常深远的。当时,大多数公司还专注于单机。如何尽可能提高单机的性能,就需要更昂贵的服务器。谷歌利用许多廉价的服务器,通过分布式技术组成了一个庞大的存储和计算集群,帮助业界处理存储和计算问题。提供了新的发展思路。

    2006 年发布后,雅虎率先使用它。后来,越来越多的大公司开始使用大数据存储和计算。 2008年,正式成为顶级项目。许多大数据商业公司也开始出现。同时,编程模型的编写也更加复杂。雅虎内部开发了 Pig,一种提供类似 SQL 语法的脚本语言。开发人员可以使用pig脚本来描述对数据集的操作。 Pig编译后会生成一个程序,然后运行到集群中。

    猪有问题。虽然相比直接写MR需要容器,但仍然需要学习新的脚本语法,所以发明了HIve来支持使用SQL语言进行大数据计算,然后转换成MR计算程序来运行,大大简化了分发。公式程序
页: [1]
查看完整版本: 大数据技术起源与三驾马车:GFS、MapReduce和BigTable的深远影响